您当前的位置: 首页 >  c#

寒冰屋

暂无认证

  • 1浏览

    0关注

    2286博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

使用实体框架核心和C#创建具有Dotnet核心的自定义Web爬虫程序

寒冰屋 发布时间:2019-02-28 20:52:34 ,浏览量:1

目录

介绍

背景

爬虫的基础知识

一步一步开发DotnetCrawler

eShopOnWeb Microsoft 项目使用示例

Visual Studio解决方案的项目结构

DotnetCrawler.Core

DotnetCrawler.Data

DotnetCrawler.Downloader

DotnetCrawler.Processor

DotnetCrawler.Pipeline

DotnetCrawler.Scheduler

DotnetCrawler.Sample

结论

  • 您可以在这里找到GitHub存储库:DotnetCrawler
介绍

在本文中,我们将实现一个自定义Web爬虫,并在eBay电子商务网站上使用此爬虫,该网站正在抓取eBay iphone页面并使用Entity Framework Core在我们的SQL Server数据库中插入此记录。一个示例数据库模式将是Microsoft eShopWeb应用程序,我们将eBay记录插入Catalog表中。 

背景

大多数Web抓取和Web爬网程序框架存在于不同的基础结构中。但是当涉及到dotnet环境时,你没有这样的选择,你无法找到适合你的自定义要求的工具。

在开始开发新的爬虫之前,我正在搜索下面列出的用C#编写的工具:

  • Abot是一个很好的爬虫,但如果你需要实现一些自定义的东西,它没有免费的支持,也没有足够的文档。
  • DotnetSpider拥有非常好的设计,其架构使用与Scrapy和WebMagic等最常用的爬虫相同的架构。但是文档是中文的,所以即使我用Google翻译将其翻译成英文,也很难学会如何实现自定义方案。此外,我想将爬虫输出插入到SQL Server数据库,但它无法正常工作,我在GitHub上打开了一个问题,但还没有人回复。

我没有其他选择在有限的时间内解决我的问题。我不想花更多的时间来研究更多的爬虫基础设施。我决定编写自己的工具。

爬虫的基础知识

搜索大量存储库让我有了创建新存储库的想法。因此,爬虫架构的主要模块几乎是相同的,所有这些模块全部都是爬虫生态的大蓝图,您可以在下面看到:

https://www.codeproject.com/KB/aspnet/1278217/c45161e7-4721-4e4e-a33f-9925617a294f.Jpeg

Crawler的主要模块

此图显示了应包含在常见爬网程序项目中的主要模块。因此,我在Visual Studio解决方案下将这些模块添加为单独的项目。

下面列出了这些模块的基本说明:

  • Downloader; 负责下载给定的URL到本地文件夹或临时文件并返回到htmlnode处理器的对象。
  • Processors; 负责处理给定的HTML节点,提取和查找预期的特定节点,使用这些处理过的数据加载实体。并将此处理器返回管道。
  • Pipelines; 负责将实体导出到使用应用程序的不同数据库。
  • Scheduler; 负责调度爬虫命令以提供友好的抓取操作。
一步一步开发DotnetCrawler

根据上述模块,我们如何使用Crawler类?让我们试着想象一下,然后一起实现。

static async Task MainAsync(string[] args)
{
    var crawler = new DotnetCrawler()
                         .AddRequest(new DotnetCrawlerRequest 
                         { Url = "https://www.ebay.com/b/Apple-iPhone/9355/bn_319682", 
                           Regex = @".*itm/.+", TimeOut = 5000 })
                         .AddDownloader(new DotnetCrawlerDownloader 
                         { DownloderType = DotnetCrawlerDownloaderType.FromMemory, 
                           DownloadPath = @"C:\DotnetCrawlercrawler\" })
                         .AddProcessor(new DotnetCrawlerProcessor { })
                         .AddPipeline(new DotnetCrawlerPipeline { });

    await crawler.Crawle();
}

如您所见,DotnetCrawler类具有泛型实体类型,该类型将用作DTO对象并保存数据库。Catalog是一个泛型类型,DotnetCrawler也是由DotnetCrawler.Data项目中的EF.Core scaffolding命令生成的。这个我们稍后会看到。

DotnetCrawler对象通过使用Builder Design Pattern配置为了加载它们的配置。此外,这种技术命名为流畅的设计。

DotnetCrawler 使用以下方法配置:

  • AddRequest; 这包括crawler目标的主要网址。此外,我们可以为目标网址定义过滤器,旨在集中目标部分。
  • AddDownloader; 这包括下载程序类型,如果下载类型为“ FromFile”,则表示下载到本地文件夹,然后还需要下载文件夹的路径。其他选项是“ FromMemory”和“ FromWeb”,它们都下载目标网址但不保存。
  • AddProcessor; 此方法加载新的默认处理器,它基本上提供了提取HTML页面和定位一些HTML标记。由于可扩展的设计,您可以创建自己的处理器。
  • AddPipeline; 此方法加载新的默认管道,其基本上提供将实体保存到数据库中。当前管道提供使用Entity Framework Core连接SqlServer。由于可扩展的设计,您可以创建自己的管道。

所有这些配置都应存储在主类中; DotnetCrawler.cs。   

public class DotnetCrawler : IDotnetCrawler where TEntity : class, IEntity
    {
        public IDotnetCrawlerRequest Request { get; private set; }
        public IDotnetCrawlerDownloader Downloader { get; private set; }
        public IDotnetCrawlerProcessor Processor { get; private set; }
        public IDotnetCrawlerScheduler Scheduler { get; private set; }
        public IDotnetCrawlerPipeline Pipeline { get; private set; }

        public DotnetCrawler()
        {
        }

        public DotnetCrawler AddRequest(IDotnetCrawlerRequest request)
        {
            Request = request;
            return this;
        }

        public DotnetCrawler AddDownloader(IDotnetCrawlerDownloader downloader)
        {
            Downloader = downloader;
            return this;
        }

        public DotnetCrawler AddProcessor(IDotnetCrawlerProcessor processor)
        {
            Processor = processor;
            return this;
        }

        public DotnetCrawler AddScheduler(IDotnetCrawlerScheduler scheduler)
        {
            Scheduler = scheduler;
            return this;
        }

        public DotnetCrawler AddPipeline(IDotnetCrawlerPipeline pipeline)
        {
            Pipeline = pipeline;
            return this;
        }        
    }

据此,在完成必要的配置之后,异步触发crawler.Crawle ()方法。此方法通过分别导航到下一个模块,从而完成其操作。

eShopOnWeb Microsoft 项目使用示例

该库还包括名称为DotnetCrawler.Sample的示例项目。基本上,在这个示例项目中,实现了Microsoft eShopOnWeb存储库。你可以在这里找到这个存储库。在这个示例存储库中实现了电子商务项目,当您使用EF.Core 代码优先方法生成时,它具有“Catalog”表。因此,在使用爬虫之前,您应该使用真实数据库下载并运行此项目。要执行此操作,请参阅此信息。(如果您已有数据库,则可以继续使用数据库。)

我们在DotnetCrawler类中将“Catalog”表作为泛型类型传递。

var crawler = new DotnetCrawler()

Catalog是一个DotnetCrawler的泛型类型,也是由DotnetCrawler.Data项目中的EF.Core scaffolding命令生成的。DotnetCrawler.Data项目安装EF.Core nuget 包。在运行此命令之前,.Data项目应下载以下nuget包。

https://www.codeproject.com/KB/aspnet/1278217/f180cc6a-f627-4cdb-a291-38b51bdd0192.Png

运行EF命令所需的包

现在,我们的软件包已准备就绪,可以在软件包管理器控制台中运行EF命令并选择DotnetCrawler.Data项目。

Scaffold-DbContext "Server=(localdb)\mssqllocaldb;Database=Microsoft.eShopOnWeb.CatalogDb;
Trusted_Connection=True;" Microsoft.EntityFrameworkCore.SqlServer -OutputDir Models

通过此命令DotnetCrawler.Data项目创建了Model文件夹。此文件夹包含从eShopOnWeb Microsoft的示例生成的所有实体和上下文对象。

https://www.codeproject.com/KB/aspnet/1278217/d987441f-23ef-46c6-94d7-76b818d40f29.Png

eShopOnWeb实体

之后,您需要使用自定义爬虫属性配置您的实体类,以便从eBay iphone的网页了解爬虫蜘蛛和加载实体字段;

[DotnetCrawlerEntity(XPath = "//*[@id='LeftSummaryPanel']/div[1]")]
public partial class Catalog : IEntity
{
    public int Id { get; set; }
    [DotnetCrawlerField(Expression = "1", SelectorType = SelectorType.FixedValue)]
    public int CatalogBrandId { get; set; }
    [DotnetCrawlerField(Expression = "1", SelectorType = SelectorType.FixedValue)]
    public int CatalogTypeId { get; set; }        
    public string Description { get; set; }
    [DotnetCrawlerField(Expression = "//*[@id='itemTitle']/text()", SelectorType = SelectorType.XPath)]
    public string Name { get; set; }
    public string PictureUri { get; set; }
    public decimal Price { get; set; }

    public virtual CatalogBrand CatalogBrand { get; set; }
    public virtual CatalogType CatalogType { get; set; }
}

使用此代码,基本上,crawler请求给定url并尝试查找为目标Web url定义xpath地址的给定属性。

在这些定义之后,最后我们能够运行crawler.Crawle()异步方法。在该方法中,它分别执行以下操作。

  • 它访问给定的请求对象中的url并查找其中的链接。如果Regex的属性值已满,则会相应地应用过滤。
  • 它在互联网上找到这些网址,并通过应用不同的方法下载。
  • 处理下载的网页以产生所需数据。
  • 最后,这些数据将使用EF.Core保存到数据库中。
public async Task Crawle()
{
var linkReader = new DotnetCrawlerPageLinkReader(Request);
var links = await linkReader.GetLinks(Request.Url, 0);
foreach (var url in links)
{
var document = await Downloader.Download(url);
var entity = await Processor.Process(document);
await Pipeline.Run(entity);
}
}
Visual Studio解决方案的项目结构

因此,您可以从使用空白解决方案在Visual Studio上创建新项目开始。之后,您可以添加.NET核心类库项目,如下图所示:

https://www.codeproject.com/KB/aspnet/1278217/3496a253-82e3-4e41-887d-5b0989ba6b13.Png

只有示例项目才是.NET Core控制台应用程序。我将逐一解释此解决方案中的所有项目。

DotnetCrawler.Core

该项目包括主要的爬虫类。它只有一个定义Crawle方法的interface和interface的实现。因此,您可以在此项目上创建自定义爬网程序。

https://www.codeproject.com/KB/aspnet/1278217/c86d8d31-77a0-4ce4-b20e-cf00f825043d.Png

DotnetCrawler.Data

该项目包括Attributes,Models和Repository文件夹。我们应该深入研究这些文件夹。

https://www.codeproject.com/KB/aspnet/1278217/ae6a0b5b-a2a5-4efc-b6b6-8ce026777409.Png

  • Models文件夹; 应包括由Entity Framework Core生成的Entity类。因此,您应该将数据库表实体放在此文件夹中,此文件夹也应该是Entity Framework Core的Context对象。现在这个文件夹有eShopOnWeb微软的数据库示例。
  • Attributes文件夹; 包括爬虫程序特性,用于获取有关已爬网页的xpath信息。有两个类,DotnetCrawlerEntityAttribute.cs用于实体特性,DotnetCrawlerFieldAttribute.cs用于属性特性。这些特性应该在EF.Core实体类上。您可以在下面的代码块中看到特性的示例用法:
[DotnetCrawlerEntity(XPath = "//*[@id='LeftSummaryPanel']/div[1]")]
public partial class Catalog : IEntity
{
public int Id { get; set; }
[DotnetCrawlerField(Expression = "//*[@id='itemTitle']/text()", SelectorType = SelectorType.XPath)]
public string Name { get; set; }
}

第一个xpath用于在开始抓取时定位该HTML节点。第二个用于获取特定HTML节点中的真实数据信息。在此示例中,此路径从eBay检索iphone名称。

  • Repository文件夹; 包括EF.Core实体和数据库上下文的存储库设计模式实现。我用这个资源的存储库模式。为了使用存储库模式,我们必须为所有EF.Core实体申请IEntity interface。您可以看到上述代码,Catalog类实现了IEntity interface。所以爬虫的泛型类型应该从IEntity中实现。
DotnetCrawler.Downloader

该项目包括主要爬虫类中的下载算法。根据下载程序DownloadType可以应用不同类型的下载方法。此外,您可以在此处开发自己的自定义下载程序,以实现您的要求。为了提供这些下载功能,这个项目应该加载HtmlAgilityPack和HtmlAgilityPack.CssSelector.NetCore包;

https://www.codeproject.com/KB/aspnet/1278217/69f52ab5-99c0-4d74-982f-273b7a6bf52d.Png

https://www.codeproject.com/KB/aspnet/1278217/75117be4-f216-465a-95b7-92256a68fd1d.Png

下载方法的主要功能是在DotnetCrawlerDownloader.cs中——DownloadInternal()方法:

private async Task DownloadInternal(string crawlUrl)
{
    switch (DownloderType)
    {
        case DotnetCrawlerDownloaderType.FromFile:
            using (WebClient client = new WebClient())
            {
                await client.DownloadFileTaskAsync(crawlUrl, _localFilePath);
            }
            return GetExistingFile(_localFilePath);

        case DotnetCrawlerDownloaderType.FromMemory:
            var htmlDocument = new HtmlDocument();
            using (WebClient client = new WebClient())
            {
                string htmlCode = await client.DownloadStringTaskAsync(crawlUrl);
                htmlDocument.LoadHtml(htmlCode);
            }
            return htmlDocument;

        case DotnetCrawlerDownloaderType.FromWeb:
            HtmlWeb web = new HtmlWeb();
            return await web.LoadFromWebAsync(crawlUrl);
    }

    throw new InvalidOperationException("Can not load html file from given source.");
}

此方法根据下载类型下载目标网址; 下载本地文件,下载临时文件或不直接从网上下载。

此外,爬虫的主要功能之一是页面访问算法。所以在这个项目中,在DotnetCrawlerPageLinkReader.cs类中应用页面访问算法和递归方法。您可以通过给出depth参数来使用此页面访问算法。我正在使用此资源来解决此问题。

public class DotnetCrawlerPageLinkReader
{
    private readonly IDotnetCrawlerRequest _request;
    private readonly Regex _regex;

    public DotnetCrawlerPageLinkReader(IDotnetCrawlerRequest request)
    {
        _request = request;
        if (!string.IsNullOrWhiteSpace(request.Regex))
        {
            _regex = new Regex(request.Regex);
        }
    }

    public async Task GetLinks(string url, int level = 0)
    {
        if (level < 0)
            throw new ArgumentOutOfRangeException(nameof(level));

        var rootUrls = await GetPageLinks(url, false);

        if (level == 0)
            return rootUrls;

        var links = await GetAllPagesLinks(rootUrls);

        --level;
        var tasks = await Task.WhenAll(links.Select(link => GetLinks(link, level)));
        return tasks.SelectMany(l => l);
    }

    private async Task GetPageLinks(string url, bool needMatch = true)
    {
        try
        {
            HtmlWeb web = new HtmlWeb();
            var htmlDocument = await web.LoadFromWebAsync(url);

            var linkList = htmlDocument.DocumentNode
                               .Descendants("a")
                               .Select(a => a.GetAttributeValue("href", null))
                               .Where(u => !string.IsNullOrEmpty(u))
                               .Distinct();

            if (_regex != null)
                linkList = linkList.Where(x => _regex.IsMatch(x));

            return linkList;
        }
        catch (Exception exception)
        {
            return Enumerable.Empty();
        }
    }

    private async Task GetAllPagesLinks(IEnumerable rootUrls)
    {
        var result = await Task.WhenAll(rootUrls.Select(url => GetPageLinks(url)));

        return result.SelectMany(x => x).Distinct();
    }
}
DotnetCrawler.Processor

该项目提供将下载的Web数据数据转换为EF.Core实体。此需求通过使用反射来解决泛型类型的 get或set成员。在DotnetCrawlerProcessor.cs类中,实现crawler的当前处理器。此外,您可以在此处开发自己的自定义处理器,以实现您的要求。

    

public class DotnetCrawlerProcessor : IDotnetCrawlerProcessor 
                where TEntity : class, IEntity
{
    public async Task Process(HtmlDocument document)
    {
        var nameValueDictionary = GetColumnNameValuePairsFromHtml(document);

        var processorEntity = ReflectionHelper.CreateNewEntity();
        foreach (var pair in nameValueDictionary)
        {
            ReflectionHelper.TrySetProperty(processorEntity, pair.Key, pair.Value);
        }

        return new List
        {
            processorEntity as TEntity
        };
    }

    private static Dictionary GetColumnNameValuePairsFromHtml(HtmlDocument document)
    {
        var columnNameValueDictionary = new Dictionary();

        var entityExpression = ReflectionHelper.GetEntityExpression();
        var propertyExpressions = ReflectionHelper.GetPropertyAttributes();

        var entityNode = document.DocumentNode.SelectSingleNode(entityExpression);

        foreach (var expression in propertyExpressions)
        {
            var columnName = expression.Key;
            object columnValue = null;
            var fieldExpression = expression.Value.Item2;

            switch (expression.Value.Item1)
            {
                case SelectorType.XPath:
                    var node = entityNode.SelectSingleNode(fieldExpression);
                    if (node != null)
                        columnValue = node.InnerText;
                    break;
                case SelectorType.CssSelector:
                    var nodeCss = entityNode.QuerySelector(fieldExpression);
                    if (nodeCss != null)
                        columnValue = nodeCss.InnerText;
                    break;
                case SelectorType.FixedValue:
                    if (Int32.TryParse(fieldExpression, out var result))
                    {
                        columnValue = result;
                    }
                    break;
                default:
                    break;
            }
            columnNameValueDictionary.Add(columnName, columnValue);
        }

        return columnNameValueDictionary;
    }
}
DotnetCrawler.Pipeline

该项目为处理器模块中的给定实体对象提供insert数据库。使用EF.Core对象关系映射框架插入数据库。在DotnetCrawlerPipeline.cs类中实现了当前的crawler管道。您也可以在此处开发自己的自定义管道,以实现您的要求。(不同数据库类型的持久性)。

public class DotnetCrawlerPipeline : IDotnetCrawlerPipeline 
               where TEntity : class, IEntity
{
    private readonly IGenericRepository _repository;

    public DotnetCrawlerPipeline()
    {
        _repository = new GenericRepository();
    }

    public async Task Run(IEnumerable entityList)
    {
        foreach (var entity in entityList)
        {
            await _repository.CreateAsync(entity);
        }
    }
}
DotnetCrawler.Scheduler

此项目为爬网程序的爬取操作提供调度作业。此需求未实现默认解决方案,因此您可以在此处开发自己的自定义处理器以实现您的要求。您可以使用Quartz或Hangfire进行后台作业。

DotnetCrawler.Sample

该项目证明了使用DotnetCrawler从eBay电子商务网站插入新的iPhone到Catalog表中 。因此,您可以将启动项目设置为DotnetCrawler.Sample并调试我们在本文上面部分中解释的模块。

https://www.codeproject.com/KB/aspnet/1278217/61473902-b682-4007-9882-5cc932bca0e1.Png

Catalog 表列表,Crawler插入的最后10条记录

结论

该库的设计与其他强大的爬虫库(如WebMagic和Scrapy)一样, 但是建立在体系结构之上,通过应用域驱动设计和面向对象原则等最佳实践,重点关注其易扩展性。因此,您可以轻松实现自定义需求,并使用这个简单、轻量级的Web爬行/抓取库的默认功能,以实现基于dotnet核心的Entity Framework Core输出。

  • GitHub:源代码

 

原文地址:https://www.codeproject.com/Articles/1278217/Creating-Custom-Web-Crawler-with-Dotnet-Core-using

关注
打赏
1665926880
查看更多评论
立即登录/注册

微信扫码登录

0.0539s