代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
常见网络爬虫的类型有哪些
来源:网连代理 作者:admin 时间:2019-09-25 16:24:05

  网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。常见网络爬虫的类型有哪些?网连代理小编马上就来告诉你。


常见网络爬虫的类型有哪些


  1.通用网络爬虫(General Purpose Web Crawler)


  爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。


  通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。


  通用网络爬虫的爬行策略:主要有深度优先爬行策略和广度优先爬行策略。


  2.聚焦网络爬虫(Focused Crawler)


  将爬取目标定位在与主题相关的页面中


  主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务


  聚焦网络爬虫的基本构成:初始URL,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块,内容评价模块,链接评价模块等构成


  聚焦网络爬虫的爬行策略:


  基于内容评价的爬行策略


  基于链接评价的爬行策略


  基于增强学习的爬行策略


  基于语境图的爬行策略


  关于聚焦网络爬虫具体的爬行策略


  3.增量式网络爬虫(Incremental Web Crawler)


  增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方则不更新


  只爬取内容发生变化的网页或者新产生的网页,


  一定程度上能保证所爬取的网页,尽可能是新网页


  4.深层网络爬虫(Deep Web Crawler)


  表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页


  深层网页:隐藏在表单后面,不能通过静态链接直接获得,是需要提交一定的关键词之后才能够获取得到的网页。


  深层网络爬虫最重要的部分即为表单填写部分


  深层网络爬虫的基本构成:URL列表,LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)爬行控制器,解析器,LVS控制器,表单分析器,表单处理器,响应分析器等


  深层网络爬虫表单填写有两种类型:


  基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写)


  基于网页结构分析的表单填写(一般是领域只是有限的情况下使用,这种方式会根据网页结构进行分析,并自动的进行表单填写)


相关文章内容简介
推荐阅读
  • 03 2019-12
    修改电脑IP地址的方法

    随着互联网的飞速发展,现已经是不可取代的网络时代,网络让我们有了丰富多彩的生活和足不出户的便捷,互联网就像一张蜘蛛网一样,紧紧的把每一个人都吸附在上面,现在的生活也离不开

  • 20 2020-02
    筛选代理ip的方法

    在搜索引擎上找到的免费代理IP网站,我们对其进行爬取之后,这些IP需要经过检测。因为免费代理IP的可用率是比较低的,因为它的开放性,所以需要经过这么一步才能将有用的IP筛选下来。

  • 19 2019-07
    代理IP和VPN有什么区别

    许多人对于代理商IP和VPN一定会存有被误解,不清楚它们相互之间的不同之处是什么?更许多人觉得它们是一模一样的。这篇文章就来解答代理IP和vpn一模一样吗?代理IP和VPN有什么区别?

  • 07 2020-02
    个人电脑怎么实现换IP

    想换IP有哪些方法可以实现?个人电脑怎么实现换IP?有时候IP被限制了,怎么换IP访问,重启路由器可以换IP吗?一般家庭的基于PPPOE拨号方式上网的,使用的是动态IP,可以更换IP,下面一起去看

  • 30 2019-09
    使用IP代理进行网络爬虫的因素

    使用ip代理软件的人群并不是很广,可以应用的也不算少数,市面上有很多IP代理供应商的,所以IP代理有哪些好处?为什么要用IP代理呢?下面为大家分享使用IP代理进行网络爬虫的因素。如同

  • 10 2019-10
    使用独享代理IP池的正确姿势

    近年来互联网的快速发展,各行各业发展尤为迅速,大数据时代来临,爬虫行业迎来高速发展,代理IP的作用也日益重要。近几年来,各种代理IP的推出吸引了不少人的关注,到底什么是代理IP呢