代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
网络爬虫分布式抓取的系统结构
来源: 作者:admin 时间:2018-11-18 10:17:01

一般来说,网络爬虫抓取系统需要面对的是整个互联网上数以亿计的网页。单个抓取程序是不可能完成这样的任务的。因此往往需要多个抓取程序一起来处理。网络爬虫抓取系统往往是一个分布式的三层结构。

最下一层是分布在不同地理位置的数据中心,在每个数据中心里有若干台抓取服务器,而每台抓取服务器上可能部署了若干套爬虫程序。这就构成了一个基本的分布式抓取系统。


网连动态IP代理软件可以实现一键IP自动切换,千万IP库存,自动去重,支持电脑、手机多终端使用,智能加速技术多IP池自动分配,数据优化智能千万IP访问。  


对于一个数据中心内的不同抓去服务器,协同工作的方式有几种:
    

1.主从式(Master-Slave)
 

对于主从式而言,有一台专门的Master服务器来维护待抓取URL队列,它负责每次将URL分发到不同的Slave服务器,而Slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调解各个Slave服务器的负载情况。以免某些Slave服务器过于清闲或者劳累。这种模式下,Master往往容易成为系统瓶颈。

    

2.对等式(Peer to Peer)


在这种模式下,所有的抓取服务器在分工上没有不同。每一台抓取服务器都可以从待抓取在URL队列中获取URL,然后对该URL的主域名的hash值H,然后计算H mod m(其中m是服务器的数量,以上图为例,m为3),计算得到的数就是处理该URL的主机编号。


举例:假设对于URL www.baidu.com,计算器hash值H=8,m=3,则H mod m=2,因此由编号为2的服务器进行该链接的抓取。假设这时候是0号服务器拿到这个URL,那么它将该URL转给服务器2,由服务器2进行抓取。


这种模式有一个问题,当有一台服务器死机或者添加新的服务器,那么所有URL的哈希求余的结果就都要变化。也就是说,这种方式的扩展性不佳。针对这种情况,又有一种改进方案被提出来。这种改进的方案是一致性哈希法来确定服务器分工。


 一致性哈希将URL的主域名进行哈希运算,映射为一个范围在0-232之间的某个数。而将这个范围平均的分配给m台服务器,根据URL主域名哈希运算的值所处的范围判断是哪台服务器来进行抓取。


如果某一台服务器出现问题,那么本该由该服务器负责的网页则按照顺时针顺延,由下一台服务器进行抓取。这样的话,及时某台服务器出现问题,也不会影响其他的工作。 


网连软件作为动态IP行业的领导者,旨在为各行业提供最优质的网络ip服务,为您量身打造行业资讯推荐、软件使用技巧,更有专业人士为您定制IP服务,是您网络爬虫的首要选择。


官网可领取免费试用时长,更多问题请点击官网在线客服咨询。


相关文章内容简介
推荐阅读
  • 23 2019-02
  • 18 2020-02
    利用代理ip爬取新闻

    选择优质的代理IP,我们能够利用它来完成很多网络工作,比如网上的大数据抓取,其实就是要依靠代理IP来进行的。今天,网连代理向大家介绍一个爬取新闻网站内容的教程。

  • 06 2019-08
    如何使用http代理ip解决医疗大数据问题

    为什么要用分布式爬虫,大致的说,就是当你需要采集大量数据时,因为任务太多,一台机器搞不定了,这时候需要多台机器共同协作完成,最后将所有机器完成的任务汇总在一起,直到任务结

  • 06 2020-02
    动态IP有什么关键性用途

    动态IP​有什么关键性用途?动态性IP地址常常变化,每一次设备联接到互联网时,动态ip地址都是发生变化。当机器设备试着连接到互联网时,dhcp网络服务器提供动态性地址。当用户在Web电脑浏

  • 29 2019-09
    http代理的用法

    关于http代理,大家的初步了解是可以换IP,常用的就是解除IP限制的作用,其他一概不知道,今天小编就为大家介绍一下HTTP代理IP有什么用。虽然市场上代理IP不少,但一个款的使用方法不一致

  • 15 2019-06
    怎么更换电脑IP

    更换IP是使用电脑比较常见的事情,但是很多初学者并不知道IP该怎么更换,下面就为大家详细的介绍怎么更换电脑IP。1.打开电脑后,找到网络图标,右击选择属性。或者直接在桌面左下角的开