代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
使用HTTP代理ip突破防采集策略
来源:网连代理 作者:admin 时间:2019-11-26 16:18:02

使用HTTP代理ip突破防采集策略

  常见的Web反采集策略大概有5种,他们是:

  1、数据加密;

  2、限制访问频率;

  3、数据以非文本形式展现;

  4、验证码保护;

  5、Cookie验证;

  本文主要探讨一下如何突破限制访问频率:

  限制访问频率的原理:

  服务器端程序(例如,WAF、维护了一个客户端(IP、的访问计数,如果客户端(IP、请求频率超过阈值,请求就会被拦截,通常会出现下列情形:

  1、最常见的:返回403或503错误。

  2、连接被重置。

  3、最让人闹心的结果:返回无效的内容

  突破方法:

  1、使用HTTP代理ip。因为服务端是根据IP进行限制的,通过使用代理ip就可以将下载量平均到多个IP上。

  需要提醒的是不要选择透明代理,因为透明代理就相当于你的真是ip只穿了一件透明的纱巾,里面的东西看的一清二楚,用和不用效果没啥区别因为WAF能够检测到真实的源IP,所以要使用隐秘(secret)代理。

  2、增加请求延迟。比如,WAF限制单IP请求频率不能超过20次/分钟,我们可以在两次请求之间增加5S的延迟,这样下载频率就是12次/分钟,就不会被拦截了。

  我们一般都会将1,2种方法结合使用

  通常我们会将1、和2、的方法结合,这样即能防止被拦截,又能加快采集速度。例如,使用10个ip代理,每次下载增加5S延迟,一分钟的实际下载量就是:120次。

  3、利用搜索引擎缓存(Google,Bing,百度、。“曲线救国”策略,绕过目标服务器,从搜索引擎的缓存进行采集。而且缓存里的页面的结构和原页面是一样的,不用重写提取规则。

  4、谷歌翻译。让谷歌作为我们的“代理”,将源语言和目标语言都设置成一样,这样从谷歌翻译结果获取的数据和原页面就是一样的(注意,HTML结构有很大变化,需要重写提取规则)。

  5、对于返回无效内容的情况,一定要找到检测内容是否有效的方法,否则很难保证所有数据都是正确的。


相关文章内容简介
推荐阅读
  • 13 2019-12
    为什么IP地址需要更换?怎么更换?

    如果你有一些需要长期在线运行的程序,如QQ、微信、YY等工具,或者是刷流量的软件,或者是其他挂机网赚的项目,最重要的是运行游戏软件挂机。网连代理软件可以代替个人电脑挂机,针对

  • 27 2020-08
  • 16 2019-08
    代理IP如何选择共享IP还是独享IP

    代理IP软件一般都会有共享IP和独享IP,共享IP就是很多人使用一个IP池,别人使用过的IP可能下一个使用的就是你。独享IP就是一个人使用一个IP池,IP质量比较高。选择共享IP还是独享IP可以看自

  • 30 2019-09
    怎么使用代理ip访问网页

    怎么使用代理ip访问网页?利用IP代理换IP访问网页对于互联网从业者已经不是一件稀奇的事情了,一般的浏览器都是会自带换IP的功能的,我们拿火狐浏览器举个例子。打开火狐设置选项,找到

  • 16 2019-08
    代理IP怎么分类

    动态代理IP的作用越来越大,有用来做爬虫的,有用来注册的,还有用来投票的,抢购的啥都有,还有很多用来隐藏自己真实的IP,做一些不可描述的事情,也有很多朋友问。今天我们来讲讲代

  • 04 2019-12
    市场分析为什么要用代理IP

    据调查显示,我国网民规模超7.51亿,每天所产生的互联网数据更是数目庞大。想要在互联网中采集有用数据信息,会是一个很大的难题。那到底是否有办法解决呢?市场分析为什么要用代理IP呢