代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
使用代理服务器爬取网页还会被封IP吗?
来源:网连代理 作者:admin 时间:2019-09-23 16:31:21

  最近写了个爬虫,大量访问后,会被屏蔽IP,于是用了代理服务器,可结果还是会被屏蔽。使用代理后还是会被屏蔽吗,有什么解决办法吗?


  使用高匿名代理IP就不会出现被屏蔽的问题了,之所以会被屏蔽,估计使用的代理IP为透明代理。


使用代理服务器爬取网页还会被封IP吗?


  在刚开始接触python爬虫的过程中,总会遇到数据采集时,遇到爬虫被封的问题。我想大家也遇到过类似的问题,我们今天探讨下从http代理ip的角度解决这个问题。


  一般爬虫被封的排查方法有以下几种:


  一、首先,检查JavaScript。如果你从网络服务器收到的页面是空白的,缺少信息,或其遇到他不符合你预期的情况(或者不是你在浏览器上看到的内容),有可能是因为网站创建页面的JavaScript执行有问题。


  二、检查正常浏览器提交的参数。如果你准备向网站提交表单或发出POST请求,记得检查一下页面的内容,看看你想提交的每个字段是不是都已经填好,而且格式也正确。用Chrome浏览器的网络面板(快捷键F12打开开发者控制台,然后点击“Network”即可看到)查看发送到网站的POST命令,确认你的每个参数都是正确的。


  三、是否有合法的Cookie?如果你已经登录网站却不能保持登录状态,或者网站上出现了其他的“登录状态”异常,请检查你的cookie。确认在加载每个页面时cookie都被正确调用,而且你的cookie在每次发起请求时都发送到了网站上。


  四、IP被封禁?如果你在客户端遇到了HTTP错误,尤其是403禁止访问错误,这可能说明网站已经把你的IP当作机器人了,不再接受你的任何请求。你要么等待你的IP地址从网站黑名单里移除,要么就换个IP地址(可以去星巴克上网)。如果你确定自己并没有被封杀,那么再检查下面的内容。


  五、确认你的爬虫在网站上的速度不是特别快。快速采集是一种恶习,会对网管的服务器造成沉重的负担,还会让你陷入违法境地,也是IP被网站列入黑名单的首要原因。给你的爬虫增加延迟,让它们在夜深人静的时候运行。切记:匆匆忙忙写程序或收集数据都是拙劣项目管理的表现;应该提前做好计划,避免临阵慌乱。


  六、还有一件必须做的事情:修改你的请求头!有些网站会封杀任何声称自己是爬虫的访问者。如果你不确定请求头的值怎样才算合适,就用你自己浏览器的请求头吧。


相关文章内容简介
推荐阅读
  • 28 2019-02
    代理IP可以解决上网的各种限制

    代理IP可以解决上网的各种限制!使用代理ip,因为代理ip有突破网络限制的作用,因此当遇到网络有限制时,可以考虑使用代理ip的。也许有些人对代理ip还不是怎么了解,今天小编就跟大

  • 17 2019-12
    浮动IP和虚拟IP有什么区别

    浮动IP和虚拟IP有什么区别?对我而言,这些术语意味着不同的东西。浮动IP地址用于支持高可用性群集中的故障转移。群集的配置使得在任何给定时间只有群集的活动成员“拥有”或响应该IP地

  • 09 2019-12
    解决浏览器代理服务器被拒绝方法

    今天电脑在突然重启后,连接网络多个浏览器都显示代理服务被拒绝。然后打开IE浏览器的internet选项——>连接——>局域网设置 发现勾选了代理服务器,取消勾选代理服务器,勾选上自动检测

  • 21 2019-06
    手机可以改ip地址吗?

    手机广泛因为便于携带,使用也方便,手机用户愈来愈多。那么手机的ip地址可以修改吗?答案是肯定的,IP有动态和静态的,动态IP地址指的是在需要时才实现ip地址分配的方式,动态ip和静态ip

  • 05 2019-06
    什么是动态ip?动态ip有什么作用?

    什么是动态ip?动态ip有什么作用?要想弄明白这个问题,首先要了解一下IP地址是什么。IP地址指的是:互联网协议地址。英文是Internet Protocol Address,缩写就成了IP Address,也就是我们经常说的IP

  • 18 2019-07
    Python爬虫如何设置代理IP

    在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就