代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
使用User Agent和代理IP隐藏身份的方法
来源:网连代理 作者:admin 时间:2019-11-12 16:30:56

  一、为何要设置User Agent

  有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。

  User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中,如果不设置User Agent,程序将使用默认的参数,那么这个User Agent就会有Python的字样,如果服务器检查User Agent,那么没有设置User Agent的Python程序将无法正常访问网站。

  Python允许我们修改这个User Agent来模拟浏览器访问,它的强大毋庸置疑。

使用User Agent和代理IP隐藏身份的方法

  二、常见的User Agent

  1.Android

  Mozilla/5.0(Linux;Android 4.1.1;Nexus 7 Build/JRO03D)AppleWebKit/535.19(KHTML,like Gecko)Chrome/18.0.1025.166 Safari/535.19

  Mozilla/5.0(Linux;U;Android 4.0.4;en-gb;GT-I9300 Build/IMM76D)AppleWebKit/534.30(KHTML,like Gecko)Version/4.0 Mobile Safari/534.30

  Mozilla/5.0(Linux;U;Android 2.2;en-gb;GT-P1000 Build/FROYO)AppleWebKit/533.1(KHTML,like Gecko)Version/4.0 Mobile Safari/533.1

  2.Firefox

  Mozilla/5.0(Windows NT 6.2;WOW64;rv:21.0)Gecko/20100101 Firefox/21.0

  Mozilla/5.0(Android;Mobile;rv:14.0)Gecko/14.0 Firefox/14.0

  3.Google Chrome

  Mozilla/5.0(Windows NT 6.2;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/27.0.1453.94 Safari/537.36

  Mozilla/5.0(Linux;Android 4.0.4;Galaxy Nexus Build/IMM76B)AppleWebKit/535.19(KHTML,like Gecko)Chrome/18.0.1025.133 Mobile Safari/535.19

  4.iOS

  Mozilla/5.0(iPad;CPU OS 5_0 like Mac OS X)AppleWebKit/534.46(KHTML,like Gecko)Version/5.1 Mobile/9A334 Safari/7534.48.3

  Mozilla/5.0(iPod;U;CPU like Mac OS X;en)AppleWebKit/420.1(KHTML,like Gecko)Version/3.0 Mobile/3A101a Safari/419.3

  上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent,直接copy就能用。

  三、IP代理的使用

  1.为何使用IP代理

  UA已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。

  .代理IP选取

  在写代码之前,先在代理IP网站选好一个IP地址,这里推介亿牛云代理。他们家产品比较齐全,api接口调用和动态转发调用都支持,而且代理是自营线路,电信专线。我稳定性,可用性,速度吗,延迟都是非常好的。这里就展示下他们的动态转发代理进行示例,动态转发就是他们会提供一个固定的ip地址给你,,直接配置到程序里面就可以使用,不需要自己去调用ip,也不需要自己管理ip池,使用起来超级方便简单,对于懒人来说绝对是最好的选择。

  代码示例,这里是以python为例子

  1、Python¶

  requests

  #!-*-encoding:utf-8-*-

  import requests

  import random

  #要访问的目标页面

  targetUrl="http://httpbin.org/ip"

  #要访问的目标HTTPS页面

  #targetUrl="https://httpbin.org/ip"

  #代理服务器

  proxyHost="t.16yun.cn"

  proxyPort="31111"

  #代理隧道验证信息

  proxyUser="username"

  proxyPass="password"

  proxyMeta="http://%(user)s:%(pass)s %(host)s:%(port)s"%{

  "host":proxyHost,

  "port":proxyPort,

  "user":proxyUser,

  "pass":proxyPass,

  }

  #设置http和https访问都是用HTTP代理

  proxies={

  "http":proxyMeta,

  "https":proxyMeta,

  }

  #设置IP切换头

  tunnel=random.randint(1,10000)

  headers={"Proxy-Tunnel":str(tunnel)}

  resp=requests.get(targetUrl,proxies=proxies,headers=headers)

  print resp.status_code

  print resp.text


相关文章内容简介
推荐阅读
  • 16 2019-08
    代理IP如何选择共享IP还是独享IP

    代理IP软件一般都会有共享IP和独享IP,共享IP就是很多人使用一个IP池,别人使用过的IP可能下一个使用的就是你。独享IP就是一个人使用一个IP池,IP质量比较高。选择共享IP还是独享IP可以看自

  • 17 2020-01
    怎么提高爬虫的采集效率

    大家都知道采集数据是要花时间,可是也不能一直等着,尤其是需要采集大量数据的情况下。那么如何提高爬虫采集效率就是十分关键的,那小编带大伙儿一块去了解怎么提高爬虫的采集效率这

  • 29 2020-05
  • 27 2020-02
    代理ip之间有什么区别

    代理ip的种类较多,有透明代理IP、普通匿名代理、高级匿名代理IP、HTTP代理IP、HTTPS代理IP和Socks代理IP等,那么他们是怎么分类的,这些代理ip之间又有什么区别呢?下面为大家介绍下HTTP代理IP

  • 18 2019-06
    爬虫代理IP不够的问题

    在爬虫工作过程中,经常会被目标网站禁止访问,但又找不到原因,这是令人非常恼火的事情。一般来说,目标网站的反爬虫策略都是依靠IP来标识爬虫的,很多时候,我们访问网站的IP地址会

  • 20 2019-12
    服务器租用需要注意这四点

    在现如今网络发达的时代,服务器租用已经成为一种业务模式。它的优点在于用户不用去自己订购服务器也可以使用发哦服务器,能大大地降低服务器资金的投入,这一点对于一些中小型企业和