代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
爬虫加代理的三种方式
来源:网连代理 作者:admin 时间:2019-12-31 14:55:11

  在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,这里讲述一个爬虫技巧,设置代理IP。 

 爬虫加代理的三种方式

  1.Selenium调用代理

  from selenium import webdriver

  proxy='123.58.10.36:8080'

  chrome_options=webdriver.ChromeOptions()

  chrome_options.add_argument('--proxy-server=http://'+proxy)

  browser=webdriver.Chrome(chrome_options=chrome_options)

  browser.get('http://httpbin.org/get')

  2.requests调用代理

  import requests

  proxy='123.58.10.36:8080'#本地代理

  #proxy='username:password 123.58.10.36:8080'

  proxies={

  'http':'http://'+proxy,

  'https':'https://'+proxy

  }

  try:

  response=requests.get('http://httpbin.org/get',proxies=proxies)

  print(response.text)

  except requests.exceptions.ConnectionError as e:

  print('错误:',e.args)

  虽然形式上就是这样写的,但是亲测并不好用,总是会出现连接错误,具体没弄明白为什么,有哪位大佬可以解释一下

  3.urllib调用代理

  from urllib.error import URLError

  from urllib.request import ProxyHandler,build_opener

  proxy='123.58.10.36:8080'#使用本地代理

  #proxy='username:password 123.58.10.36:8080'#购买代理

  proxy_handler=ProxyHandler({

  'http':'http://'+proxy,

  'https':'https://'+proxy

  })

  opener=build_opener(proxy_handler)

  try:

  response=opener.open('http://httpbin.org/get')#测试ip的网址

  print(response.read().decode('utf-8'))

  except URLError as e:

  print(e.reason)

  三种情况,根据个人情况自己选择,不做过多建议!


相关文章内容简介
推荐阅读
  • 25 2019-09
    常见网络爬虫的类型有哪些

    网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。常见网络爬虫的类型有哪些?小编马上就来告诉

  • 21 2019-10
    怎样突破代理获取客户的真实IP

    怎样突破代理获取客户的真实IP?对于这三个值:REMOTE_ADDR、HTTP_VIA、HTTP_X_FORWARDED_FOR来说,可以分以下五种情况:一、没有使用代理服务器的情况:

  • 29 2020-07
  • 22 2019-01
  • 06 2019-01
  • 13 2019-08
    代理IP可以帮你换个身份

    代理IP就是更换我们本地IP的软件,网络中唯一识别身份的就是IP,所以可以说代理IP可以帮我们换个身份。在生活中代理IP有很多用途的,例如网络爬虫,需要用到代理IP换IP才能保证工作的顺利