在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,这里讲述一个爬虫技巧,设置代理IP。
1.Selenium调用代理
from selenium import webdriver
proxy='123.58.10.36:8080'
chrome_options=webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://'+proxy)
browser=webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://httpbin.org/get')
2.requests调用代理
import requests
proxy='123.58.10.36:8080'#本地代理
#proxy='username:password 123.58.10.36:8080'
proxies={
'http':'http://'+proxy,
'https':'https://'+proxy
}
try:
response=requests.get('http://httpbin.org/get',proxies=proxies)
print(response.text)
except requests.exceptions.ConnectionError as e:
print('错误:',e.args)
虽然形式上就是这样写的,但是亲测并不好用,总是会出现连接错误,具体没弄明白为什么,有哪位大佬可以解释一下
3.urllib调用代理
from urllib.error import URLError
from urllib.request import ProxyHandler,build_opener
proxy='123.58.10.36:8080'#使用本地代理
#proxy='username:password 123.58.10.36:8080'#购买代理
proxy_handler=ProxyHandler({
'http':'http://'+proxy,
'https':'https://'+proxy
})
opener=build_opener(proxy_handler)
try:
response=opener.open('http://httpbin.org/get')#测试ip的网址
print(response.read().decode('utf-8'))
except URLError as e:
print(e.reason)
三种情况,根据个人情况自己选择,不做过多建议!
Python3如何爬取微信好友基本信息,并且进行数据清洗?下面跟着网连代理带来的教程,我们一起看看具体的操作要怎么实现。
http代理服务器的工作步骤是怎样的?为大家总结如下:一、监听端口。二、接受连接,创建新线程,并继续监听。
许多朋友在购物时都是以价位为主要因素,就拿代理IP或是动态VPS来说,有免费的就不用收费的,有价格便宜的就不用更贵的。这样尽管降低了成本费,但直接也降低了高效率,在如今这个新时
随着使用HTTP代理IP的用户越来越多,互联网中各种各样的代理IP供应商也层出不穷。对用户而言,要想挑选到合适的商品,不仅要慎重,还要懂得很多细节。下面就来告诉大家如何挑选到合适的H
作爬虫采集的工程师们对高匿动态爬虫代理ip肯定不陌生,也接触过不少爬虫代理ip的提供商家,那么对于爬虫工作,怎么选择高匿动态爬虫代理ip呢?哪样的ip代理提供商更加适合自己呢?首先