代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
利用代理ip爬取新闻
来源:互联网 作者:admin 时间:2020-02-18 17:45:12

  选择优质的代理IP,我们能够利用它来完成很多网络工作,比如网上的大数据抓取,其实就是要依靠代理IP来进行的。今天,网连代理向大家介绍一个爬取新闻网站内容的教程。

  网连代理以UC网站为例子:


  这个网站并没有太复杂的反爬虫,我们可以直接解析爬取就好。


  from bs4 import BeautifulSoup


  from urllib import request


  def download(title,url):


  req=request.Request(url)


  response=request.urlopen(req)


  response=response.read().decode('utf-8')


  soup=BeautifulSoup(response,'lxml')


  tag=soup.find('div',class_='sm-article-content')


  if tag==None:


  return 0


  title=title.replace(':','')


  title=title.replace('"','')


  title=title.replace('|','')


  title=title.replace('/','')


  title=title.replace('\\','')


  title=title.replace('*','')


  title=title.replace('<','')


  title=title.replace('>','')


  title=title.replace('?','')


  with open(r'D:\code\python\spider_news\UC_news\society\\'+title+'.txt','w',encoding='utf-8')as file_object:


  file_object.write('\t\t\t\t')


  file_object.write(title)


  file_object.write('\n')


  file_object.write('该新闻地址:')


  file_object.write(url)


  file_object.write('\n')


  file_object.write(tag.get_text())


  #print('正在爬取')


  if __name__=='__main__':


  for i in range(0,7):


  url='https://news.uc.cn/c_shehui/'


  #headers={"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/61.0.3163.91 Safari/537.36",


  #"cookie":"sn=3957284397500558579;_uc_pramas=%7B%22fr%22%3A%22pc%22%7D"}


  #res=request.Request(url,headers=headers)


  res=request.urlopen(url)


  req=res.read().decode('utf-8')


  soup=BeautifulSoup(req,'lxml')


  #print(soup.prettify())


  tag=soup.find_all('div',class_='txt-area-title')


  #print(tag.name)


  for x in tag:


  news_url='https://news.uc.cn'+x.a.get('href')


  print(x.a.string,news_url)


  download(x.a.string,news_url)


  这样,我们就完成了网站新闻数据的抓取,可以检查运行结果看到,我们的数据是否成功获得。


相关文章内容简介
推荐阅读
  • 10 2019-07
    使用动态IP有哪些好处

    动态IP和静态IP是完全不同的定义,动态IP是不可以直接上网的,动态IP就是在你上网的时候电信会给你随机分配一个IP的地址。使用动态IP有哪些好处?使用动态IP的好处也是有很多的。

  • 18 2019-12
    电脑怎么设置固定IP地址上网

    无论是电脑、手机或其他一切电子设备,如果需要上网,它就必须有一个IP地址,然后IP地址的获取通常又分为动态IP(自动获取)或静态IP(手动设置)两种模式(您所在的网络具体适用哪种模

  • 28 2020-04
  • 06 2019-09
    代理IP自动切换的方法

    所有写搜索的朋友估计都有过和我一样的烦恼,那就是如果不断的对某一个网站进行爬行,很容易被封IP。最笨的版本就是减少爬行频率,但是在很多场景下对爬行效率是有要求的,那么最直接

  • 21 2018-12
  • 10 2019-06
    为何免费代理IP不适合于爬虫

    为什么需要爬虫呢?因为爬虫可以提高我们的工作效率,帮我们收集信息并分类归纳,可谓高效智能。做过爬虫的就知道,代理IP是必不可少的,好的代理IP可以使爬虫工作效率更上一层楼,但