代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
利用代理ip爬取新闻
来源:互联网 作者:admin 时间:2020-02-18 17:45:12

  选择优质的代理IP,我们能够利用它来完成很多网络工作,比如网上的大数据抓取,其实就是要依靠代理IP来进行的。今天,网连代理向大家介绍一个爬取新闻网站内容的教程。

  网连代理以UC网站为例子:


  这个网站并没有太复杂的反爬虫,我们可以直接解析爬取就好。


  from bs4 import BeautifulSoup


  from urllib import request


  def download(title,url):


  req=request.Request(url)


  response=request.urlopen(req)


  response=response.read().decode('utf-8')


  soup=BeautifulSoup(response,'lxml')


  tag=soup.find('div',class_='sm-article-content')


  if tag==None:


  return 0


  title=title.replace(':','')


  title=title.replace('"','')


  title=title.replace('|','')


  title=title.replace('/','')


  title=title.replace('\\','')


  title=title.replace('*','')


  title=title.replace('<','')


  title=title.replace('>','')


  title=title.replace('?','')


  with open(r'D:\code\python\spider_news\UC_news\society\\'+title+'.txt','w',encoding='utf-8')as file_object:


  file_object.write('\t\t\t\t')


  file_object.write(title)


  file_object.write('\n')


  file_object.write('该新闻地址:')


  file_object.write(url)


  file_object.write('\n')


  file_object.write(tag.get_text())


  #print('正在爬取')


  if __name__=='__main__':


  for i in range(0,7):


  url='https://news.uc.cn/c_shehui/'


  #headers={"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/61.0.3163.91 Safari/537.36",


  #"cookie":"sn=3957284397500558579;_uc_pramas=%7B%22fr%22%3A%22pc%22%7D"}


  #res=request.Request(url,headers=headers)


  res=request.urlopen(url)


  req=res.read().decode('utf-8')


  soup=BeautifulSoup(req,'lxml')


  #print(soup.prettify())


  tag=soup.find_all('div',class_='txt-area-title')


  #print(tag.name)


  for x in tag:


  news_url='https://news.uc.cn'+x.a.get('href')


  print(x.a.string,news_url)


  download(x.a.string,news_url)


  这样,我们就完成了网站新闻数据的抓取,可以检查运行结果看到,我们的数据是否成功获得。


相关文章内容简介
推荐阅读
  • 30 2019-01
  • 11 2019-09
    为什么越来越多人对ip代理感兴趣

    为什么越来越多人对ip代理感兴趣?时代的发展是有目共睹的,与此同时人们的生活质量自然也会提高。人们的生活质量提高之后就会对各种,现代的事物开始越来越了解。从一些法制栏目还有

  • 20 2020-02
    代理IP的关键功能

    用代理IP能够做什么?代理IP的功能决定了购买它的人群,互联网的进步,让代理IP的使用面积越来越大,现在有很多行业都需要使用换IP,比如投票、刷量等等。

  • 27 2019-08
    如何使用动态ip代理服务器防止ip出现异常

    不管是挂机还是注册账号,很多人都被封号过,特别是由于工作的原因封号的。不管是哪个平台,都是有自己的规则,若是不遵守规则,这是必定要封了。但是对于一些商家或者个人来说,多账

  • 08 2020-07
  • 09 2019-07
    HTTP代理和Socks代理有什么区别

    代理服务器英文全称是Proxy Server,其功能就是代理网络用户去取得网络信息,形象的说:它是网络信息的中转站。最常用的代理莫过于HTTP代理,还有一种代理用的也很多,那就是Socks代理,那么