代理ip

>

换ip软件

>

http代理

>

ip代理

您的位置:首页 > 新闻资讯 > 文章内容
利用代理ip爬取新闻
来源:互联网 作者:admin 时间:2020-02-18 17:45:12

  选择优质的代理IP,我们能够利用它来完成很多网络工作,比如网上的大数据抓取,其实就是要依靠代理IP来进行的。今天,网连代理向大家介绍一个爬取新闻网站内容的教程。

  网连代理以UC网站为例子:


  这个网站并没有太复杂的反爬虫,我们可以直接解析爬取就好。


  from bs4 import BeautifulSoup


  from urllib import request


  def download(title,url):


  req=request.Request(url)


  response=request.urlopen(req)


  response=response.read().decode('utf-8')


  soup=BeautifulSoup(response,'lxml')


  tag=soup.find('div',class_='sm-article-content')


  if tag==None:


  return 0


  title=title.replace(':','')


  title=title.replace('"','')


  title=title.replace('|','')


  title=title.replace('/','')


  title=title.replace('\\','')


  title=title.replace('*','')


  title=title.replace('<','')


  title=title.replace('>','')


  title=title.replace('?','')


  with open(r'D:\code\python\spider_news\UC_news\society\\'+title+'.txt','w',encoding='utf-8')as file_object:


  file_object.write('\t\t\t\t')


  file_object.write(title)


  file_object.write('\n')


  file_object.write('该新闻地址:')


  file_object.write(url)


  file_object.write('\n')


  file_object.write(tag.get_text())


  #print('正在爬取')


  if __name__=='__main__':


  for i in range(0,7):


  url='https://news.uc.cn/c_shehui/'


  #headers={"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/61.0.3163.91 Safari/537.36",


  #"cookie":"sn=3957284397500558579;_uc_pramas=%7B%22fr%22%3A%22pc%22%7D"}


  #res=request.Request(url,headers=headers)


  res=request.urlopen(url)


  req=res.read().decode('utf-8')


  soup=BeautifulSoup(req,'lxml')


  #print(soup.prettify())


  tag=soup.find_all('div',class_='txt-area-title')


  #print(tag.name)


  for x in tag:


  news_url='https://news.uc.cn'+x.a.get('href')


  print(x.a.string,news_url)


  download(x.a.string,news_url)


  这样,我们就完成了网站新闻数据的抓取,可以检查运行结果看到,我们的数据是否成功获得。


相关文章内容简介
推荐阅读
  • 27 2019-06
    PC端软件如何换IP

    对于网络营销推广和SEO的朋友来说,数据抓取和模拟访问都是必备的工作,这两种方式都需要有大量的IP资源支持,很多用户在一些网站上面批量注册帐号、发布留言评论都会遇到系统的IP限制

  • 12 2018-11
  • 18 2019-10
    手把手教你搭建一个独享代理IP池

    如何让爬虫畅通无阻地高效稳定地夜以继日地永不停息地工作,是无数爬虫工作者梦寐以求的愿望。事实再次证明,世上无难事只怕有心人,只要拥有一个独享IP池,就可以让爬虫再也不怕封IP

  • 19 2019-06
    IP切换器有什么作用

    目前,随着互联网的越来越普及,网民数量也越来越多,各大网站的访问数量也就随之增加,特别是很多任务网站或者推广营销 。为了防止恶意的注册、恶意点击等,都会增加访问、点击等等

  • 19 2020-01
    代理IP软件可以加速游戏吗

    代理IP软件可以加速游戏吗?我们知道,当玩游戏时,我们经常看到游戏的延迟,但是当延迟高的时候,它将影响游戏的流畅度,甚至丢弃字符卡,丢失包等等。使用网连代理,你可以以分钟为

  • 24 2020-06