python爬虫--爬取网站中的多个网页

python爬虫--爬取网站中的多个网页 爬取7k7k小游戏的URL ```python - - coding: utf-8 - - """ Created on Sun Mar 24 10:04:58 2019 @author: pry """ import requests from bs4 import BeautifulSoup import os import re import urllib from lxml import etree def parse_page(): t = 1 headers = { 'User-Agent':'Mozilla/5

本文包含相关资料包-----> 点击直达获取<-------

python爬虫--爬取网站中的多个网页

爬取7k7k小游戏的URL

```python

- - coding: utf-8 - -

""" Created on Sun Mar 24 10:04:58 2019

@author: pry """ import requests from bs4 import BeautifulSoup import os import re import urllib from lxml import etree

def parse_page(): t = 1 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3642.0 Safari/537.36' } for i in range(1,5): url_i = 'http://www.7k7k.com/flash_fl/461_' + str(i) + '.htm' response_i = requests.get(url_i, headers = headers) selector = etree.HTML(response_i.text, parser=etree.HTMLParser(encoding = 'utf-8')) print(url_i) content = selector.xpath('//a/@href') for i in content: if i[0] == "j": continue if i[0] == "/": i = url_i + i with open('7k7k_urls.txt','a+') as file: file.write(i) file.write("\n") file.close() print(i) t = t + 1 print(t) print('ok')

if name == ' main ': parse_page() ```

参考文献

  • 网络爬虫技术在云平台上的研究与实现(电子科技大学·刘小云)
  • 面向中小学教育资源的网络爬虫的研究与设计(中央民族大学·郑名达)
  • 主题爬虫关键技术研究(哈尔滨工程大学·黄正德)
  • 面向特定网页的Web爬虫的设计与实现(吉林大学·马慧)
  • 基于标记模板的分布式网络爬虫系统的设计与实现(华中科技大学·杨林)
  • 主题微博爬虫的设计与实现(中原工学院·王艳阁)
  • 网络爬虫技术在云平台上的研究与实现(电子科技大学·刘小云)
  • 基于网络爬虫的搜索引擎的设计与实现(湖北工业大学·冯丹)
  • 基于增量反馈和自适应机制的主题爬虫系统的设计与实现(南京理工大学·王斐)
  • 基于Web的网络搜索技术研究(西北工业大学·郭晨娟)
  • 基于页面分析的网络爬虫系统的设计与实现(华中科技大学·郝以珍)
  • 主题爬虫的实现及其关键技术研究(武汉理工大学·张航)
  • 搜索引擎中爬虫的若干问题研究(北京邮电大学·杨溥)
  • 基于增量反馈和自适应机制的主题爬虫系统的设计与实现(南京理工大学·王斐)
  • 主题爬虫的实现及其关键技术研究(武汉理工大学·张航)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码货栈 ,原文地址:https://m.bishedaima.com/yuanma/35536.html

相关推荐

发表回复

登录后才能评论