Web信息处理

Web信息处理 爬虫的基本原理以及使用的基本方法(如果使用框架,简述参数和各项module的功能) 由于本学院官网上的教师资料信息较为简单,本次作业的信息爬取使用Python的Requests库完成

本文包含相关资料包-----> 点击直达获取<-------

Web信息处理

爬虫的基本原理以及使用的基本方法(如果使用框架,简述参数和各项module的功能)

由于本学院官网上的教师资料信息较为简单,本次作业的信息爬取使用Python的Requests库完成。

使用的基本方法:

首先需要设置一个headers,虽然学校官网没有反爬虫措施,但是还是要做好基本参数的设置。

c++ headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/90.0.4430.212Safari/537.36Edg/90.0.818.66',}

然后就是使用requests库进行信息的提取了

c++ data=requests.get(url1,headers=headers) data.encoding='utf-8' baseInfo=data.text

实现的简单流程:包括爬虫工具的使用、数据库设计、xpath/css路径匹配等等;

以一个老师的信息框架为例

```c++

徐增林

任职:
国家青年特聘专家、计算机学院教授/博导
电话:
传真:
Email:
xuzenglin@hit.edu.cn
研究方向:
致力于解决涉及现代大数据分析的关键建模和计算的挑战,实现复杂系统在自然语言处理,计算机视觉,社会计算,网络空间安全,生物信息学和生物医学应用等领域的研究。为此研究由各种应用驱动的稀疏、关系、动态、深度学习模型,并为这些模型开发精确、高效和可扩展的算法。
查看简历

```

可以看到所有老师的信息开头都有

,因此可以以此为依据判断这一段代码是不是老师的信息。

判断出老师的信息后,还需要从中提取出老师信息中的各个字段,这里使用re库正则匹配就可以了。

``` teacherInfo1 = re.findall(r'

',baseInfo1) teacherName1 = re.findall(r'

(. ?)

', baseInfo1) teacherTitle1 = re.findall(r'
任职:
(. ?)
', baseInfo1) teacherTelephone1 = re.findall(r'
电话:
(. ?)
', baseInfo1) teacherFax1 = re.findall(r'
传真:
(. ?)
', baseInfo1) teacherEmail1 = re.findall(r'
Email:
', baseInfo1) teacherField1 = re.findall(r'
研究方向:
(.*?)
', baseInfo1)

```

之后将数据存到MySQL中就完成该实验了。

c++ for j in range(0,len(teacherInfo)): sql = 'insert into `teacher`(`name`,`title`,`telephone`,`fax`,`email`,`field`) values ("{}","{}","{}","{}","{}","{}")'.format(teacherName[j],teacherTitle[j],teacherTelephone[j],teacherFax[j],teacherEmail[j],teacherField[j]) cursor.execute(sql) db.commit()

数据库设计如下:

简单的心得体会

本次作业相较来说比较简单,主要考察爬虫的使用以及数据库的设计。小小吐槽一下学院官网的设计,URL没有按顺序来,爬起来有一点麻烦,需要先对首页进行一个单独处理。

参考文献

  • 基于.NET环境开发Web应用系统的研究(武汉理工大学·王伟)
  • 基于.NET下Web服务的信息查询系统的研究与设计(合肥工业大学·张静)
  • 网络信息代理的设计与实现(广东工业大学·陈旨明)
  • 网络流量统计分析系统(吉林大学·石景龙)
  • .NET平台下Web信息系统门户的开发与研究(武汉理工大学·王云山)
  • .NET平台下Web信息系统门户的开发与研究(武汉理工大学·王云山)
  • 安徽大学毕业生就业管理系统的研究与实现(电子科技大学·唐科伟)
  • 动态WEB数据库应用研究(昆明理工大学·李玉梅)
  • 基于.NET框架的企业应用集成研究和实现(浙江大学·蒋元星)
  • 潍坊滨海经济开发区人事管理系统的设计与实现(山东大学·郭兴平)
  • 基于Web服务的企业信息化集成应用(云南财经大学·韩雪)
  • 动态WEB数据库应用研究(昆明理工大学·李玉梅)
  • 基层部队网站的设计与建设(昆明理工大学·罗顺先)
  • 统一用户管理系统开发与设计(南昌大学·郭妍)
  • 印刷公司内容管理平台的设计与实现(吉林大学·郎彩虹)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头网 ,原文地址:https://m.bishedaima.com/yuanma/36172.html

相关推荐

  • 基于SpringBoot框架的教师工作量管理系统

    这是一套采用🔥🔥SpringBoot框架构建的教师工作量管理系统的源代码,主要编程语言为Java,并结合了SpringBoot和Vue技术进行开发,开发工具可选用Idea或Eclipse
    2024年05月23日
    1 1 1
  • 使用 Python 实现的网站变化监测系统

    使用 Python 实现的网站变化监测系统 很多时候我们都有监测某个网站变化的需求,比如是否发布新通知了,是否有新更新了等,之前使用过 Chrome 的几个插件来实现这个功能
    2024年05月14日
    2 1 1
  • 图像压缩之Python

    图像压缩 Image Compression 提供中英文摘要 摘要 [中文]: 主成分分析可以用来减少矩阵(图片)的维度并且将这些新的维度投影行程新的 k 维图像
    2024年05月14日
    1 1 1
  • 基于Java+JSP+Servlet的图书管理系统

    这是一个🔥🔥基于JSP+Servlet的图书管理系统🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 图书管理系统开发技术栈为JSP项目,可以作为毕业设计课程设计作业基于Java+Jsp+Servlet的编写一个图书管理系统
    2024年05月23日
    3 1 1
  • 基于Python实现多项式拟合正弦函数

    1, 实验目的 掌握最小二乘法求解(无惩罚项的损失函数),掌握加惩罚项(2 范数)的损失函数优化,梯度下降法,共轭梯度法,理解过拟合,克服过拟合的方法(如加惩罚项
    2024年05月14日
    2 1 2
  • 数据库原理大作业-web博客

    数据库原理大作业-web博客 开发环境 Windows 10 Ubuntu 16,04 server x64 管理员账号 :admin 密码 :adminpassword 游客账号 :guest 密码123456
    2024年05月14日
    3 1 1
  • B2B平台的医疗病历交互系统

    这是一个🔥🔥基于SpringBoot框架的B2B平台的医疗病历交互系统设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    1 1 1
  • 设计一个web服务器

    设计一个web服务器 课程设计目的 《Java&,net》是一门实践性较强的软件基础课程,为了学好这门课程,必须在掌握理论知识的同时,加强上机实践,本课程设计的目的就是要达到理论与实际应用相结合
    2024年05月14日
    2 1 1
  • Python+MySQL用户加密存储验证系统

    Python+MySQL用户加密存储验证系统 Python 2,7 IDE Pycharm 5,0,3 PyMySQL 0
    2024年05月14日
    2 1 2
  • 基于Python实现点菜系统

    1, 课程设计目的 《软件设计基础-Python》课程设计是这门课程的实践性教学环节之一,本次设计结合实际应用的要求,使课程设计既覆盖Python的知识点,又接近工程实际需要
    2024年05月14日
    2 1 1

发表回复

登录后才能评论