Web信息处理

Web信息处理 爬虫的基本原理以及使用的基本方法(如果使用框架,简述参数和各项module的功能) 由于本学院官网上的教师资料信息较为简单,本次作业的信息爬取使用Python的Requests库完成

本文包含相关资料包-----> 点击直达获取<-------

Web信息处理

爬虫的基本原理以及使用的基本方法(如果使用框架,简述参数和各项module的功能)

由于本学院官网上的教师资料信息较为简单,本次作业的信息爬取使用Python的Requests库完成。

使用的基本方法:

首先需要设置一个headers,虽然学校官网没有反爬虫措施,但是还是要做好基本参数的设置。

c++ headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/90.0.4430.212Safari/537.36Edg/90.0.818.66',}

然后就是使用requests库进行信息的提取了

c++ data=requests.get(url1,headers=headers) data.encoding='utf-8' baseInfo=data.text

实现的简单流程:包括爬虫工具的使用、数据库设计、xpath/css路径匹配等等;

以一个老师的信息框架为例

```c++

徐增林

任职:
国家青年特聘专家、计算机学院教授/博导
电话:
传真:
Email:
xuzenglin@hit.edu.cn
研究方向:
致力于解决涉及现代大数据分析的关键建模和计算的挑战,实现复杂系统在自然语言处理,计算机视觉,社会计算,网络空间安全,生物信息学和生物医学应用等领域的研究。为此研究由各种应用驱动的稀疏、关系、动态、深度学习模型,并为这些模型开发精确、高效和可扩展的算法。
查看简历

```

可以看到所有老师的信息开头都有

,因此可以以此为依据判断这一段代码是不是老师的信息。

判断出老师的信息后,还需要从中提取出老师信息中的各个字段,这里使用re库正则匹配就可以了。

``` teacherInfo1 = re.findall(r'

',baseInfo1) teacherName1 = re.findall(r'

(. ?)

', baseInfo1) teacherTitle1 = re.findall(r'
任职:
(. ?)
', baseInfo1) teacherTelephone1 = re.findall(r'
电话:
(. ?)
', baseInfo1) teacherFax1 = re.findall(r'
传真:
(. ?)
', baseInfo1) teacherEmail1 = re.findall(r'
Email:
', baseInfo1) teacherField1 = re.findall(r'
研究方向:
(.*?)
', baseInfo1)

```

之后将数据存到MySQL中就完成该实验了。

c++ for j in range(0,len(teacherInfo)): sql = 'insert into `teacher`(`name`,`title`,`telephone`,`fax`,`email`,`field`) values ("{}","{}","{}","{}","{}","{}")'.format(teacherName[j],teacherTitle[j],teacherTelephone[j],teacherFax[j],teacherEmail[j],teacherField[j]) cursor.execute(sql) db.commit()

数据库设计如下:

简单的心得体会

本次作业相较来说比较简单,主要考察爬虫的使用以及数据库的设计。小小吐槽一下学院官网的设计,URL没有按顺序来,爬起来有一点麻烦,需要先对首页进行一个单独处理。

参考文献

  • 基于.NET环境开发Web应用系统的研究(武汉理工大学·王伟)
  • 基于.NET下Web服务的信息查询系统的研究与设计(合肥工业大学·张静)
  • 网络信息代理的设计与实现(广东工业大学·陈旨明)
  • 网络流量统计分析系统(吉林大学·石景龙)
  • .NET平台下Web信息系统门户的开发与研究(武汉理工大学·王云山)
  • .NET平台下Web信息系统门户的开发与研究(武汉理工大学·王云山)
  • 安徽大学毕业生就业管理系统的研究与实现(电子科技大学·唐科伟)
  • 动态WEB数据库应用研究(昆明理工大学·李玉梅)
  • 基于.NET框架的企业应用集成研究和实现(浙江大学·蒋元星)
  • 潍坊滨海经济开发区人事管理系统的设计与实现(山东大学·郭兴平)
  • 基于Web服务的企业信息化集成应用(云南财经大学·韩雪)
  • 动态WEB数据库应用研究(昆明理工大学·李玉梅)
  • 基层部队网站的设计与建设(昆明理工大学·罗顺先)
  • 统一用户管理系统开发与设计(南昌大学·郭妍)
  • 印刷公司内容管理平台的设计与实现(吉林大学·郎彩虹)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头网 ,原文地址:https://m.bishedaima.com/yuanma/36172.html

相关推荐

  • 基于Python的算数编码实验

    基于Python的算数编码实验 一,实验目的 给出算术编码实现的详细原理, 编制编解码程序 设计并实现自适应算术编码(选做) 二
    2024年05月14日
    115 1 25
  • 使用OpenCV和Python进行人脸识别

    使用OpenCV和Python进行人脸识别 前言 人脸识别是什么?或识别是什么?当你看到一个苹果时,你的大脑会立刻告诉你这是一个苹果,在这个过程中,你的大脑告诉你这是一个苹果水果
    2024年05月14日
    5 1 2
  • 基于SpringBoot框架的论坛系统

    这是一套采用Java语言,基于SpringBoot框架构建的论坛系统源代码,项目中融入了Vue技术,开发工具为Idea或Eclipse,该论坛系统设计适用于毕业设计或课程设计任务
    2024年05月23日
    18 1 6
  • 基于Python制作的消消乐小游戏

    基于 Python 制作的消消乐小游戏 导语 哈喽,好久不见,消失人口上线更新一波每月必出的 python 制作小游戏系列文章,本期我们将制作一个消消乐小游戏
    2024年05月14日
    42 1 6
  • 基于springboot的办公oa系统实现源代码

    这是一个🔥🔥基于springboot的办公oa系统实现源代码🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 办公OA系统开发技术栈为SpringBoot项目
    2024年05月23日
    6 1 1
  • Python一卡通项目

    python_xiaoyuanyikatong 常州大学python课设,校园一卡通 参考文献 某公司增值服务管理系统设计与实现(山东大学·吕昊) 基于SSH框架的博客用户分享平台的设计与实现(河北工业大学·刘磊) 铁路企业项目库管理信息系统的研究与实现(上海交通大学·李晓巍) 校园一卡通系统设计与开发(中国海洋大学·黄永刚) 印刷公司内容管理平台的设计与实现(吉林大学·郎彩虹) 基于Asp
    2024年05月14日
    4 1 2
  • 基于ssm和mysql实现的毕业选题管理系统

    基于ssm和mysql实现的毕业选题管理系统 1,项目介绍 1,1 背景分析 计算机技术高度发达的今天,利用信息技术对大量复杂的信息进行有效的管理成为一种普遍而实用的手段
    2024年05月14日
    4 1 2
  • 基于Python的多人在线聊天程序

    基于Python的多人在线聊天程序 项目简介 本项目的选题为项目六:聊天程序,具体项目任务如下所示: 经过开发,本项目最终实现了项目任务 2
    2024年05月14日
    23 1 8
  • 基于SpringBoot框架的学生评奖评优管理系统

    这是一款采用🔥🔥SpringBoot框架构建的学生荣誉评选管理系统源代码,编程语言为Java,我们利用SpringBoot和Vue技术栈进行开发,支持Idea或Eclipse集成开发环境
    2024年05月23日
    3 1 1
  • 从零开始使用webpack 搭建vue项目

    从零开始使用webpack 搭建vue项目 1 创建项目 npm init 生成 package,json 创建 index,html webpack
    2024年05月14日
    6 1 1

发表回复

登录后才能评论