基于python的新闻检索系统

基于python的新闻检索系统 1 系统介绍 1,1 系统需求 新闻检索系统:定向采集不少于 4 个中文社会新闻网站或频道,实现这些网站新闻信息及评论信息的自动爬取

本文包含相关资料包-----> 点击直达获取<-------

基于python的新闻检索系统

1 系统介绍

1.1 系统需求

新闻检索系统:定向采集不少于 4 个中文社会新闻网站或频道,实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。本项目未使用 lucene,Goose 等成熟开源框架。

1.2 系统思路与框架

本系统总体的实现思路如图 1 所示:

一个完整的搜索系统主要的步骤是:

  • 对新闻网页进行爬虫得到语料库

  • 抽取新闻的主体内容,得到结构化的 xml 数据

  • 内存式单遍扫描索引构建方法构建倒排索引,供检索模块使用

  • 用户输入查询,得到相关文档返回给用户

2 设计方案

2.1 新闻爬取

2.1.1 算法简述

该模块针对搜狐,网易,腾讯三大主流新闻网站及官方的参考消息网站进行了新闻获取。并基于其网站结构,设计了不同的爬取模式。由于网站架构两两相似,以下选取两种类型的典型代表进行介绍:

(1)搜狐新闻

搜狐新闻除正常主页外,存在隐藏的列表式新闻页 , 如 http://news.sohu.com/1/0903/62/subject212846206.shtml ,其新闻组织方式如下图所示:

源代码中以:

html <a test=a href='http://www.sohu.com/a/201108961_115479' target='_black'>美CIA秘密文件宣称:希特勒二战后最少活了十年</a><span> (10/30 11:33) </span>

作为各条新闻的分割,且含有新闻标题,发表时间,通过 Beautiful soup 该款开源格式解析工具,我们获取到列表中所有新闻的 URL,并记录其相应的标题,发表时间。注意 URL 的最后数字串对应于该条评论的 newsID。

新闻内容页中,正文部分以:

```html

美CIA秘密文件宣称:希特勒二战后最少活了十年

参考文献

  • 基于B/S结构的新闻发布系统(吉林大学·郭蕊)
  • 高校新闻资讯整合展示系统的设计与实现(华中科技大学·蔡竞)
  • 小型新闻发布系统的设计与实现(吉林大学·唐晨)
  • 高校新闻资讯整合展示系统的设计与实现(华中科技大学·蔡竞)
  • 基于web的新闻采编系统的设计与实现(电子科技大学·黄明杨)
  • 基于协同推荐算法的新闻发布系统设计与实现(南京理工大学·曹帅帅)
  • 基于用户评论的社会化媒体新闻推荐系统研究(西南财经大学·张巧)
  • 基于协同推荐算法的新闻发布系统设计与实现(南京理工大学·曹帅帅)
  • 基于协同推荐算法的新闻发布系统设计与实现(南京理工大学·曹帅帅)
  • 基于SSH2的新闻信息管理平台的设计与开发(青岛大学·张明瑛)
  • 金融信息实时发布系统的设计与实现(东北大学·伦健)
  • 金融信息实时发布系统的设计与实现(东北大学·伦健)
  • 网络新闻语料库建设及其分布式检索系统研究(华中师范大学·鲁松)
  • 基于B/S结构的新闻发布系统(吉林大学·郭蕊)
  • 基于.NET架构的新闻发布管理系统的设计与实现(南昌大学·廖德伟)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://m.bishedaima.com/yuanma/35198.html

相关推荐

发表回复

登录后才能评论