基于python构建搜索引擎系列——(六)系统展示及总结

代码客栈 • 2024年05月14日 11:41 • 其他源码 • 阅读 4

基于python构建搜索引擎系列——(六)系统展示及总结系统展示前几个博客已经介绍完搜索引擎的所有功能，为了实现更好的用户体验，需要一个web界面

本文包含相关资料包-----> 点击直达获取<-------

基于python构建搜索引擎系列——(六)系统展示及总结

系统展示

前几个博客已经介绍完搜索引擎的所有功能，为了实现更好的用户体验，需要一个web界面。这一部分是另一个队员做的，我这里借用他的代码。

我们利用开源的Flask Web框架搭建了展示系统，搜索引擎只需要两个界面，一个是搜索界面，另一个是展示详细新闻的页面（实际搜索引擎没有这个页面）。编写好这两个模板页面并调用前面给出的接口，得到数据，展示出来就可以。

这一部分没有太多需要讲解的算法，直接上效果图（点击图片可以查看大图）。

由于数据量不大，只有1000条新闻，所以第一页中后面几个结果相关度就不是很高了。但是经过测试，在大数据量的情况下，不论是搜索的速度、准确率、召回率以及推荐阅读的相关度，都达到了不错的效果。

总结

至此，整个新闻搜索引擎构建完毕，总体效果令人满意，不过还是有很多可以改进的地方。下面总结一下本系统的优点和不足。

优点

倒排索引存储方式。因为不同词项的倒排记录表长度一般不同，所以没办法以常规的方式存入关系型数据库。通过将一个词项的倒排记录表序列化成一个字符串再存入数据库，读取的时候通过反序列化获得相关数据，整个结构类似于邻接表的形式。

推荐阅读实现方式。利用特征提取的方法，用25个关键词表示一篇新闻，大大减小了文档词项矩阵规模，提高计算效率的同时不影响推荐新闻相关性。

借用了Reddit的热度公式，融合了时间因素。

不足

构建索引时，为了降低索引规模，提高算法速度，我们将纯数字词项过滤了，同时忽略了词项大小写。虽然索引规模下降了，但是牺牲了搜索引擎的正确率。

构建索引时，采用了jieba的精确分词模式，比如句子“我来到北京清华大学”的分词结果为“我/ 来到/ 北京/ 清华大学”，“清华大学”作为一个整体被当作一个词项，如果搜索关键词是“清华”，则该句子不能匹配，但显然这个句子和“清华”相关。所以后续可以采用结巴的搜索引擎分词模式，虽然索引规模增加了，但能提升搜索引擎的召回率。

在推荐阅读模块，虽然进行了维度约减，但是当数据量较大时（数十万条新闻），得到的文档词项矩阵也是巨大的，会远远超过现有PC的内存大小。所以可以先对新闻进行粗略的聚类，再在类内计算两两cosine相似度，得到值得推荐的新闻。

在热度公式中，虽然借用了Reddit的公式，大的方向是正确的，但是引入了参数k1k1和k2k2，而且将其简单的设置为1。如果能够由专家给出或者经过机器学习训练得到，则热度公式的效果会更好。

本文转载自：

http://bitjoy.net/2016/01/09/introduction-to-building-a-search-engine-6
http://bitjoy.net/2016/01/09/introduction-to-building-a-search-engine-7

参考文献

复合规则驱动聚焦爬虫系统的设计与实现（哈尔滨工业大学·刘强）
基于三层体系结构的网络搜索与信息处理系统（广东工业大学·梁继能）
基于JavaEE和XML的分布式信息检索系统设计与实现（山东大学·牛拥军）
面向特定网页的Web爬虫的设计与实现（吉林大学·马慧）
基于B/S结构的新闻发布系统（吉林大学·郭蕊）
主题网络爬虫的研究与设计（南京理工大学·朱良峰）
基于三层体系结构的网络搜索与信息处理系统（广东工业大学·梁继能）
沈阳地铁门户搜索引擎的设计与实现（东北大学·张森）
分布式网络爬虫在农产品搜索系统中的应用与研究（南昌大学·袁龙涛）
面向特定网页的Web爬虫的设计与实现（吉林大学·马慧）
面向特定网页的Web爬虫的设计与实现（吉林大学·马慧）
复合规则驱动聚焦爬虫系统的设计与实现（哈尔滨工业大学·刘强）
面向特定网页的Web爬虫的设计与实现（吉林大学·马慧）
基于Java技术的搜索引擎研究与实现（西南交通大学·何世林）
基于J2EE的多语种元搜索引擎的研究与实现（电子科技大学·冯刚）

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：代码客栈，原文地址：https://m.bishedaima.com/yuanma/35587.html

Python 搜索引擎构建系列展示总结

资源下载

本站所有项目都经过严格测试,直连告诉下载项目包, 毕设课设定制需求, 点此提交表单

代码都经过了认真的调试,不免费哦联系QQ2625289483 更多资料关注公号: 大学生学习圈

基于jsp+servlet的人力资源管理系统

这是一个🔥🔥基于jsp+servlet的人力资源管理系统🔥🔥的项目源码，开发语言Java，开发环境Idea/Eclipse，这个人力资源管理系统开发技术栈为JSP项目

代码货栈
2024年05月23日
32 1 6 3
加载用户程序的监控程序之Python

加载用户程序的监控程序一，操作系统实验报告实验题目: 加载用户程序的监控程序实验目的: 设计四个（或更多）有输出的用户可执行程序

代码客栈
2024年05月14日
4 1 2 1
基于python的验证码自动识别

基于python的验证码自动识别 Python+Selenium+PIL+Tesseract真正自动识别验证码进行一键登录 Python 2

毕设助手
2024年05月14日
4 1 2 1
基于Jsp和MySQL实现的简单选课系统

基于Jsp和MySQL实现的简单选课系统一，需求说明网站的使用者：某学校的学生，老师和管理员使用网站的主要目的：用于学生选课

毕业设计工坊
2024年05月14日
18 1 3 2
基于SpringBoot框架的在线拍卖平台

这是一份🔥🔥采用SpringBoot核心框架构建的在线拍卖系统源代码🔥🔥，编程语言为Java，我们结合了SpringBoot和Vue，js技术进行开发，支持的开发工具有Idea或Eclipse

源码工坊
2024年05月23日
6 1 2 2
基于Java+SpringBoot的博客系统

Java和SpringBoot作为当今流行的技术框架，在构建各种应用程序中发挥着重要作用，个人博客系统作为一种基于网络的信息发布和分享平台，已经成为了网络社区中不可或缺的一部分

毕设助手
2024年05月07日
15 1 1 2
基于Java+Jsp+Servlet+Mysql的火车票订票售票系统

在当今数字化时代，火车站的客流量与日俱增，为了提高运营效率和服务质量，建立一套高效的火车票订票售票系统势在必行，基于Java+Jsp+Servlet+Mysql的火车票订票售票系统应运而生

代码货栈
2024年05月07日
8 1 3 2
基于JSP实现的在线投票系统

基于JSP实现的在线投票系统一，设计方案 1，1 投票系统的功能组成投票系统功能有：选择投票和个人操作及设置，投票设置，投票结果分析，投票操作保障

源码导航
2024年05月14日
85 1 10 8
基于SpringBoot框架的教学辅助平台

这是一套采用Java编程语言，基于SpringBoot框架构建的教育辅助系统源代码，开发过程中，我们运用了SpringBoot和Vue技术栈，同时支持Idea或Eclipse作为开发工具

源码客栈
2024年05月23日
6 1 3 1
基于springboot的自适应博客系统实现

这是一个🔥🔥基于springboot的自适应博客系统实现🔥🔥的项目源码，开发语言Java，开发环境Idea/Eclipse，这个智能博客系统开发技术栈为SpringBoot项目

毕设客栈
2024年05月23日
4 1 2 1

发表回复

登录后才能评论