工业品垂直搜索引擎的设计与实现
这是一篇关于垂直搜索引擎,工业品,综合排序的论文, 主要内容为目前国内工业品电子商务的发展还在刚起步的阶段,供工业品电商使用的高质量搜索引擎目前国内还有待研发,本系统的目的就是给工业品电商平台提供一个快速搜索工业品的系统,在满足工业品电商的业务需求后优化用户的购买体验。工业品垂直搜索引擎系统是出自上海鑫谊麟禾科技有限公司垂直搜索产品线的实际项目,属于中国传统搜索引擎行业。工业品垂直搜索引擎系统是以产品信息为基准,明确电子商务产品和其客户要求,进行针对产品的垂直搜索引擎业务。该项目主要包含三方面,数据引入、数据整合、垂直搜索系统的设计与实现。在分布式计算平台上完成基本信息引入、数据的分析处理以及数据的检索。数据引入包括基础数据建模、数据爬取。为公司运营人员提供维护基础数据的平台,同时使用了消息队列技术通知其他模块基础数据等变更。数据整合主要负责对引入的数据进行分析处理,它包含索引维护和实体图谱两个模块。索引维护使用了工厂模式优化代码结构降低代码耦合度,使用了中文分词、相似度算法等相关技术。实体图谱很好的解决了用户使用别名搜索商品的需求。相关索引以及实体图谱的数据使用非关系型数据库进行持久化。待数据处理后,将完成垂直搜索系统的总体设计工作并进行实现。包括搜索词处理、搜索、排序、聚合以及详情缓存。其中排序模块基于归并算法重写了双集合的排序方法,重写了集合运算方法,提高了排序性能。最后使用手机端的界面和用户实现互动。本人主要承担了产品数据加工引入模块的产品基础构建子模块的方案设计与开发,产品数据整合模块的索引维护子模块的产品设计与开发,搜索排序模块的检索词处理子模块、检索子模块与排序子模块的部分产品设计与开发。本论文完成的工业品垂直搜索引擎系统,经过功能性测试、性能试验和压力试验,检测结果能满足预期且符合了电商平台的要求,有着很大的实用性。
面向垂直搜索的主题爬虫爬行策略的研究与实现
这是一篇关于垂直搜索引擎,主题爬虫,信息收集,网页分类的论文, 主要内容为现如今,越来越多的组织机构或者个人通过垂直搜索引擎收集和搜索某一特定领域的内容。但是,多数垂直搜索引擎的数据主要采用定向抓取解析的方式,比如pyspider,或者通过URL链接分析抓取大量数据,然后判断与主题相关性,有效抓取率低;垂直搜索引擎的重访策略满足不了对信息时效性的需求;此外,多数垂直搜索引擎没有考虑所关注领域的特征值随时间变化;爬虫系统也应该具有躲避反爬虫机制的能力,以获得更多数据。 本文重点针对垂直搜索引擎的数据抓取和数据分类,设提出了一个高效的基于支持向量机算法的网页分类模型,设计并实现了一个新型的基于索引网页的分布式可扩展主题爬虫系统。本文主要贡献如下: 1.优化爬行策略是优化爬虫效率的最有效方式。本文提出加入索引网页的URL树形结构,根据网页主题在URL链接之间的传递关系,通过索引网页给出更准确的预测相关性,减少不必要的爬取。 2.本文提出了索引网页的辨识方法,提取拥有较高链接度和导航性质的索引网页,保持高频爬取,优化网页重访策略,及时获得最新的消息,保证消息时效性。 3.判断页面相关性最有效的途径是页面分类,这也是垂直搜索引擎的关键所在。本文针对SVM算法提出了带反馈机制的网页分类流程,保证主题的表示并不偏移主题本身;同时对跨领域网页的重点分析抓取,给出较高的优先级,有助于垂直搜索引擎拓宽爬取范围,获得更多有效的信息。 4.设计了一个新型的基于消息系统的分布式主题爬虫系统,减少组件间的耦合关系,使该系统可以更方便地实现对网页下载程序和解析程序的扩展,满足垂直搜索引擎的弹性需求。 最后设计实现该爬虫系统,对分类效果进行测试,并针对该系统的设计给出优缺点的评价。
基于Coreseek的垂直搜索引擎研究与优化
这是一篇关于垂直搜索引擎,爬虫,LibMMSeg,BM25,图书的论文, 主要内容为互联网成为了人们获取信息的直接途径,与人们生活息息相关。通用搜索引擎检索的范围大,内容全面,满足用户搜索的基本需求,但是返回结果中包含了大量无关的信息。垂直搜索引擎弥补了通用搜索引擎的不足,垂直搜索引擎检索范围小,只包含某一领域或者某一主题的内容,保证搜索结果的相关性,而且垂直搜索引擎对网页信息进行预处理,将结构化的数据返回给用户,使搜索结果清晰呈现。论文讨论和研究通用搜索引擎和垂直搜索引擎的相关原理、技术和实现过程,对垂直搜索引擎涉及的主题网络爬虫、信息结构化抽取、中文分词技术和中文全文搜索引擎工具Coreseek进行了介绍和分析。在论文中所做的主要工作有:论文采用MMSEG分词算法对图书信息进行分词处理,为了更加精确切分有关于图书类的专有名词,在Lib MMSeg词库中进行了扩充,对改进前后的词库进行对比实验,改进后的词库能够精确切分图书作者、出版社等名词;修改了Coreseek全文搜索工具的排序算法,与Coreseek基本的排序算法进行对比,实验结果表明修改后的CORERANK排序算法更适应于短文本的图书搜索,返回给用户更满意的答案。最后,实现DouCrawler网络爬虫系统爬取豆瓣网站关于图书的网页信息,对网页信息进行结构化抽取、词语切分、创建索引,显示检索结果,完成一个面向图书信息的搜索引擎。
面向教育资源捜索引擎的研究与实现
这是一篇关于教育资源,垂直搜索引擎,全文检索,网络爬虫的论文, 主要内容为随着信息时代的来临和网络资源的迅猛发展,互联网已成为教育工作者和有学习需求的人获取教育信息的重要途径,使其能够获取多样便捷丰富的教育资源,满足学习或工作需求。随着数据量的增大,在使用传统搜索引擎进行检索时,由于其较广的覆盖面,检索结果往往伴随着一些对用户来说无用的信息。而垂直搜索引擎面向某一个具体领域,有特定的用户群,能够提供更加精准的信息检索服务。如何使学习者能够更有效的在互联网资源中找到自己想要的教育资源,是本文所要解决的主要问题。本文以教育资源的检索需求为背景,描述了课题相关来源和设计目标,介绍了通用搜索引擎和垂直搜索引擎并进行了比较,深入研究了垂直搜索引擎的系统架构、工作原理、关键技术、工作流程等相关理论和技术,在此基础上对系统进行了需求分析,包括系统的背景目标、主题范围和前后台业务需求,并基于需求进行了系统总体设计,设计了系统前后台工作流程和框架,划分了系统模块并对各模块进行了详细的设计。通过扩展运用Heritix、HTMLParser和Lucene,本文实现并整合了一个面向教育资源的垂直搜索引擎,其主要内容有:1)首先,利用Heritix实现网页数据的采集,并对其进行扩展和定制,在对网页进行基于链接的主题过滤后下载到本地形成网页库;2)其次,利用正则表达式和HTMLParser抽取网页信息,选取样本站点网页形成用于描述主题的主题词库,并采用空间向量模型对后续页面进行基于内容的主题过滤,形成文本库;3)接下来,利用Lucene进行索引的建立和查询,优化索引建立过程,提高索引速度,优化检索结果的显示顺序,提高标题的权重和与主题相关度更高文档的权重,利用文本库形成索引库;4)然后,对站内数据库资源进行索引的建立、优化和查询,维护数据库与索引的一致性,实现数据库资源的全文检索。5)最后,对各个模块和系统进行了测试,系统功能和性能满足垂直搜索引擎的需求,为所属课题提供教育资源的检索服务。
基于移动平台股票资讯搜索与预测系统研究
这是一篇关于垂直搜索引擎,文本倾向性分析,贝叶斯分类算法,系统相似模型,Android的论文, 主要内容为随着互联网在全球范围内的迅速发展,互联网已经成为人们获取信息的重要途径。然而互联网信息量的爆炸式增长,如何有效的在互联网上获取有用的信息已经变得极其困难。搜索引擎在信息检索中扮演者重要的角色,已经成为人们在日常生活中进行信息检索不可缺少的工具。随着网络变得越发复杂,即使谷歌、百度等搜索引擎巨头也不能完全满足用户的需要。面向专业领域的垂直搜索引擎成为搜索领域研究的热点。 互联网作为一种交互式媒体,被越来越多的人用来表达自己的观点和态度。如何利用这些带有倾向性主观性语言的股票资讯来预测股票未来价格走势已成为文本倾向性分析研究焦点。文本倾向性分析属于自然语言处理范畴,其主要目的是获取文本中蕴涵的主观褒贬倾向,对事物的未来发展趋势进行预测。无线通信业的迅速发展导致智能手机需求大幅增加,随着3G时代的到来,智能手机的功能越发完善,手机上网的资费越来越低。Android手机以其无可替代的开放性,灵活性迅速占领市场。 本文详细介绍了Web数据获取技术,文本倾向性分析技术和移动平台技术,针对股票资讯的特点,改进了传统搜索引擎的数据获取技术。通过将人工神经网络与Shark-Search算法相结合的策略,来指导网络爬虫系统的爬行方向。设计并实现了一个面向金融领域股票资讯的网络爬虫系统。同时提出了一种基于标点符号的网页去重策略,该方法可以很好的解决网页重复搜集的问题。并改进了系统相似模型,在贝叶斯分类算法和系统相似模型的基础上设计了一个股票资讯分析与预测系统。 最后在Android平台下实现了一个股票资讯搜索与预测系统,该系统自动搜集互联网上股票资讯,通过对股票资讯的处理和分析,最终对股票板块未来价格走势进行预测。
基于文本聚类的垂直搜索引擎系统设计与实现
这是一篇关于垂直搜索引擎,Solr,文本聚类的论文, 主要内容为随着互联网数据的快速增长,垂直搜索引擎也迅速发展起来。但是目前垂直搜索引擎仍然不能帮助用户快速找到自己寻求的目标,只能通过输入关键词之后,对返回的结果集进行人工排查。特别是在关键词具有多重含义时,这种状况尤其明显。为了解决上述问题,本文提出了在文本预处理阶段对数据集中的数据进行聚类处理,并将聚类的结果用于以下三方面:第一个方面是将聚类的结果放入对应的原始数据中,同时提高该聚类结果的权重,使得所属聚类结果与关键词相关度更高的文章位于前列。第二个方面是可以将聚类的结果通过搜索页面的分类导航栏呈现给用户,使得用户能够根据聚类结果,进行相关筛选,更快找到自己需要的内容。第三个方面,由于聚类结果的不稳定性,本文提出了由系统人员参考聚类结果,并定义分类规则的方法,然后利用搜索引擎和分类规则对文本自动分类。为了适应不同领域的数据特性,本文设计了企业数据管理与垂直搜索系统,该系统针对不同领域的数据和不同行业的需求,辅助该领域人员定制自己的搜索引擎系统,从而帮助搜索引擎更好地“理解”数据。本文主要工作如下:第一,提出了改进的tf-idf算法与k-mean结合的聚类算法。为了体现位于文章中不同位置的词对该文章的划分有着不同的重要性,并将这些词的重要性体现到聚类后的结果中,本文首先将传统的tf-idf算法进行了改进,使其不同位置有着对应不同的权重,然后将改进的tf-idf算法与k-mean聚类算法结合,这样由不同位置的权重影响聚类的结果。第二,提出了用聚类结果来提升排序效果和自定义分类规则来进行分类。将聚类结果加入到原始数据中,将聚类结果的权重提高,改善搜索排序效果。设置了自定义规则来进行分类的功能。该功能使用Solr自带的搜索查询语句来完成定义规则,而后利用Solr和定制完成的规则对文本自动分类。第三,设计了企业数据管理与垂直搜索系统。为了便于不同行业对于数据更好的管理运作,本文使用SpringBoot框架和MongoDB搭建了企业数据管理与垂直搜索系统。该系统使用SolrCloud建立分布式集群,按照RESTful风格设计了相关API,同时采用了多种第三方解析工具例如tika,tesseract等自动将上传的非文本数据转换成文本数据,并使用hanlp设置了自定义分词器。
面向旅游业的垂直搜索引擎的设计与实现
这是一篇关于旅游业,垂直搜索引擎,爬虫,检索,J2EE的论文, 主要内容为伴随着国民生活水平的提高,旅游日趋成为消费者休闲的重要方式之一。在出游前,选择旅游景区,规划最有旅游计划成为困扰人们的难题。伴随着互联网技术的发展,人们出行前往往喜欢通过Internet搜索旅游相关信息,然而传统搜索引擎面对特定领域的搜索任务,往往返回数以万计的搜索结果,其中包含大量领域无关页面。在此背景下,本文研究面向旅游业的垂直搜索引擎,垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎模式,其特点就是“专、精、深”,且具有行业色彩。显然,面向旅游业的垂直搜索引擎能够向外出旅行的人提供更加专著、精确和有深度的信息。本文的主要工作包括以下几个方面。首先调研旅游业的信息需求和业务需求。信息需求分析是搜集游客关心的信息类型,例如景区信息、交通、住宿、当地风俗等等,信息需求定义了垂直搜索引擎的信息集成边界,是进行页面过滤的基础。业务需求分析主要是调研垂直搜索引擎向用户提供信息的业务流程,是进行功能设计的基础。其次,在需求分析的基础上,进行面向旅游业的垂直搜索引擎的整体性设计。垂直搜索引擎是一项内部逻辑结构复杂的系统,其包括分工明确的前台和后台,前台主要有向用户提供信息查询的API构成,后台主要负责页面的信息集成,包括爬虫、网页过滤、主题词库、网页存储、索引等众多功能模块,前后台并行运作,为游客提供信息支持。第三,在整体设计的基础上着重介绍了垂直搜索引擎三大核心功能模块的设计和实现,包括:页面过滤、爬虫和检索。本文基于广度优先的爬虫策略进行页面的全信息解析和保存,包括文字、图片、影音等;在主题词库的基础上设计了基于朴素贝叶斯分类器的页面过滤方法;在基于Lucene全文检索的基础上,设计了基于页面元数据检索功能,提供更加全面的信息查询功能。最后,在J2EE环境下进行系统的模型的开发和测试。
垂直搜索引擎的研究与设计
这是一篇关于搜索引擎,垂直搜索引擎,网络爬虫,搜索策略,主题相关性的论文, 主要内容为互联网的快速发展,导致网络信息资源呈指数级增长,通用搜索引擎面临信息采集、存储等方面更大的挑战。此外,工作频率不断加快的现代商务人群对通用搜索页面中的大量非目标源信息感到不满,开始对专业领域的搜索精确性产生了强烈的需求,因此面向专业领域的搜索引擎即垂直搜索引擎应运而生。相对于通用搜索引擎的查询不准确、深度不够等局限性,垂直搜索引擎能给特定用户提供某一领域的更专业的信息和服务。 本文首先对垂直搜索引擎中的几个关键技术进行论述,主要包括网络爬虫、网页预处理、中文分词和索引建立等。最后以相关理论知识为依托,对网络爬虫这一模块进行了分析设计与实现。 在垂直搜索引擎中,网络爬虫在信息采集方面如何以更有效的方式对网络中的数据进行搜索,是这几年来垂直搜索引擎研究中的热点问题之一,而本人也在这方面进行了大量的学习与研究。首先对专业网络爬虫各个组成部分所要用到的算法进行了深入的学习。对基于网页内容和基于链接结构分析这两种搜索策略计算页面相关性方面,主要探讨了常用的Fish-Search算法、Shark-Search算法、PageRank算法和HITS算法,并对以上算法在效率和性能方面进了比较。在此基础上,提出了自己的改进算法,即将网页内容和链接结构分析相结合的搜索策略,从分析网页内容相似性的角度分析相关性需求,从网页链接分析的角度解决权威性需求。 通过对算法进行分析与改进,本文设计了一个网络爬虫系统:VSE-Spider,该系统能够对指定的查询主题进行多线程数据抓取,其中在计算主题相关性网页方面使用了本人提出的改进的搜索算法。为了验证改进的算法具有更高的查准率,文中还对VSE-Spider进行了实验测试,得出了实验结果,根据实验数据,对改进的算法和原始算法在所抓取相关页面的查准率上进行了比较,最终得出本文中改进的算法确实是可行有效的。 最后,对索引建立中常用的倒排索引技术进行了详细的分析与研究,并结合开源软件Lucene给出了文本格式的文件索引建立的流程和实现。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://m.bishedaima.com/lunwen/45905.html