给大家推荐5篇关于主题搜索引擎的计算机专业论文

今天分享的是关于主题搜索引擎的5篇计算机毕业论文范文, 如果你的论文涉及到主题搜索引擎等主题,本文能够帮助到你 基于Shark优化算法的主题搜索引擎研究 这是一篇关于主题搜索引擎

今天分享的是关于主题搜索引擎的5篇计算机毕业论文范文, 如果你的论文涉及到主题搜索引擎等主题,本文能够帮助到你

基于Shark优化算法的主题搜索引擎研究

这是一篇关于主题搜索引擎,网络爬虫,网页排序,Shark Search的论文, 主要内容为由于高新技术不断推动着产业种类与结构向专业化和精细化发展,那么如何高效获取专业实用信息成为了人们普遍关注的问题之一。因传统搜索引擎的检索精度不断下降,于是掀起了研究基于主题的搜索引擎的热潮。本文以搜索引擎相关理论基础为铺垫,简明介绍了搜索引擎的特点、基本架构、关键技术以及主题网络爬虫的原理、结构及工作原理等,接着详细分析了常见的三种主题爬行算法与比较了Page Rank与HITS两种基于链接结构的网页排序算法,针对使用单一的评估方法无法达到有效预测链接地址实际价值的目的,提出了基于内容评估与Web链接结构组合的搜索策略方案,并基于主题搜索引擎基本思路提出了一种新的主题爬行模型和设计了一种新的多线程协作式主题爬行器。在讨论与设计了搜索引擎基本方案与爬虫系统之后,针对shark算法存在的不足,如无关网页后面连接着相关网页链接、优先度区别过小及URL队列过长,提出了优化改进思路,同时也设计与实现了shark算法,最后根据网页内容链接相关性计算,描述了多媒体主题的网页搜索算法实现步骤与通过仿真实验比较了传统Fish、shark Search算法与优化的shark算法。与通用搜索引擎相比,主题搜索引擎像是一种变体,它在其基本结构与技术上优化了通用搜索引擎的一些功能。为了专业用户更高效更准确地获取所需要的专业领域信息,特针对主题搜索引擎设计了网络爬行器,其爬行网页的基本思想是:针对既定主题搜索网页并过滤与主题无关的网页,留下主题相关网页。Shark-Search算法是一种十分有代表性的主题搜索引擎算法,根据多媒体素材在网页中分布特点,Shark-Search算法主要从三个方面:搜索广度、链接相似性判断与要抓取链接选择策略上做了进一步优化,而且采用“先搜索、后判断”的查询方案,大大提升了多媒体网页主题搜索的效率。

主题搜索引擎的研究与实现

这是一篇关于主题搜索引擎,朴素贝叶斯算法,Lucene,网络爬虫的论文, 主要内容为随着互联网上的页面呈指数级的增长,传统的全文搜索引擎由于采集页面数量大、返回结果数量过多的缺点逐渐不能满足用户的检索需求。主题搜索引擎,专注于某个领域,逐渐成为搜索引擎领域研究的热门。 本文首先介绍了主题搜索引擎的相关知识,包括主题搜索引擎与全文搜索引擎的异同点、主题搜索引擎的结构、倒排索引理论、爬虫的抓取策略以及搜索引擎中比较著名的排序算法。 本文接着从主题爬虫和索引检索模块两部分说明了主题搜索引擎的实现过程。 在主题爬虫模块部分,本文研究了主题爬虫的工作原理,然后探讨了页面采集过程,包括如何利用队列防止URL的重复爬取。在网页去噪中,利用了统计学的方法分析出页面中的噪音部分并予以去除,从而使得爬虫可以得到纯净的网页正文。为了防止页面内容重复,利用信息指纹表示页面,并改进机械最大分词算法,使得能够对中英文混合文本进行分词。在主题爬虫最关键的主题识别部分,采用朴素贝叶斯算法进行主题识别,并详细分析了训练过程和实现过程。 在基于Lucene的索引检索模块部分,研究了Lucene全文索引检索包。利用改进的机械最大分词算法对Lucene的分词模块进行扩展,从而使得Lucene能够更好的分词及建立索引。分析了利用Lucene建立索引的过程。利用DWR和Spring框架实现检索子系统,并对Lucene的评分算法进行改进,将查询关键词的位置和用户点击加入评分算法中,使得对于检索结果的排序更能符合用户的需求。利用Highlighter实现关键字高亮,使得检索结果一目了然。 为了证明本文方法的可行性,本文设计了两组实验。一组是将基于朴素贝叶斯算法的主题识别与基于主题词表的主题识别、基于链接的主题识别在准确率和速度上进行了比较,证明利用朴素贝叶斯算法进行主题识别是可行的;第二组是对本文实现的汽车领域的主题搜索引擎的性能进行测试,从查全率、查准率和响应速度上分别对搜索引擎进行实验。实验结果表明,该搜索引擎查全率、查准率和响应速度上都表现优良,证明了利用本文的方法实现一款主题搜索引擎是可行的。

主题爬虫搜索策略研究

这是一篇关于主题搜索引擎,爬行策略,爬行算法,内容分析,链接分析的论文, 主要内容为随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。 在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。 首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。 其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。 再次,本文提出了HITS改进算法Topic-HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。 最后,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。本研究采用改进的HITS算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。实验结果表明,在此系统上不仅能够准确、自动地爬行到主题相关网页,而且还可节约网络带宽,具有良好的稳定性。

主题爬虫搜索策略研究

这是一篇关于主题搜索引擎,爬行策略,爬行算法,内容分析,链接分析的论文, 主要内容为随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。 在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。 首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。 其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。 再次,本文提出了HITS改进算法Topic-HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。 最后,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。本研究采用改进的HITS算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。实验结果表明,在此系统上不仅能够准确、自动地爬行到主题相关网页,而且还可节约网络带宽,具有良好的稳定性。

主题爬虫搜索策略研究

这是一篇关于主题搜索引擎,爬行策略,爬行算法,内容分析,链接分析的论文, 主要内容为随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。 在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。 首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。 其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。 再次,本文提出了HITS改进算法Topic-HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。 最后,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。本研究采用改进的HITS算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。实验结果表明,在此系统上不仅能够准确、自动地爬行到主题相关网页,而且还可节约网络带宽,具有良好的稳定性。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://m.bishedaima.com/lunwen/49789.html

相关推荐

发表回复

登录后才能评论