基于Hadoop的分布式主题爬虫及其实现
这是一篇关于主题爬虫,Hadoop,主题相关度的论文, 主要内容为随着互联网的广泛应用,网络信息呈现出指数级增长,与此伴随的是人们对于随时随地获取信息的迫切需求,如何利用现有的网络及相关资源为用户提供有效的信息成为亟待解决的难题。主题网络爬虫系统是解决以上难题的一个有效办法,同时云计算的蓬勃发展让提高爬虫系统的效率成为可能。Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架,本文的目标就是在Hadoop的框架下设计并实现一个主题爬虫系统,主要工作如下:(1)探讨了Mapreduce计算模型和HDFS分布式文件系统等涉及Hadoop平台的相关内容,进一步探讨了主题爬虫的体系架构、工作流程和特点等。为了获取更专业、准确的主题信息,对一系列基于主题爬虫的关键技术,诸如相关度判别、页面正文抽取、超链接抽取等进行了研究。在这些研究工作的基础上,本文在充分吸纳已有成果之时,对主题相关性判别技术做了改进,使得系统对主题信息的定位和查找更加精确,抽取到的信息更加符合实际需要。(2)根据实际情况设计了基于Hadoop的主题爬虫系统,详细阐述了系统工作流程和基本框架。为了使该系统获取到的信息有利于后期信息处理和索引,本文设计了正文抽取模块对抓取到的页面进行批量过滤,并将符合要求的内容页的正文提取出来,使信息结构化。(3)研究论述了系统的总体构架和各模块的实现过程,包括数据存储结构、系统功能模块划分及各模块的Mapreduce实现等。(4)在实验室Hadoop平台上部署了该系统并进行了测试。从测试结果分析得出,本文设计的主题爬虫系统;其各功能模块运行良好,能以较高的准确率对主题信息进行抓取;同时,相比单机爬虫系统,其数据抓取效率明显提高,灵活性和扩展性也大大增强。
结合主题热度与学术创新力的文献推荐方法研究
这是一篇关于文献推荐,主题热度,学术创新力,LDA主题模型,主题相关度的论文, 主要内容为随着互联网的高速发展及电子通讯产品的高度普及,获取信息的途径与方式得到极大提升。同时网络中的信息资源亦呈爆炸式增长,面对规模如此庞大的海量数据,如何从中获取到需要的关键信息,成为了大数据时代科研工作者们亟需解决的一大难题。此时推荐系统应运而生,成为了解决这一问题的有效手段。推荐系统属于信息过滤系统中的一种,它从海量数据中将用户不感兴趣的信息过滤,保留用户真正感兴趣的信息并推送,同时推荐系统也被用于科学研究领域。然而,由于每年科技文献的数量呈指数型增长,科技文献作为科学研究中最重要的资源,亦面临着信息过载的问题。因此本文对现有的文献推荐模型做了进一步的研究与补充,主要的研究工作及取得的成果如下:(1)以主题演化模型中主题强度演化为主,主题内容演化为辅对学术研究领域文献进行主题演化分析。以1992年至2019年间发表在CNKI上与“集装箱码头”相关的核心学术论文的标题与摘要作为研究算例,运用主题演化模型探测其研究领域的发展演化与前沿热点。由此得到了我国集装箱码头研究领域的文献基本特征、主题探测与发现两个方面的知识图谱,并发现该领域的6个主题强度呈上升趋势的热点主题。一方面帮助了国内集装箱码头研究领域的学者及时把握该领域的研究重点和热点,快速发现研究的核心和前沿问题;另一方面可利用主题演化模型探究某一研究领域相关文献集合的主题强度随时间变化的过程,并选出属于上升趋势主题的文献作为下一步文献推荐模型的数据集。(2)提出一种融合主题相关度和文献学术创新力的文献推荐模型,向学者推荐相关性强且创新力高的学术论文。首先获取学者某一天(次)的阅读记录,以学者阅读记录为依据计算学者研究兴趣与待推荐文献的主题相关度,获取相关度值;其次再对待推荐文献进行学术创新力评估;最后综合考虑待推荐文献的主题相关度及学术创新力对学者进行学术论文推荐。实验结果表明,与传统的LDA模型相比,本文提出的融合主题相关度与学术创新力的科技文献推荐模型在保持较高主题相关度的同时能为学者推荐创新力更高的文献。(3)在融合主题相关度和文献学术创新力的模型基础上考虑主题强度因素,针对那些对研究前沿热点感兴趣的学者提出一种结合主题热度与学术创新力的文献推荐模型。该模型首先获取学者某一天(次)的阅读记录,将阅读的文献作为学者的研究兴趣集;其次对待推荐文献集进行主题演化分析提取热点主题文献作为新的待推荐文献集;最后对学者进行融合主题相关度和文献学术创新力的文献推荐。实验结果表明,与其它两种模型相比,本文所提出的结合主题热度与学术创新力的文献推荐模型准确率更高且创新力更高。
基于社会标注的主题爬虫研究
这是一篇关于搜索引擎,主题爬虫,社会标注,主题相关度的论文, 主要内容为随着互联网中信息的爆炸式增长,搜索引擎在人们生活中的作用越来越重要,人们对于搜索结果精度要求的提高,使得面向特定领域的垂直搜索引擎的诞生了。对于服务于垂直搜索引擎的主题爬虫,其主要任务就是在一定的时间内尽可能多的采集相关度高的网页信息,从而可以提高搜索引擎的效率,缓解急剧增长的网络资源与有限的存储资源的矛盾。 主题爬虫的核心是主题相关度计算的方法和爬行的链接选取策略,现有的主题爬虫系统的相关度计算算法分成基于网页内容、基于网页链接结构和基于分类器预测三种,都不能够很好的适应社会化网络中发展。社会标注作为社会化网络发展的产物,是对网络资源的一种标示,是从网页浏览者角度赋予网页的一种特性。在分析并得出了社会标注的语义性和社会性的基础上,提出了一种基于标注的相关度计算算法,给出了算法的详细计算公式和步骤,由此来计算页面的主题相关度,最终将计算结果用于指导爬虫的爬行。 以提出的社会标注的相关度计算算法为核心,实现了一个主题爬虫系统,采用异步IO以及线程池处理技术加速了爬虫的爬行速度,并通过多级缓存,DNS预取以及采用具有高速访问以及高并发访问特性的Berkeley DB等多种方法提高了爬虫爬行的效率。 将社会标注的相关度值作为爬行过程中相关性判定的标准,提高相关网页判别的准确性,在相同时间和空间内,增加获取相关页面的数量,并通过与其他算法的实验数据的对比,验证了算法在相关度判断上的效率,提高了主题爬虫的相关网页率,最后给出了需要解决的问题和进一步研究的方向。
结合主题热度与学术创新力的文献推荐方法研究
这是一篇关于文献推荐,主题热度,学术创新力,LDA主题模型,主题相关度的论文, 主要内容为随着互联网的高速发展及电子通讯产品的高度普及,获取信息的途径与方式得到极大提升。同时网络中的信息资源亦呈爆炸式增长,面对规模如此庞大的海量数据,如何从中获取到需要的关键信息,成为了大数据时代科研工作者们亟需解决的一大难题。此时推荐系统应运而生,成为了解决这一问题的有效手段。推荐系统属于信息过滤系统中的一种,它从海量数据中将用户不感兴趣的信息过滤,保留用户真正感兴趣的信息并推送,同时推荐系统也被用于科学研究领域。然而,由于每年科技文献的数量呈指数型增长,科技文献作为科学研究中最重要的资源,亦面临着信息过载的问题。因此本文对现有的文献推荐模型做了进一步的研究与补充,主要的研究工作及取得的成果如下:(1)以主题演化模型中主题强度演化为主,主题内容演化为辅对学术研究领域文献进行主题演化分析。以1992年至2019年间发表在CNKI上与“集装箱码头”相关的核心学术论文的标题与摘要作为研究算例,运用主题演化模型探测其研究领域的发展演化与前沿热点。由此得到了我国集装箱码头研究领域的文献基本特征、主题探测与发现两个方面的知识图谱,并发现该领域的6个主题强度呈上升趋势的热点主题。一方面帮助了国内集装箱码头研究领域的学者及时把握该领域的研究重点和热点,快速发现研究的核心和前沿问题;另一方面可利用主题演化模型探究某一研究领域相关文献集合的主题强度随时间变化的过程,并选出属于上升趋势主题的文献作为下一步文献推荐模型的数据集。(2)提出一种融合主题相关度和文献学术创新力的文献推荐模型,向学者推荐相关性强且创新力高的学术论文。首先获取学者某一天(次)的阅读记录,以学者阅读记录为依据计算学者研究兴趣与待推荐文献的主题相关度,获取相关度值;其次再对待推荐文献进行学术创新力评估;最后综合考虑待推荐文献的主题相关度及学术创新力对学者进行学术论文推荐。实验结果表明,与传统的LDA模型相比,本文提出的融合主题相关度与学术创新力的科技文献推荐模型在保持较高主题相关度的同时能为学者推荐创新力更高的文献。(3)在融合主题相关度和文献学术创新力的模型基础上考虑主题强度因素,针对那些对研究前沿热点感兴趣的学者提出一种结合主题热度与学术创新力的文献推荐模型。该模型首先获取学者某一天(次)的阅读记录,将阅读的文献作为学者的研究兴趣集;其次对待推荐文献集进行主题演化分析提取热点主题文献作为新的待推荐文献集;最后对学者进行融合主题相关度和文献学术创新力的文献推荐。实验结果表明,与其它两种模型相比,本文所提出的结合主题热度与学术创新力的文献推荐模型准确率更高且创新力更高。
复合规则驱动聚焦爬虫系统的设计与实现
这是一篇关于聚焦爬虫,主题相关,复合规则,主题相关度,网页,域名的论文, 主要内容为聚焦爬虫,又称主题爬虫,这种爬虫的爬行方向往往带有很强的目的性。它会按照一定的顺序采集网页信息,力求采集到的信息都是与主题相关的信息,并且对相关度大的网页优先采集,相关度小的网页不采集。本项目实现了一个聚焦爬虫系统,这个系统可以对特定范围内的网站进行实时检测。系统采用复合规则来指导爬虫的运行方向。同时对抓取下来的内容可以通过网站的形式展现给用户查看,用户可以对网页内容标记和对系统运行参数配置。系统整体上分为两个模块,网页内容获取模块和显示查询模块。网页内容获取模块的功能是从网络上获取用户需要的网页信息并且对其进行分析和记录。其中主要包括提取正文、网页去重、链接分析、内容分析、存储入库和抓取调度等主要操作。系统通过这些模块间的协调工作,从互联网上抓取网页信息并进行分析、处理,实现对主题内容网页的聚焦抓取。显示查询模块主要负责将获取到的页面内容展示出来给用户查看。显示查询模块使用网站的形式实现,采用SSH框架,将数据通过图表等方式展现在页面当中。整个项目现已全部完成。项目实现了用户的需求,并且已经稳定在线运行了6个月的时间,抓取到的不同的网页数量为30万个,监测的域名为5000条。
基于教育信息资源本体的主题爬虫的研究
这是一篇关于领域本体,概念,主题爬虫,语义关系,主题相关度的论文, 主要内容为随着网络资源的迅速发展,基于关键词匹配的搜索引擎已经不能满足用户专业化、个性化的查询请求。同时,由于受到万维网架构的影响,传统的基于关键词匹配的网络爬虫很大程度上降低了网页抓取的查全率和查准率。如何从海量网络数据中获取用户所需的专业化、个性化的数据已成为当前的研究热点。 面对这种情况,主题爬虫应运而生。主题爬虫是一种能在互联网上针对特定主题进行资源采集的网络爬虫。本文在深入研究主题爬虫的相关理论和技术的基础上,充分利用了领域本体在语义表达上的优势,将领域本体和主题爬虫的爬行过程相结合,提出一种基于本体语义树的主题爬虫模型。 本文首先构建了教育信息资源本体库,并扩展了教育信息资源的特有属性,在此基础上描述了主题爬虫的特定主题。其次,通过对大量网页进行结构分析,运用相应的算法分析页面中的title文本、URL文本和anchor文本等信息,提取出链接概念集合;同时运用相应的算法分析页面中的title文本、页面描述信息和关键词等信息,提取出页面内容概念集合。然后,本文提出了基于领域本体的链接相关度算法和页面内容相关度算法。在主题爬虫的爬行过程中,通过分析领域本体中的概念与链接概念集合的语义关系,过滤与主题不相关的链接;通过分析领域本体中的概念与页面内容概念集合的语义关系,过滤与主题不相关的网页。最后,本文实现了基于教育信息资源本体的主题爬虫原型系统,并通过对实验结果的分析,验证了主题爬虫系统提高了网页抓取的查全率和查准率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码港湾 ,原文地址:https://m.bishedaima.com/lunwen/48154.html