主题网络爬虫的研究和实现
这是一篇关于主题爬虫,搜索策略,相关度模型,查准率,查全率的论文, 主要内容为随着网络信息时代的不断发展,广泛分布于因特网上的各类信息深刻地影响着人类生活的各个方面。如今,人们能够通过浏览网页的方式来查询其所需的各类目标信息。与此同时,由于因特网上的信息成千上万,信息量处于高速膨胀的状态,使得如何通过网页便捷地查询到目标信息这一问题更为凸现。 在信息多元化发展的趋势之下,通用搜索引擎在很大程度上为人们在因特网上查找信息提供方便,但也暴露出种种不足。例如:查准率偏低、信息内容相对陈旧、信息分布范围不均衡等。因此,主题搜索引擎技术成为新的研究方向,它专门为特定领域、特定人群或特定需求提供具有一定价值的信息资源和检索服务。主题爬虫作为主题搜索引擎的信息抓取部分,负责对与用户感兴趣的某一主题相关的网页进行抓取。 本文主要通过六个章节来分析主题爬虫的设计和实现。第一章主要阐述了搜索引擎的发展过程,网络爬虫在搜索引擎中的作用,简述了国内外的研究现状以及课题的研究意义。第二章是本文的理论基础:首先阐述了搜索引擎的基本原理,随后基于对比通用爬虫和主题爬虫找出其差异之处及其各自的特点之上,重点讨论了两种爬虫的体系结构和基本工作原理。第三章主要讨论了主题爬虫领域关键技术的研究和改进,包括文本特征项的提取方法、搜索策略以及网页消重技术的研究,并提出基于主题相关度的PageRank算法的改进。第四章主要探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词以及URL管理等模块。第五章描述了主题爬虫系统的界面与操作细节,以及利用该系统进行的实验过程,通过对实验数据的分析,证明了前述章节中各个理论的合理性与有效性。第六章对前面章节内容进行小结与归纳,并提出本文的创新点与局限性。 实验结果证明:该主题爬虫在稳定运行的同时有着更好的收获率,极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新,此外用户查找时得到的冗余和无用信息也较少,具有更高的查准率。
主题网络爬虫关键技术的研究与应用
这是一篇关于主题爬虫,相关性判别,搜索策略,正文提取,关键词提取的论文, 主要内容为互联网技术的快速发展带动着Web信息量的急剧增长。从大量网页中快速、准确查找需要的信息,特别是针对特定领域、主题的信息检索成为了人们越来越迫切的需求。搜索引擎如何采集主题相关的Web信息、对信息内容有效组织和定位,并将相关检索结果快速展示给用户变得尤为重要。本文分析了主题爬虫研究的必要性,重点研究了页面主题相关性判别和主题信息在爬虫Web页面搜索中的指导作用。在此基础上,论文对主题爬虫系统的关键模块进行了研究和设计,主要包括以下几个模块:页面下载、正文提取、主题判别、链接价值预测、调度模块和主题库存储模块。所做的主要研究工作如下: (1)分析了网页正文的内容特征和分布特征,按照网页中正文分布遵循一定的规则,提出了一种基于句子分块密度和标点符号的网页正文提取算法。 (2)研究了文本内部词语的分布网络特点,利用基于语义加权网络的关键词提取方法构建训练文本的类别关键词,并设计了一种基于类别关键词的贝叶斯分类器,用于判断网页是否与主题相关。 (3)通过分析Web链接和Web页面分布的特点,提出了一种改进的基于链接内容价值评价的搜索策略。 (4)根据上述页面主题判别算法和改进的搜索策略,用JAVA语言编写了一套主题爬虫系统程序。利用该系统对大量网页进行测试,结果表明上述改进方法效果良好。
主题网络爬虫的研究和实现
这是一篇关于主题爬虫,搜索策略,相关度模型,查准率,查全率的论文, 主要内容为随着网络信息时代的不断发展,广泛分布于因特网上的各类信息深刻地影响着人类生活的各个方面。如今,人们能够通过浏览网页的方式来查询其所需的各类目标信息。与此同时,由于因特网上的信息成千上万,信息量处于高速膨胀的状态,使得如何通过网页便捷地查询到目标信息这一问题更为凸现。 在信息多元化发展的趋势之下,通用搜索引擎在很大程度上为人们在因特网上查找信息提供方便,但也暴露出种种不足。例如:查准率偏低、信息内容相对陈旧、信息分布范围不均衡等。因此,主题搜索引擎技术成为新的研究方向,它专门为特定领域、特定人群或特定需求提供具有一定价值的信息资源和检索服务。主题爬虫作为主题搜索引擎的信息抓取部分,负责对与用户感兴趣的某一主题相关的网页进行抓取。 本文主要通过六个章节来分析主题爬虫的设计和实现。第一章主要阐述了搜索引擎的发展过程,网络爬虫在搜索引擎中的作用,简述了国内外的研究现状以及课题的研究意义。第二章是本文的理论基础:首先阐述了搜索引擎的基本原理,随后基于对比通用爬虫和主题爬虫找出其差异之处及其各自的特点之上,重点讨论了两种爬虫的体系结构和基本工作原理。第三章主要讨论了主题爬虫领域关键技术的研究和改进,包括文本特征项的提取方法、搜索策略以及网页消重技术的研究,并提出基于主题相关度的PageRank算法的改进。第四章主要探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词以及URL管理等模块。第五章描述了主题爬虫系统的界面与操作细节,以及利用该系统进行的实验过程,通过对实验数据的分析,证明了前述章节中各个理论的合理性与有效性。第六章对前面章节内容进行小结与归纳,并提出本文的创新点与局限性。 实验结果证明:该主题爬虫在稳定运行的同时有着更好的收获率,极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新,此外用户查找时得到的冗余和无用信息也较少,具有更高的查准率。
主题网络爬虫关键技术研究
这是一篇关于主题爬虫,主题表示,相关性判断,主题预测,搜索策略的论文, 主要内容为随着Internet的迅速发展,网络上的资源日趋丰富,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要,面向主题的搜索引擎应运而生,提供信息分类更细致精确的网络搜索服务。主题爬虫是面向主题搜索引擎的一个关键组成部分。主题爬虫根据用户定义的目标主题,智能化地从Web上收集主题相关的网页,能够快速、准确地得到网络中的有用信息资源。 本文首先分析了主题爬虫的技术原理、工作流程,然后重点分析了爬虫的主题表示、主题相关性判断、主题预测及主题搜索策略。主要研究工作如下: 第一,在主题表示方面,通用的基于关键词的主题表示精确度不高,为此,本文提出了利用交互策略进行基于关键词的主题表示。即,先经过程序分析,提供候选主题表示关键词,再由用户通过程序提供的接口进行关键词的修改。通过这种人工交互的半自动化方式,主题表示可以准确、全面地表达用户的需求。 第二,本文提出了基于链接结构和网页内容的主题相关性判断方法,综合考虑了父网页的主题相关度、链入网页数目、网页文本内容及锚文本信息。这四个因素结合起来可以充分发挥各自的优点,准确判断网页是否主题相关。 第三,本文分析了Shark-Search搜索策略算法的优缺点,并对算法进行改进。在Shark-Search中,主题预测算法采用了链接上下文信息,但是链接上下文信息通常充满嗓音,难以准确预测网页主题,而大部分网页的URL地址则包含了与网页内容相关联的语义标记,这些标记可以准确计算该URL主题相关性优先级,本文提出利用URL地址的主题相关性优先级代替Shark-Search算法中的链接上下文主题预测值。此外,Shark-Search算法存在很大贪婪性,难以在全局范围内找到最优解,所以本文在Shark-Search算法中引入隧道分析技术来解决算法的贪婪性问题。实验证明,应用改进的Shark-Search搜索策略,主题爬虫的“准确率”和“召回率”得到显著提高。 第四,本文在上述理论分析的基础上,实现了一个主题爬虫系统。实验结果表明,该系统提供的数据有较高的准确率和覆盖率。
主题爬虫的设计与实现
这是一篇关于网络爬虫,主题搜索,搜索策略,增量贝叶斯,并行架构的论文, 主要内容为随着网络信息资源的急速增长,如何能够快速准确的在数量巨大的网络资源中获取需要的信息是网络研究的一个热点。通用搜索引擎提供的是一种粗略的检索服务,已越来越不能满足人们个性化、专业化的搜索需求。主题搜索引擎只搜索与特定主题相关的网络资源,能为用户提供更加快速、更加准确的检索服务,因而成为现代信息检索的一种趋势。网络爬虫是搜索引擎获取网络数据的重要工具,搜索引擎利用网络爬虫在网络上自动的获取网络资源,然后对所获取的资源建立索引,以供网络用户进行信息检索。 论文首先介绍了通用网络爬虫的模型、原理和不足,进而介绍了聚焦爬虫的原理及其架构,详细分析了主题爬虫的关键技术,即主题搜索策略和主题相关性的计算。 通过对主题爬虫原理的分析,设计了并行架构的主题爬虫系统;指出了基于内容评价搜索策略的Shark-Search算法和链接结构评价的搜索策略HITS算法的不足,设计了结合Shark—Search算法和HITS算法的搜索策略作为主题爬虫的搜索策略。已有的主题爬虫需要大量已标记的训练样本来进行离线训练,无法在爬行过程中对新的知识进行增量学习,不能很好的利用已经下载的和主题相关的网页,因而很难符合当今Web资源采集的需求。对新下载的页面在线学习可提高页面下载精度,有利于加速主题爬行过程。本文通过对增量朴素贝叶斯分类算法的研究,将增量贝叶斯分类器应用于主题爬虫主题相关度的计算中。 最后采用C++语言在Linux环境下对主题爬虫进行了实现。实验结果表明,爬虫系统性能良好,可以准确的进行主题信息的自动爬取。
主题爬虫的实现及其关键技术研究
这是一篇关于主题爬虫,搜索策略,隧道现象,相关度计算的论文, 主要内容为随着互联网的快速发展,信息的发布与传播变得越来越快捷,网络上的信息量也积累到了非常庞大的规模,这使得检索信息变得日益困难,所幸搜索引擎能够为用户提供快速的信息检索,它被人越来越多的使用并成为日常生活中的一种依赖。网络爬虫作为搜索引擎的抓取模块,负责搜集互联网上的网页,爬虫系统的爬行性能和搜集到的网页质量很大程度上影响了搜索引擎的服务质量,所以爬虫是搜索引擎的重要组成部分,值得研究和改进。近年来,受制于网络的规模,通用爬虫的负担越来越繁重,而专注于特定领域的主题爬虫搜集的信息更有针对性,并且运行效率较高,于是得到了广泛的重视和深入的研究。主题爬虫为爬虫领域开辟了一条新的路径,具有很高的研究价值和实用价值,本文围绕设计和实现一个主题爬虫所涉及的各项技术展开讨论,所做的主要工作和研究成果包括: (1)提出和实现了一种改进的搜索策略,主要是通过动态调整阈值,使爬虫的搜索过程更有灵活性,可以有效解决主题爬虫领域的隧道现象,平衡主题爬虫的搜集覆盖率和准确率,使两者都达到较高的水平; (2)提出和实现了一种改进的相关度计算模型,主要是通过合理压缩空间向量的维度,在不丢失准确度的情况下,减少了计算的时间复杂度,可以有效提高计算速度; (3)研究了当数据规模很大时,爬虫系统如何实现URL的消重和网页的存储,前者主要是通过将索引建立成B-树的结构,从而有效的压缩了维护URL队列所需的空间,后者主要是放弃数据库的存储方式,将网页按照一定的存储格式,以文件方式予以保存,有利于数据的安全和维护; (4)研究了涉及主题爬虫领域的各项技术问题,主要有网页的获取,网页内容的分析,中文分词和搜索策略等,综合上述各方面的理论,设计和实现了个主题爬虫系统,利用该系统对搜索策略和相关度计算的改进方法进行了实验测试,数据显示上述改进方法效果良好。
基于主题网络爬虫的汽车行业多元信息web系统设计与实现
这是一篇关于主题网络爬虫,向量空间模型,搜索策略,汽车行业信息的论文, 主要内容为伴随着汽车行业的高速发展,行业竞争愈发激烈,本土汽车企业兼并加剧、国外大型跨国企业纷纷入驻、原材料价格不断上涨、消费者的需求不断变化、整车行业整体利润下滑,迫使着汽车企业需要更加全面的了解与市场相关的信息:汽车行业动态、行业政策法规动态、零部件价格等信息。这些信息大量存在于互联网中,然而传统、主流地信息获取工具:通用搜索引擎目前在面向专业人士在专业领域上检索相关信息时,存在着返回信息不精准、不全、更新不及时等问题;同时,主流汽车行业相关网站又以汽车产品消费者提为主要服务对象。汽车企业用户想通过互联网获取相关行业信息,并不是特别方便。针对通用搜索引擎存在的缺陷,主题网络爬虫技术应运而生,主题爬虫技术能自动的从互联网上采集与主题相关的网页,回避无关网页。因此,建立一个基于主题网络爬虫的汽车行业多元信息web系统解决汽车企业用户获取需求信息的不便,达到了解市场行情的目的,进而帮助汽车企业制定市场战略,提高企业市场竞争力是有必要的。本文的目标是建立一个汽车企业用户的汽车行业多元信息web系统,为企业用户提供汽车行业新闻资讯、行业政策法规、汽车零部件价格等信息,研究的主要内容如下:首先,在汽车行业竞争日益激烈和通用搜索引擎采集信息存在的不足的背景下,引出通过主题网络爬虫技术采集汽车行业相关信息的话题。在此基础之上讨论了汽车行业资讯、汽车产业政策法规、汽车零部件价格信息三者的现实需求。其次,在需求分析的基础上结合主题网络爬虫技术设计了系统总体解决方案。再次,对于主题网络爬虫,研究了其架构和工作原理,在架构的研究基础上,对各个模块的实现技术展开深入研究,包括在对网页的解析,对网页正文的分词技术的研究;对当前主流的主题基准模型展开研究,结合本文实际需求,选定向量空间模型为本文的主题基准模型;对当前主流关键字赋权的计算法TF和TF-IDF展开研究;对主题网络爬虫当前主流的搜索策略展开研究,在此基础上设计了本文基于网页文本和链接结构的综合搜索策略。最后,在对前文所有研究的基础上,开发实现了基于主题网络爬虫的汽车行业多元信息web系统。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码向导 ,原文地址:https://m.bishedaima.com/lunwen/53404.html