基于忆阻神经网络的爬虫算法研究
这是一篇关于聚焦爬虫,忆阻神经网络,Scrapy,分块聚类的论文, 主要内容为在大数据时代,海量网络数据使得传统聚焦爬虫技术的缺点渐渐凸显。面对不断增高的用户信息搜索要求,聚焦爬虫技术迫切需要改进和优化。近年来,人工智能的发展为聚焦爬虫技术提供新的思路,运用人工智能技术研究聚焦爬虫算法已经成为爬虫领域的热点方向。在此背景下,本学位论文以忆阻神经网络模型为基础,主要研究忆阻神经网络爬虫算法和基于Scrapy的忆阻神经网络爬虫系统。具体工作概括如下:1)基于忆阻神经网络的爬虫算法研究本论文提出基于忆阻神经网络的爬虫算法,详细阐述该神经网络的激活传播过程,综合广度优先搜索和最佳优先搜索策略来设计基于忆阻神经网络的搜索算法,并提出基于忆阻器模型的主题相关性分析算法和基于信息熵的主题相关性算法。2)基于Scrapy的忆阻神经网络爬虫系统的设计和实现引入基于视觉信息的网页分块算法和基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的聚类算法,设计分块聚类算法解析网页;通过分析爬虫模块的调度关系与使用布隆过滤器,优化Scrapy框架下的URL去重;基于Scrapy开源爬虫框架,设计基于忆阻神经网络的聚焦爬虫系统。3)算法应用与实验分析应用基于忆阻神经网络的爬虫算法和聚焦爬虫系统到实际项目,采集和展示西藏发展成果。实验结果表明,在抓取大量网页后,本论文所提出的爬虫算法查准度达到50%以上,相比基于Breadth-First Search、Best-First Search等经典爬虫算法以及神经网络爬虫算法Hopfield net spider,查准率提高10%以上。通过引入分块聚类算法分析网页,聚焦爬虫的准确率从40%提升到60%。由此,本文所提出的爬虫算法及爬虫系统有效可行。
复合规则驱动聚焦爬虫系统的设计与实现
这是一篇关于聚焦爬虫,主题相关,复合规则,主题相关度,网页,域名的论文, 主要内容为聚焦爬虫,又称主题爬虫,这种爬虫的爬行方向往往带有很强的目的性。它会按照一定的顺序采集网页信息,力求采集到的信息都是与主题相关的信息,并且对相关度大的网页优先采集,相关度小的网页不采集。本项目实现了一个聚焦爬虫系统,这个系统可以对特定范围内的网站进行实时检测。系统采用复合规则来指导爬虫的运行方向。同时对抓取下来的内容可以通过网站的形式展现给用户查看,用户可以对网页内容标记和对系统运行参数配置。系统整体上分为两个模块,网页内容获取模块和显示查询模块。网页内容获取模块的功能是从网络上获取用户需要的网页信息并且对其进行分析和记录。其中主要包括提取正文、网页去重、链接分析、内容分析、存储入库和抓取调度等主要操作。系统通过这些模块间的协调工作,从互联网上抓取网页信息并进行分析、处理,实现对主题内容网页的聚焦抓取。显示查询模块主要负责将获取到的页面内容展示出来给用户查看。显示查询模块使用网站的形式实现,采用SSH框架,将数据通过图表等方式展现在页面当中。整个项目现已全部完成。项目实现了用户的需求,并且已经稳定在线运行了6个月的时间,抓取到的不同的网页数量为30万个,监测的域名为5000条。
基于Web Community识别的聚焦爬虫算法研究与设计
这是一篇关于Web Community,聚焦爬虫,HITS算法的论文, 主要内容为本文在对Web Community理论,文本分类技术和聚焦爬虫理论的深入探讨的基础上,对基于Web Community识别的聚焦爬虫算法进行了研究与设计,实现了应用该算法的聚焦爬虫系统并利用此聚焦爬虫系统对该算法进行实验评估。 本文所提出的聚焦爬虫算法模型是Improved-HITS-Expansion-IterationModel(IHEIM),该模型是基于改进HITS的迭代算法进行扩展而形成的计算模型,基于该模型的算法为IHEIM原型算法。为了符合聚焦爬虫在线抓取网页的特性,提出基于IHEIM原型算法的Adaptive IHEIM算法。在每次迭代过程中,对下一轮迭代扩展的目标作以界定,将此扩展目标界定定义为聚焦指数。 本文描述的应用Adaptive IHEIM算法的聚焦爬虫系统包括主题集合生成模块,基本网页集合生成模块,分类器模块,网络图计算模块和抓取解析模块。 本文的实验对包括Adaptive IHEIM算法在内的应用在聚焦爬虫上的四种算法进行测评,即广度优先策略算法、基于链接上下文预测的算法、OPIC算法和Adaptive IHEIM算法,利用平均Harvest Rate和平均Target Recall作为对比目标,得到结论Adaptive IHEIM算法优于其它三种算法。在对比Adaptive IHEIM算法取不同聚焦指数时,对不同聚焦指数作了平均Harvest Rate和平均Target Recall对比,得到结论每次迭代算法之后聚焦爬虫的抓取效果有所提高,随着抓取页面数量增多,抓取效果会逐渐降低。在抓取主题和其它参数相同的情况下,聚焦指数越小,抓取的效果越好。在不同聚焦指数的情况下,做总抓取数目的对比分析,结论是总抓取数目对于聚焦指数呈指数增长。
基于聚焦爬虫的网上药品信息监测系统
这是一篇关于聚焦爬虫,药品信息监测,页面搜索算法,相关度分析算法的论文, 主要内容为近年来,随着互联网的飞速发展,网络已成为人们获取信息、传递信息的重要途径,随之而来的是网络信息呈指数级的爆炸性增长。互联网的发展虽然极大地方便了人们的生活,但由于其资源广,范围大,发布信息成本低,监管难等特点,使得许多在有形市场上受到有关执法部门强有力的打击的制假售假者逐渐将售假的平台转移到了网络上来,大量假冒侵权商品在网络上肆无忌惮地出现,一个新的“售假天堂”正在形成。 为了打击日益猖獗的网络兜售假冒药品的犯罪行为,减轻工作人员的工作强度,需要对网上药品交易信息进行监测,药品信息监测的关键就是要对浩瀚的网络资源进行主题搜索,而实现主题搜索的就是聚焦爬虫。聚焦爬虫针对某个领域或面向特定主题,以获得较为理想的准确率和召回率。但大多数搜索算法都是用于大主题搜索,而专门用于特定小主题(比如药品交易监测)的搜索效果却不理想。为此,本文主要做的工作包括: 1.针对论坛网站和普通网站的网络结构特点的不同,分别提出了不同的页面搜索算法。 2.针对小主题搜索效果不佳的问题,在分析现有聚焦爬虫搜索方法的基础上,提出了一种对互联网特定主题进行信息搜索的组合策略。这种组合搜索策略包括页面搜索、相关度分析两部分。页面搜索算法采用了改进型的Fish-Search算法;相关度分析采用了分步算法,其中第一步采用向量空间模型。搜索算法,粗选出大主题;第二步分别采用改进型的朴素贝叶斯分类算法与k最近邻算法,从粗选结果中再精选出相关的小主题。 3.在此研究基础上,开发了一套面向网上药品的信息监测系统。通过采集多个网站和论坛页面数据,结果表明,这种组合式搜索策略能有效提高爬虫的运行效率及小主题搜索的查准率。
面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现
这是一篇关于垂直搜索引擎,聚焦爬虫,主题相关度,爬行策略,提取正文的论文, 主要内容为随着Internet的飞速发展,信息资源的规模已变得极其庞大。在海量的网络信息资源中,快速、精确地找到用户所需的信息变得日益困难。此时,搜索引擎应运而生。搜索引擎为用户查找信息提供了极大地便利,故而被人们广泛使用。网络爬虫是搜索引擎的核心模块,负责采集网络上的各种网页。网络爬虫的爬行策略和性能极大地影响了搜索引擎的服务质量,因此,网络爬虫值得研究与改良。由于庞大的网络规模和及时响应需求,通用搜索引擎提供的检索结果往往充斥着许多无关数据,无法令用户满意。垂直搜索引擎,是为提供更细致精准的搜索服务而发展的新一代搜索引擎。本文的研究对象是垂直搜索引擎中的聚焦网络爬虫。聚焦爬虫专注于特定领域的信息采集,它的资源采集效率较高。聚焦爬虫为爬虫领域的发展提供了新的思路,具有较高的研究、实用价值。 本文首先概述了搜索引擎的发展状况和网络爬虫的研究现状,阐述了搜索引擎的基本原理及工作流程,然后深入探讨了聚焦爬虫系统所涉及的各项关键技术。最后基于上述理论给出了一个聚焦爬虫系统的工程化实现。 本文在聚焦爬虫系统的爬行策略上,借鉴Fish-Search算法与Shark-Search算法的算法流程,在其基础上动态地调节主题相关度的闽值,以避免主题网页团之间的隧道问题。同时本文借用了成熟的文本分析方法,即向量空间模型中的TF-IDF算法,通过改进的方法来计算网页的主题相关度与URL链接的主题相关度。在网页的正文内容提取方面,利用网页的标签树结构,通过计算文字/标签密度来提取网页正文。实验表明,与以传统方法实现的聚焦爬虫系统相比,本文实现的聚焦爬虫系统虽然在爬行的准确率上略有下降,但其能获得更高的主题资源发现率,在两者之间取得一个较好的平衡。
复合规则驱动聚焦爬虫系统的设计与实现
这是一篇关于聚焦爬虫,主题相关,复合规则,主题相关度,网页,域名的论文, 主要内容为聚焦爬虫,又称主题爬虫,这种爬虫的爬行方向往往带有很强的目的性。它会按照一定的顺序采集网页信息,力求采集到的信息都是与主题相关的信息,并且对相关度大的网页优先采集,相关度小的网页不采集。本项目实现了一个聚焦爬虫系统,这个系统可以对特定范围内的网站进行实时检测。系统采用复合规则来指导爬虫的运行方向。同时对抓取下来的内容可以通过网站的形式展现给用户查看,用户可以对网页内容标记和对系统运行参数配置。系统整体上分为两个模块,网页内容获取模块和显示查询模块。网页内容获取模块的功能是从网络上获取用户需要的网页信息并且对其进行分析和记录。其中主要包括提取正文、网页去重、链接分析、内容分析、存储入库和抓取调度等主要操作。系统通过这些模块间的协调工作,从互联网上抓取网页信息并进行分析、处理,实现对主题内容网页的聚焦抓取。显示查询模块主要负责将获取到的页面内容展示出来给用户查看。显示查询模块使用网站的形式实现,采用SSH框架,将数据通过图表等方式展现在页面当中。整个项目现已全部完成。项目实现了用户的需求,并且已经稳定在线运行了6个月的时间,抓取到的不同的网页数量为30万个,监测的域名为5000条。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/48153.html