基于Nutch的漏洞垂直搜索引擎
这是一篇关于垂直搜索引擎,漏洞,PageRank,Nutch,插件的论文, 主要内容为随着计算机及互联网技术的飞速发展,互联网已成为国家重要的信息基础设施。与此同时,互联网作为一个运行系统及社会公共环境,其所面对的和隐藏在其中的安全威胁也越来越复杂、越来越严重。安全漏洞是构成网络安全威胁的重要原因,网络入侵、大规模蠕虫传播、系统拒绝服务等问题多是由安全漏洞所引发。为了降低安全漏洞带来的风险,增加对漏洞威胁的预警能力,提高对安全漏洞进行管理及控制的能力,很多国家安全机构和网络安全组织都建立了漏洞库。但是各个漏洞库收集的漏洞并不全面,对漏洞的缺陷描述也不尽相同。 本文针对目前漏洞库信息庞大、漏洞信息不全面、漏洞描述欠缺等问题,提出可以整合各个漏洞库的漏洞垂直搜索引擎系统。为了实现漏洞垂直搜索引擎系统,本文设计了系统的整体框架流程,并围绕整体框架的各个模块分别进行了研究,如爬行模块,索引模块,检索模块、中文分词模块等。在爬行模块采用站长提交方式建立初始URL集,并采用广度优先的遍历方式访问网页信息,以提高搜索引擎的爬行效率。由于本文所设计的漏洞搜索引擎对排序结果有比较高的要求,所以采用向量模型和链接分析相结合的方法,即增加漏洞信息field和设置文档boost,使漏洞搜索引擎的排序结果达到公平合理的效果。在中文分词模块,使用的是IKCAnaylzer中文分析器,这是因为它是采用基于字典分词技术,针对中文文本实现了正反向全切分和正反向最大匹配。用户界面使用JSP技术完成动态网页生成。本搜索引擎为了方便用户使用,也提供了网页快照功能。本文实现的主要研究成果为:(1)根据PageRank算法在垂直搜索引擎中的缺陷和垂直搜索引擎专注、具体、深入的特点,结合漏洞标题和漏洞描述提供大量漏洞信息的特点,提出对搜索结果进行合理、公平排序的算法。(2)深入研究垂直搜索引擎框架及Nutch的工作流程,使用站长提交方式建立抓取系统的URL集,使用Nutch插件机制实现文本分析、索引系统和搜索系统,从而实现基于Nutch的漏洞垂直搜索引擎系统。(3)相对于Google、Baidu等通用搜索引擎而言,漏洞垂直搜索引擎虽然在检索结果数量上有些逊色,但在结果的精确度和相关性排序上,垂直搜索引擎有明显的优势,检索结果数量的减少在很大程度上也缩减了检索时间。
分布式网络爬虫在农产品搜索系统中的应用与研究
这是一篇关于Nutch,分布式系统,网络爬虫,垂直搜索,农产品的论文, 主要内容为在互联网信息规模快速增长的背景下,要想将互联网上各种各样的信息全部涵盖和收集显得不太现实,即使是谷歌、百度这样的搜索引擎公司也只能收集到不到20%的互联网信息[1]。通用搜索引擎在人们的生活中起着越来越关键的作用,但是随着人们需求的多元化,以及通用引擎自身局限性,通常精确的搜索需求得不到满足。网络商品信息繁多,各种农产品随着产地和时间的不同,价格变化大,而且农产品交易网站数量众多,如何快捷的得到自己感兴趣的网络农产品信息就是一个值得研究的问题了。由于网络信息量巨大,即使是农产品这样一个非常狭小的领域,也会涉及到海量的信息。建立一个比价系统首要的就是信息源的选取,在海量信息面前,单机爬虫显然是作用有限的。本文提出了将网络爬虫和分布式的系统进行结合,在多机集群的分布式系统中实现的网络爬虫,从而提高信息下载收集的效率。本文所构建的系统是在Nutch这个成熟的搜索引擎架构上进行功能化和特性化的改造,使系统可以针对农产品的信息建立索引,并提供搜索和查询功能。由于本文研究的是针对特定领域的商品信息,因此在对商品信息进行搜索和建立索引时,就会涉及到URL的过滤和主题相关性的判断问题。我们结合了HTMLParaser和正则表达式对URL进行过滤,在对网页的内容主题相关性判定时,借助于空间向量模型。在收集完相关网页信息后,在进行建立搜索和搜索服务提供时,都会涉及到分词操作,由于Nutch中原有的分词操作不能够较好的实现中文分词,我们选用了对中文分词支持比较好的IKAnalyzer来完成中文的分词。索引操作是对于收集到的信息进行一个预先的组织优化,使信息能够快速的被定位到。Nutch系统中采用的检索,由Lucene提供的全文检索系统,对网页信息进行索引建立,为高效搜索提供支持。最后将基于Nutch的面向农产品商品信息的分布式爬虫系统,进行部署进行实验验证,发现分布式的爬虫相对于普通爬虫还是存在着并行的优势。整个系统还能够很好的对网络中农产品建立索引并集成这些信息,为用户提供农业产品商品信息的检索服务和一定的排序比较功能,实现个性化搜索服务,从而对系统可用性进行了验证。
利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统
这是一篇关于Ajax,Nutch,搜索引擎,爬虫的论文, 主要内容为随着Web2.0的快速发展,网站对于Ajax技术的应用越来越多。Ajax技术通过异步调用,进行页面局部刷新,在很大程度上提高了用户的体验度、减少了网络传输流量以及提高了网站的访问速度等。在Ajax技术使得互联网的交互模式发生变革的同时,也给用户和开发人员带来了一系列的问题。例如JavaScript代码的使用和编写不规范、浏览器的不兼容性、页面请求次数过多、Ajax技术的滥用造成的服务器负担过重等许多问题。 爬虫系统属于搜索引擎中的一个必备的数据采集子系统,搜索引擎根据爬虫系统采集的数据建立索引后,对用户提供搜索服务。Ajax技术的大量使用对于搜索引擎也有着重要的影响。传统的搜索引擎只提供了对静态页面的数据的搜索服务,对由Ajax技术产生的动态数据却不能提供搜索服务。Ajax技术的大量使用造成了由Ajax技术生成的页面动态数据的日益庞大。这部分动态数据在数据分析、数据挖掘等方面都具有重要的意义。例如新浪新闻上面的部分评论是通过Ajax技术动态生成的,这部分数据的采集对于国家安全方面是有着重要意义的。 本论文通过对Nutch进行改进,增加部分模块,建立了一个能够爬取Ajax动态数据的网络爬虫系统,并且根据数据建立了索引,对用户提供了搜索服务。
分布式电商主题搜索引擎研究
这是一篇关于电商,主题,搜索引擎,Nutch,Solr,Hadoop,MapReduce的论文, 主要内容为当前互联网信息规模正在不断的增长,互联网已经进入了大数据时代。人们在互联网如此海量的数据中查找到自己所需的信息变得越来越困难。人们越来越趋向于使用搜索引擎来搜索信息,而且多数情况下,人们的搜索目的往往趋向于某个特定的领域。当前互联网上的搜索引擎多数都是通用的搜索引擎,搜索的内容主题不明确,内容广泛,对于用户特定领域信息的搜索需求已经显得力不从心。随着互联网信息数据的迅速增长,主题化、智能化、个性化已经慢慢的成为搜索引擎发展的方向,特别是基于某种特定主题的搜索引擎是其中的研究热点。当前消费者获取电商产品信息依赖于电商门户网站,而无法通过搜索引擎来进行查询搜索,而且以电商为主题的搜索引擎为消费者提供相关商品信息的研究还比较少。本文针对通用搜索引擎搜索无法为用户提供深入商品信息的问题,设计开发基于电商主题的搜索引擎系统,方便用户快速准确地查询到相关的商品信息。本文以电商搜索为主题,结合实际应用需求,研究基于Hadoop的分布式主题搜索引擎以及其相关的技术原理。首先深入分析搜索引擎相关的技术原理,如网络爬虫,数据索引,中文分词,网页分类,搜索评分等主题搜索引擎必须的技术,为本文的研究打下结实的基础;然后深入剖析分布式计算框架MapReduce和分布式文件系统HDFS,引入基于MapReduce编程模型的设计方案。完成了在Hadoop平台上的系统架构设计,系统功能划分,网页爬虫流程、索引流程以及搜索流程的分析和设计,完成了三个子系统的实现与改进。在系统实现过程中引用Nutch作为网页爬虫的基本框架,引用Solr作为搜索框架,同时引入中文分词器(IK-Analyzer)来处理中文内容。在基于Nutch的网络爬虫中针对当前电商网络爬虫存在的问题做了分析并提出了解决方案。最后部署实现了4个节点的分布式搜索引擎系统,并以京东、天猫为例,对本系统进行搜索查询测试与评价。
以就业为导向的中职计算机教学资源平台的设计与实现
这是一篇关于中职计算机教学资源平台,JSP,Nutch,中文分词,就业资讯的论文, 主要内容为随着全球互联网技术的兴起与迅猛发展,中国网络使用者日益增多,使得基于网络环境下的教育信息化得到了前所未有的推进,同时多样化的网络信息服务为学习者提供了极大的便捷。如此繁多的网络资源并不能完全适合中职生这一特殊的人群。如何使学生既获得自己感兴趣的课程资源,又可以与就业紧密的联系在一起,成为所有职业教育相关人员都密切关注的问题。鉴于此,本系统将垂直搜索引擎与资源平台进行了融合。本系统采用B/S模式,使用JSP框架进行开发,通过Flash Paper和FMS技术实现资源的查看与在线播放,通过RandomAccessFile类提供的功能实现文件的上传,通过内置对象response调用setHeader方法实现资源下载,通过Nutch+JE分词技术获得就业资讯。在Nutch基础之上对爬虫进行最初的种子集及打开线程数设置,来满足本系统查询;通过实验对比目前比较常见的中文分词技术的分词性能,选定将JE分词器植入系统当中用以实现计算机专业就业资讯的相关匹配检索。最终实现的以就业为导向的中职计算机教学资源平台分为用户登录模块、资源服务模块、交流模块和后台数据库管理模块。经测试表明,本系统实现了不同用户进行不同操作、课件资源上传下载、提出问题、回复留言、管理资源的各种功能,具有良好的交互性及实用性。
基于Nutch的漏洞垂直搜索引擎
这是一篇关于垂直搜索引擎,漏洞,PageRank,Nutch,插件的论文, 主要内容为随着计算机及互联网技术的飞速发展,互联网已成为国家重要的信息基础设施。与此同时,互联网作为一个运行系统及社会公共环境,其所面对的和隐藏在其中的安全威胁也越来越复杂、越来越严重。安全漏洞是构成网络安全威胁的重要原因,网络入侵、大规模蠕虫传播、系统拒绝服务等问题多是由安全漏洞所引发。为了降低安全漏洞带来的风险,增加对漏洞威胁的预警能力,提高对安全漏洞进行管理及控制的能力,很多国家安全机构和网络安全组织都建立了漏洞库。但是各个漏洞库收集的漏洞并不全面,对漏洞的缺陷描述也不尽相同。 本文针对目前漏洞库信息庞大、漏洞信息不全面、漏洞描述欠缺等问题,提出可以整合各个漏洞库的漏洞垂直搜索引擎系统。为了实现漏洞垂直搜索引擎系统,本文设计了系统的整体框架流程,并围绕整体框架的各个模块分别进行了研究,如爬行模块,索引模块,检索模块、中文分词模块等。在爬行模块采用站长提交方式建立初始URL集,并采用广度优先的遍历方式访问网页信息,以提高搜索引擎的爬行效率。由于本文所设计的漏洞搜索引擎对排序结果有比较高的要求,所以采用向量模型和链接分析相结合的方法,即增加漏洞信息field和设置文档boost,使漏洞搜索引擎的排序结果达到公平合理的效果。在中文分词模块,使用的是IKCAnaylzer中文分析器,这是因为它是采用基于字典分词技术,针对中文文本实现了正反向全切分和正反向最大匹配。用户界面使用JSP技术完成动态网页生成。本搜索引擎为了方便用户使用,也提供了网页快照功能。本文实现的主要研究成果为:(1)根据PageRank算法在垂直搜索引擎中的缺陷和垂直搜索引擎专注、具体、深入的特点,结合漏洞标题和漏洞描述提供大量漏洞信息的特点,提出对搜索结果进行合理、公平排序的算法。(2)深入研究垂直搜索引擎框架及Nutch的工作流程,使用站长提交方式建立抓取系统的URL集,使用Nutch插件机制实现文本分析、索引系统和搜索系统,从而实现基于Nutch的漏洞垂直搜索引擎系统。(3)相对于Google、Baidu等通用搜索引擎而言,漏洞垂直搜索引擎虽然在检索结果数量上有些逊色,但在结果的精确度和相关性排序上,垂直搜索引擎有明显的优势,检索结果数量的减少在很大程度上也缩减了检索时间。
分布式电商主题搜索引擎研究
这是一篇关于电商,主题,搜索引擎,Nutch,Solr,Hadoop,MapReduce的论文, 主要内容为当前互联网信息规模正在不断的增长,互联网已经进入了大数据时代。人们在互联网如此海量的数据中查找到自己所需的信息变得越来越困难。人们越来越趋向于使用搜索引擎来搜索信息,而且多数情况下,人们的搜索目的往往趋向于某个特定的领域。当前互联网上的搜索引擎多数都是通用的搜索引擎,搜索的内容主题不明确,内容广泛,对于用户特定领域信息的搜索需求已经显得力不从心。随着互联网信息数据的迅速增长,主题化、智能化、个性化已经慢慢的成为搜索引擎发展的方向,特别是基于某种特定主题的搜索引擎是其中的研究热点。当前消费者获取电商产品信息依赖于电商门户网站,而无法通过搜索引擎来进行查询搜索,而且以电商为主题的搜索引擎为消费者提供相关商品信息的研究还比较少。本文针对通用搜索引擎搜索无法为用户提供深入商品信息的问题,设计开发基于电商主题的搜索引擎系统,方便用户快速准确地查询到相关的商品信息。本文以电商搜索为主题,结合实际应用需求,研究基于Hadoop的分布式主题搜索引擎以及其相关的技术原理。首先深入分析搜索引擎相关的技术原理,如网络爬虫,数据索引,中文分词,网页分类,搜索评分等主题搜索引擎必须的技术,为本文的研究打下结实的基础;然后深入剖析分布式计算框架MapReduce和分布式文件系统HDFS,引入基于MapReduce编程模型的设计方案。完成了在Hadoop平台上的系统架构设计,系统功能划分,网页爬虫流程、索引流程以及搜索流程的分析和设计,完成了三个子系统的实现与改进。在系统实现过程中引用Nutch作为网页爬虫的基本框架,引用Solr作为搜索框架,同时引入中文分词器(IK-Analyzer)来处理中文内容。在基于Nutch的网络爬虫中针对当前电商网络爬虫存在的问题做了分析并提出了解决方案。最后部署实现了4个节点的分布式搜索引擎系统,并以京东、天猫为例,对本系统进行搜索查询测试与评价。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码货栈 ,原文地址:https://m.bishedaima.com/lunwen/48415.html