用于个性推荐系统的文本爬虫设计与实现
这是一篇关于网络爬虫,搜索策略,正文提取,编码转换的论文, 主要内容为近年来互联网技术发展迅猛,从互联网上获取信息已经成为人们查找有用信息的重要方式。信息种类繁多、传播迅速、含量庞大是互联网的特点。如何针对这些特点及时准确的抓取有关信息,为教育云中个性推荐系统建设学科资源库服务,成为个性推荐系统学科资源库建立过程中需要解决重要问题。针对这一问题,本文结合互联网的特点,运用信息抽取和网页处理技术,设计和实现了个性推荐系统中的网络爬虫部分,以提供分类更细致精确、数据更全面深入、更新更及时的信息抓取服务。 具体工作如下: 1.本文介绍了网络爬虫的发展现状,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征。 2.搜索策略。本文利用URL (Uniform Resource Locator)字符串特征、锚文本、父页面以及兄弟URL等影响因素,计算并预测‘URL的主题相关度。对URL依据预测的主题相关度大小依次爬行,尽可能下载与主题相关度高的网页。 3.网页解析过程。包括编码转换、HTML (Hyper Text Markup Language)解析、URL提取、网页消噪和正文提取。本文通过读取HTML文件的头部信息中meta标签http-equiv属性中获得网页的编码方式,从互联网下载数据时指定编码方式读取,然后采用链接分析和统计相结合的方法提取网页正文,进一步有效的剔除噪声,提高网页正文提取的完整性,对于大部分内容型的网页都能正确的提取出正文部分。 4.最后,本文在以上设计的基础上实现了一个网络爬虫系统,并分析了爬虫的运行结果。 本文给出的网络爬虫可用于教育云的个性化推荐系统中,通过学科领域文章的获得、存储、分析和推荐,为用户快速推荐感兴趣的文献和相关资料,从而提高了研究效率。
基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发
这是一篇关于主题爬虫,正文提取,相似度计算,热点话题提取,single-pass聚类,舆情分析的论文, 主要内容为近年来“食品安全”问题屡见不鲜,严重影响到人们的日常生活,为了能够及时的从网络新闻中发现可能会爆发的热点话题,尤其是具有负面影响的食品安全事件,帮助政府相关部门及时了解事件的发展动向和社会舆论,本文对其进行了方法研究和实现。本文的主要研究内容可以分为三个部分:主题爬虫的改进和实现、舆情分析及话题提取、食品安全舆情分析系统的开发。对于主题爬虫部分,在主题爬虫技术的基本原理和关键技术的基础上,提出了一种改进的主题爬虫方法:将传统的网页正文获取技术进行了改进,得到一种基于HTML代码解析和文字密度相结合的正文抽取方法,可以一定程度提高正文抽取的准确率;将文本相似度计算中的向量空间模型方法进行了改进,得到一种降维VSM的多参考因素的相似度计算方法,并结合网页内容与主题内容进行相似度的计算;与此同时,优化了爬虫的初始种子模块和动态阈值调整模块;对大规模URL的排序、去重和多线程也进行了相应的改进。经过对各个模块的优化,实现了-个面向特定主题的爬虫系统,通过实验对比,证明改进后的主题爬虫在效率和精确度方面都得到了较大的提高。在舆情分析及话题提取部分,通过比较几种常用聚类算法的优缺点,最终选择使用single-pass聚类算法;并对single-pass聚类算法进行了改进,将聚类过程中的簇中心向量确定方法进行了修正,得到一种基于时间参考因素的多层single-pass聚类算法;对传统的话题提取过程进行了改进,得到一种基于向量空间模型的改进single-pass聚类方法的话题提取技术。最后通过实验对比验证改进后的聚类算法以及话题提取方法的效率以及准确度都得到了一定的提高。本文最后实现了一个食品安全舆情分析系统,通过主题爬虫将互联网上的相关数据下载下来,经过相应的数据整理,使用single-pas s聚类算法进行热点话题提取,可以及时发现近期发生的食品安全热点事件。
基于Web的异构学术信息抽取与聚合方法研究
这是一篇关于异构学术信息,Web信息抽取,隐马尔可夫模型,文本分类,正文提取的论文, 主要内容为互联网时代,海量网页信息层出不穷,科技学术领域更是如此。每年有大量的学术期刊论文发表,也有很多学术人物信息在互联网上公开。如果想了解某个学术期刊或学术人物,并不能轻松获得,需要在互联网上点击一系列超链接才有可能找到。对于科研人员而言,能否快速获得学术信息非常必要。在此背景下,本文研究了基于Web的异构学术信息抽取与聚合方法,提出自动化的算法框架以帮助研究人员从互联网大量的异构网页中迅速挖掘所需信息。本文的主要工作如下:1.针对基于web的学术期刊信息抽取与聚合问题,本文提出了C-HMM算法框架。该框架中的正文提取算法(Content Extraction)可提取网页中的主要信息,实现了降噪的效果;隐马尔可夫模型(HMM)可同时对多个网站进行抽取,相较于现有的启发式算法提升了模型的泛化能力。C-HMM算法框架分为三个步骤:首先,通过爬虫爬取期刊主页;然后,对主页信息进行预处理和正文提取;最后,利用HMM对期刊信息进行抽取与聚合。2.针对基于web的学术人物信息抽取与聚合问题,本文提出了F-HMM算法框架。该框架中的fastText算法可对网页信息块进行预标注,此算法解决了关键字词典无法对人物多种信息块预标注的问题;隐马尔可夫模型(HMM)刻画了信息块的时序信息,提升了模型效果。F-HMM算法框架与C-HMM框架有以下三点不同:(1)采用SVM对学术人物主页进行选择,取代期刊主页选择时采用的关键词匹配策略;(2)由于学术人物主页结构复杂,正文提取算法可能会过滤有用信息,因此舍弃;(3)采用fastText算法取代了原有的关键词匹配方法,对信息块进行预标注。3.上述两个工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要组成部分。作者将上述工作以及论文、新闻和征稿信息的自动化爬虫系统加入到《学术头条》APP的开发中,方便了研究人员快速获取学术信息。目前APP拥有7000多名用户、400多万篇论文、6000多种期刊以及670多万个学术人物,实际测试结果表明,本文工作取得了良好的效果。
舆情挖掘系统的设计与实现
这是一篇关于网络舆情,小型用户,正文提取,论坛分割的论文, 主要内容为随着网络的逐渐普及,网民数量不断增加,互联网成为了人们表达情感和获取信息的重要途径。互联网舆情也成为了社会舆情中重要的一部分,影响着社会事件的走向。近些年的网络舆情事件也使得政府机关部门、企业公司、高校甚至个人开始意识到掌握网络舆情信息的重要性。因此,舆情挖掘系统具有重要的意义。 小型用户如中小型企业、高校、个人对于舆情挖掘系统有着较大需求,而市面上却没有特地服务于小型用户的舆情挖掘系统。因此,本文舆情挖掘系统立足服务于小型用户,分析了小型用户对网络带宽、硬件设备、舆情反应速度的要求,以及在这样的要求下舆情挖掘系统的技术难点。在此基础上设计了更加适合小型用户的信息采集系统、信息处理系统、信息分析系统,并加以实现投入实际应用。 本文对于舆情挖掘系统的设计实现过程分为3部分: 第一部分介绍了设计实现舆情挖掘系统各子系统的相关技术,其中包括信息采集系统相关的爬虫技术与链接排重技术,信息处理系统相关的正文提取技术,信息分析系统相关的中文分词技术,并比较分析了这些相关技术不同实现的优缺点,为后续的设计奠定了理论基础。 第二部分根据小型用户的特点,权衡考虑网络带宽、硬件性能、舆情反应速度,设计出舆情挖掘系统的整体架构,再针对各个子系统进行设计。在信息采集系统中,本文设计了爬虫系统的各个细节。首先精选出采集目标,其次在网页采集时使用了动态更新采集频率的技术,最后设计了链接排重的方法。在信息处理系统中,本文提出了论坛首页分割的方法用于提取论坛首页的新文章链接,提出了基于模式的论坛正文提取方法用于提取论坛网页的正文,最后设计了发帖时间的提取方法。在信息分析系统中,合理分配系统时间,选择了准确高效的分词方法,为计算相关性、提取摘要提供了便利。 第三部分首先介绍了在开发实现过程中对于开发环境和开源工具的选择,并阐述了本文舆情挖掘系统的功能实现,展示了实现成果。之后展示了本文舆情系统的性能,证明了其满足小型用户的需求。 本文舆情挖掘系统对于一些技术的设计解决具有独创性,并满足了小型用户的需求,具有实际的应用意义。
舆情挖掘系统的设计与实现
这是一篇关于网络舆情,小型用户,正文提取,论坛分割的论文, 主要内容为随着网络的逐渐普及,网民数量不断增加,互联网成为了人们表达情感和获取信息的重要途径。互联网舆情也成为了社会舆情中重要的一部分,影响着社会事件的走向。近些年的网络舆情事件也使得政府机关部门、企业公司、高校甚至个人开始意识到掌握网络舆情信息的重要性。因此,舆情挖掘系统具有重要的意义。 小型用户如中小型企业、高校、个人对于舆情挖掘系统有着较大需求,而市面上却没有特地服务于小型用户的舆情挖掘系统。因此,本文舆情挖掘系统立足服务于小型用户,分析了小型用户对网络带宽、硬件设备、舆情反应速度的要求,以及在这样的要求下舆情挖掘系统的技术难点。在此基础上设计了更加适合小型用户的信息采集系统、信息处理系统、信息分析系统,并加以实现投入实际应用。 本文对于舆情挖掘系统的设计实现过程分为3部分: 第一部分介绍了设计实现舆情挖掘系统各子系统的相关技术,其中包括信息采集系统相关的爬虫技术与链接排重技术,信息处理系统相关的正文提取技术,信息分析系统相关的中文分词技术,并比较分析了这些相关技术不同实现的优缺点,为后续的设计奠定了理论基础。 第二部分根据小型用户的特点,权衡考虑网络带宽、硬件性能、舆情反应速度,设计出舆情挖掘系统的整体架构,再针对各个子系统进行设计。在信息采集系统中,本文设计了爬虫系统的各个细节。首先精选出采集目标,其次在网页采集时使用了动态更新采集频率的技术,最后设计了链接排重的方法。在信息处理系统中,本文提出了论坛首页分割的方法用于提取论坛首页的新文章链接,提出了基于模式的论坛正文提取方法用于提取论坛网页的正文,最后设计了发帖时间的提取方法。在信息分析系统中,合理分配系统时间,选择了准确高效的分词方法,为计算相关性、提取摘要提供了便利。 第三部分首先介绍了在开发实现过程中对于开发环境和开源工具的选择,并阐述了本文舆情挖掘系统的功能实现,展示了实现成果。之后展示了本文舆情系统的性能,证明了其满足小型用户的需求。 本文舆情挖掘系统对于一些技术的设计解决具有独创性,并满足了小型用户的需求,具有实际的应用意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://m.bishedaima.com/lunwen/50170.html