推荐5篇关于主题网络爬虫的计算机专业论文

今天分享的是关于主题网络爬虫的5篇计算机毕业论文范文, 如果你的论文涉及到主题网络爬虫等主题,本文能够帮助到你 基于主题网络爬虫的汽车行业多元信息web系统设计与实现 这是一篇关于主题网络爬虫

今天分享的是关于主题网络爬虫的5篇计算机毕业论文范文, 如果你的论文涉及到主题网络爬虫等主题,本文能够帮助到你

基于主题网络爬虫的汽车行业多元信息web系统设计与实现

这是一篇关于主题网络爬虫,向量空间模型,搜索策略,汽车行业信息的论文, 主要内容为伴随着汽车行业的高速发展,行业竞争愈发激烈,本土汽车企业兼并加剧、国外大型跨国企业纷纷入驻、原材料价格不断上涨、消费者的需求不断变化、整车行业整体利润下滑,迫使着汽车企业需要更加全面的了解与市场相关的信息:汽车行业动态、行业政策法规动态、零部件价格等信息。这些信息大量存在于互联网中,然而传统、主流地信息获取工具:通用搜索引擎目前在面向专业人士在专业领域上检索相关信息时,存在着返回信息不精准、不全、更新不及时等问题;同时,主流汽车行业相关网站又以汽车产品消费者提为主要服务对象。汽车企业用户想通过互联网获取相关行业信息,并不是特别方便。针对通用搜索引擎存在的缺陷,主题网络爬虫技术应运而生,主题爬虫技术能自动的从互联网上采集与主题相关的网页,回避无关网页。因此,建立一个基于主题网络爬虫的汽车行业多元信息web系统解决汽车企业用户获取需求信息的不便,达到了解市场行情的目的,进而帮助汽车企业制定市场战略,提高企业市场竞争力是有必要的。本文的目标是建立一个汽车企业用户的汽车行业多元信息web系统,为企业用户提供汽车行业新闻资讯、行业政策法规、汽车零部件价格等信息,研究的主要内容如下:首先,在汽车行业竞争日益激烈和通用搜索引擎采集信息存在的不足的背景下,引出通过主题网络爬虫技术采集汽车行业相关信息的话题。在此基础之上讨论了汽车行业资讯、汽车产业政策法规、汽车零部件价格信息三者的现实需求。其次,在需求分析的基础上结合主题网络爬虫技术设计了系统总体解决方案。再次,对于主题网络爬虫,研究了其架构和工作原理,在架构的研究基础上,对各个模块的实现技术展开深入研究,包括在对网页的解析,对网页正文的分词技术的研究;对当前主流的主题基准模型展开研究,结合本文实际需求,选定向量空间模型为本文的主题基准模型;对当前主流关键字赋权的计算法TF和TF-IDF展开研究;对主题网络爬虫当前主流的搜索策略展开研究,在此基础上设计了本文基于网页文本和链接结构的综合搜索策略。最后,在对前文所有研究的基础上,开发实现了基于主题网络爬虫的汽车行业多元信息web系统。

基于金融知识图谱的主题网络爬虫设计与实现

这是一篇关于主题网络爬虫,金融领域,Bert-BiLSTM-CRF模型,知识图谱,关键短语的论文, 主要内容为随着互联网的快速发展,搜索引擎成为了人们获得各类信息的重要工具,如今的搜索引擎如百度和谷歌,由于其搜索覆盖面积广导致结果难以达到精确,而面向特定领域的主题搜索引擎能够帮助用户过滤大量与主题无关的信息,用户可以快速、准确地获取所需要的信息。为了帮助金融从业人士在众多网页中准确并高效地获取金融相关文本数据,本文针对金融领域,研究快速有效的网络爬虫技术。提出了一种知识图谱辅助提取网页文本中的关键短语的方法,结合一定规则的链接结构和关键短语与主题的语义相似度计算来筛选出与主题相关页面,实现高效的主题网络爬虫。主要研究内容和方法如下:(1)针对主题网络爬虫技术中的主题描述问题,提出了构建金融知识图谱来描述主题的方法。采用Bert-Bi LSTM-CRF模型对金融相关文本进行命名实体和关系进行联合抽取,对异构数据执行知识融合等步骤,解决实体属性值不一致和缺失等问题,最后运用Neo4j图数据库实现三元组数据的持久化存储,完成构建金融知识图谱Fin Graph。(2)针对主题网络爬虫技术中的爬取策略问题,提出了一种基于知识图谱的关键短语提取算法。将基于语义的AP聚类算法应用到文本中,运用知识图谱将集群中的词连接到知识图谱中的实体,通过语义网络结构挖掘词之间的潜在关系,赋予边权值量化潜在关系构建关系词图,构建了集成AP聚类和图的中心性算法来提取关键短语的框架,以此筛选出与金融主题相关页面,减少与主题无关信息的干扰,从而使主题网络爬虫返回的结果具有较高的准确率。(3)结合以上两点研究内容,研制了一个结合网页文本内容和链接结构进行主题判定的混合主题网络爬虫。本文通过Fin Graph知识图谱对网页文本进行关键短语提取,结合提取的关键短语与主题进行语义相似度计算,并同时考虑链接结构来筛选出相关性较高的页面,最后根据己爬取的网页文本进一步补充Fin Graph知识图谱。

个性化营养菜谱推荐方法的研究

这是一篇关于主题网络爬虫,多目标优化算法,协同过滤,营养菜谱,个性化推荐的论文, 主要内容为近些年来,互联网正通过以“线上到线下(Online To Offline,O2O)"为代表的经营模式,逐渐颠覆传统行业。很多传统行业开始使用互联网提供给用户更优质、更个性化的服务。比如,一个支持020模式的餐厅如果能够提供给用户营养的、个性化的菜谱,将能很好地改善用户体验,并增加餐厅的竞争力。本文提出的个性化营养菜谱推荐方法构建的系统,正是一种可以帮助用户轻松获得个性化营养菜谱的系统。网络订餐的兴起使得此系统有了很大的应用价值。 本文个性化营养菜谱推荐系统由三个部分组成:前台展示Demo,核心算法和后台数据库。其中核心算法即个性化营养菜谱推荐方法,包括数据获取算法、营养搭配算法和个性化推荐算法。本文针对系统设计以及核心算法设计展开了研究,主要工作如下: 1.提出一种基于双队列排序和模式自学习的主题网络爬虫,用于爬取某一限定主题的相关互联网信息。本爬虫基于现有的主题网络爬虫框架,使用双排序队列和URL深度属性增强搜索策略模块性能,使用布隆过滤器优化链接(Uniform Resource Locator, URL)去重模块,通过单独计算主页面和子页面的主题相关性的方式来优化数据分析模块,并新添置了模式-自学习模块。然后给出了本爬虫与通用网络爬虫和双队列主题网络爬虫的对比试验,结果证明本爬虫的harvestRate更高。 2.提出一种基于L支配和小组决胜的遗传算法,用于解决在高维空间的多目标优化问题。本算法以非劣排序遗传算法II为基本框架,使用L支配和基于拥挤距离的小组决胜来进行非劣解排序,从父代中选择优秀解进行遗传操作得到子种群,并与父种群合并再次进行非劣排序。然后给出了本算法与两种流行多目标进化算法的对比实验结果,结果证明算法在解决高维多目标优化问题上的表现要明显优于另外两种多目标进化算法。 3.最后提出一种基于相似度拓展和兴趣度缩放的协同过滤算法,用于预测新老用户的不同的个性化兴趣。本算法以基于项目的协同过滤算法为框架,通过使用厌恶相似度拓展项目的相似度,再计算出用户对项目的兴趣度,然后使用偏好因子将新老用户对不同流行度项目的不同兴趣度进行缩放。然后给出本算法的调参实验以及与常用协同过滤算法的对比实验结果,结果证明算法有效提升了推荐准确率、召回率和覆盖率,并降低了流行度。 4.最后使用上述三种算法组成了一种性化营养菜谱推荐方法,并设计了相应的系统。本文给出了系统的总体架构、前台展示Demo和后台数据存储结构,并讨论了本文提出的主题网络爬虫、多目标进化算法和个性化推荐算法的具体应用过程以及相关参数。

面向人脸检测的主题网络爬虫系统

这是一篇关于主题网络爬虫,人脸检测,系统开发的论文, 主要内容为目前,随着信息总量越来越快地增长,信息类型也越来越复杂,文字、图片、音频、视频等要素不断充斥着互联网,当今的网络正朝着要素多元化的方向不断发展。在这样一个类型和数量都极其庞大的信息库里,让人们按照自身需求快速便捷地检索到关注信息的类型和详情,已经成为现代信息检索的关键点。同时,随着社会分工的不断细化,网络用户的个性化需求也随之增加,人们在面对网络的各种要素时,也需要功能更为细致的工具对某个单一要素进行处理,从而使得网络操作更具针对性和时效性。本文介绍的面向人脸检测的主题网络爬虫系统,就是在上述背景下应运而生的。该系统首先通过主题网络爬虫对网络信息进行主题检索,尽可能地获得与主题相关的信息;再结合人脸检测技术,针对已获得的信息中的图片要素展开检测,从图片中找出人脸信息。具备以上功能的应用系统,将在面向图像内容的搜索、精确信息查找和社会“安全性”等方面拥有极强的实用意义。本文的论述主要围绕主题网络爬虫和人脸检测技术展开,具体的工作有:①从用户的角度出发,阐述了该系统的开发背景和实际意义,并介绍了主题网络爬虫与人脸检测技术的研究现状。②从主题网络爬虫的基本概念、关键算法以及相关技术出发,详细介绍了主题网络爬虫的构成。③介绍人脸检测技术的相关概念、检测方法和经典算法,从多个角度着重介绍各类已经实现的检测方法。④从功能模块和系统工作流程的角度,介绍了主题网络爬虫系统的结构和组成,并结合伪代码对实现系统的关键技术进行了说明,最后对实验结果进行了展示和分析。

面向人脸检测的主题网络爬虫系统

这是一篇关于主题网络爬虫,人脸检测,系统开发的论文, 主要内容为目前,随着信息总量越来越快地增长,信息类型也越来越复杂,文字、图片、音频、视频等要素不断充斥着互联网,当今的网络正朝着要素多元化的方向不断发展。在这样一个类型和数量都极其庞大的信息库里,让人们按照自身需求快速便捷地检索到关注信息的类型和详情,已经成为现代信息检索的关键点。同时,随着社会分工的不断细化,网络用户的个性化需求也随之增加,人们在面对网络的各种要素时,也需要功能更为细致的工具对某个单一要素进行处理,从而使得网络操作更具针对性和时效性。本文介绍的面向人脸检测的主题网络爬虫系统,就是在上述背景下应运而生的。该系统首先通过主题网络爬虫对网络信息进行主题检索,尽可能地获得与主题相关的信息;再结合人脸检测技术,针对已获得的信息中的图片要素展开检测,从图片中找出人脸信息。具备以上功能的应用系统,将在面向图像内容的搜索、精确信息查找和社会“安全性”等方面拥有极强的实用意义。本文的论述主要围绕主题网络爬虫和人脸检测技术展开,具体的工作有:①从用户的角度出发,阐述了该系统的开发背景和实际意义,并介绍了主题网络爬虫与人脸检测技术的研究现状。②从主题网络爬虫的基本概念、关键算法以及相关技术出发,详细介绍了主题网络爬虫的构成。③介绍人脸检测技术的相关概念、检测方法和经典算法,从多个角度着重介绍各类已经实现的检测方法。④从功能模块和系统工作流程的角度,介绍了主题网络爬虫系统的结构和组成,并结合伪代码对实现系统的关键技术进行了说明,最后对实验结果进行了展示和分析。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/55633.html

相关推荐

发表回复

登录后才能评论