5篇关于爬虫的计算机毕业论文

今天分享的是关于爬虫的5篇计算机毕业论文范文, 如果你的论文涉及到爬虫等主题,本文能够帮助到你

基于Spark的电商大数据分析系统研究与设计

这是一篇关于大数据,CDH,数据仓库,爬虫,电子商务的论文, 主要内容为近年来大数据已成为了互联网行业最热门的研究课题,电子商务平台在日常运作中,需要通过大数据分析帮助做全局性和系统性的决策。由于缺乏足够的业务数据以及专业的数据分析能力,中小型电商在运营策略定制以及调整上有明显的滞后性,使得中小型电商标准化以及智能化的发展受到了严重限制。在这样的背景下,本文研究了为中小电商平台提供丰富数据爬取、大数据主题分析、策略定制指导以及用户管理的一站式通用大数据系统。首先,本文以中小型电商的数据需求为出发点,实现了爬虫技术的应用创新,集成多种爬虫技术手段弥补中小电商数据缺陷以及进行前期数据预处理,构建爬虫工具实现了规则模板多任务并行、循环爬取以及定时爬取。创新地使用了第三方IP池突破单节点采集上限,使用XPath以及正则表达式过滤杂质信息,为数据分析源源不断地提供稳定可靠的基础数据。其次,本文对大数据集群框架进行了改进并且基于改进型框架搭建了完整的计算集群,改善了旧架构无法承担高强度数据分析任务的缺陷以及实现了业务解耦。使用新型的数据仓库分层理论并且进行了适应性修改,基于此对商品系列主题进行了数据分析,深入挖掘了商品数据的潜在价值。最后,本文基于Spring框架搭建了完整的可视化Web服务系统,依据业务需求对商品系列主题进行分析,并使用Echarts商业级数据图表,包括区域地图、堆叠折线图以及柱状图等丰富的形式对分析结果进行展示,创新地使用数据中台思想,将可视化Web端独立部署于云服务器中,完成与计算集群节点的故障隔离,极大提高了系统的可扩展性和稳定性。通过对系统集群各模块进行了全面的功能以及非功能性测试,验证了数据框架改进设计以及流程优化方案的先进性,能够满足中小型电商不断新增的生产数据需求以及策略指导需求,具有很高的应用价值。

基于深度网络的信息爬取研究及应用

这是一篇关于深度网络,关键词查询,爬虫的论文, 主要内容为随着信息技术的发展,深度网络蕴含的数据越来越多,如何有效地获取深度网络中的数据已经成为当前的研究热点。深度网络往往只提供一个查询接口供用户使用,用户需要提交查询关键词从深度网络中获取数据。目前,存在较多关键词查询算法,典型的有Google使用的TF-IDF算法和Ntoulas等人提出的自适应贪婪算法。TF-IDF算法只关注深度网络中的重要文档,不关注单个深度网络的文档覆盖率,适用于大型爬虫。自适应贪婪算法利用贪心的思想获取最大的单个深度网络文档覆盖率,效果较好,适合于中小型爬虫。本文主要工作如下:根据实际项目的需要,本文重点研究了自适应贪婪算法。在此基础上,本文提出了基于关键词相关度筛选的自适应贪婪算法。在某些专业领域中,关键词高度关联,本文提出利用关键词相关度来衡量不同关键词间的关联度,根据关键词的相关度筛选关键词,避免提交高度关联的关键词造成返回结果集的较大冗余。当网站限制返回查询结果数量时,返回结果集是原结果集的子集。受TF-IDF思想启发,本文提出一种关键词加权选词法,认为包含关键词少的文档和包含高词频关键词的文档带来的冗余更小,比其他的文档更重要。出现频率高和关联关键词少的关键词会被优先选取,同时为了避免提交查询次数过多,利用关键词词频阈值判断来避免匹配文档过低的关键词。本文实现的深度网络爬虫系统,利用改进的算法来获取深度网络的数据。在爬虫系统中主要实现了URL管理模块、文档下载模块、信息抽取模块、文本缓存模块、查询请求生成模块等。有效地解决了大量URL管理、文档信息抽取,深度网络关键词有效选取等问题。爬虫连续运行较长时间,成功获取上百万文档,达到中小爬虫的性能。通过对不同类型的数据,包括新浪、搜狐、腾讯、网易的新闻数据和万方的论文摘要数据进行仿真实验,并将效果和原算法进行对比,说明在专业领域,基于关键词筛选的自适应贪婪选算法在文档覆盖率等同的条件下单位资源消耗量少于原算法;在返回结果受限制的深度网络中,关键词加权选词法在文档覆盖率、单位文档资源消耗量都优于原算法。

面向旅游业的垂直搜索引擎的设计与实现

这是一篇关于旅游业,垂直搜索引擎,爬虫,检索,J2EE的论文, 主要内容为伴随着国民生活水平的提高,旅游日趋成为消费者休闲的重要方式之一。在出游前,选择旅游景区,规划最有旅游计划成为困扰人们的难题。伴随着互联网技术的发展,人们出行前往往喜欢通过Internet搜索旅游相关信息,然而传统搜索引擎面对特定领域的搜索任务,往往返回数以万计的搜索结果,其中包含大量领域无关页面。在此背景下,本文研究面向旅游业的垂直搜索引擎,垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎模式,其特点就是“专、精、深”,且具有行业色彩。显然,面向旅游业的垂直搜索引擎能够向外出旅行的人提供更加专著、精确和有深度的信息。本文的主要工作包括以下几个方面。首先调研旅游业的信息需求和业务需求。信息需求分析是搜集游客关心的信息类型,例如景区信息、交通、住宿、当地风俗等等,信息需求定义了垂直搜索引擎的信息集成边界,是进行页面过滤的基础。业务需求分析主要是调研垂直搜索引擎向用户提供信息的业务流程,是进行功能设计的基础。其次,在需求分析的基础上,进行面向旅游业的垂直搜索引擎的整体性设计。垂直搜索引擎是一项内部逻辑结构复杂的系统,其包括分工明确的前台和后台,前台主要有向用户提供信息查询的API构成,后台主要负责页面的信息集成,包括爬虫、网页过滤、主题词库、网页存储、索引等众多功能模块,前后台并行运作,为游客提供信息支持。第三,在整体设计的基础上着重介绍了垂直搜索引擎三大核心功能模块的设计和实现,包括:页面过滤、爬虫和检索。本文基于广度优先的爬虫策略进行页面的全信息解析和保存,包括文字、图片、影音等;在主题词库的基础上设计了基于朴素贝叶斯分类器的页面过滤方法;在基于Lucene全文检索的基础上,设计了基于页面元数据检索功能,提供更加全面的信息查询功能。最后,在J2EE环境下进行系统的模型的开发和测试。

出境游购物系统的后台数据服务的设计与实现

这是一篇关于后台数据服务,API网关,爬虫,消息推送的论文, 主要内容为随着国民经济的发展和人均可支配收入的提高,旅游消费在人民生活中的重要性不断增长,尤其是出境游消费呈现出爆发式增长,同时出境游期间发生的购物消费也在不断增加。由于出境游购物消费存在环境陌生、语言障碍等特殊性,信息不对称问题较平常的购物消费更为突出,因此对出境游购物信息服务的需求也越来越迫切。另一方面,移动端设备的普及,为出境游购物的信息服务提供了良好的硬件基础。在这一背景之下,出境游购物系统这一应用既具有现实意义,也具备技术环境支持。对于这一具体应用来说,最需要解决的问题是如何提供准确可靠的购物信息,而整个应用中最核心的部分则是后台的数据服务。本文即是从后台数据服务的设计与实现着手,通过数据有效抓取与基于移动客户端的准确推送,从而解决出境游购物信息服务的现实需求。本文研究的主要目标是通过信息的挖掘、收集、匹配和推送,解决出境游用户购物需求的有效信息获取问题,并通过消息推送及无线API网关将数据提供给手机客户端。本文首先从后台数据服务的研究背景和意义着手,剖析具体需求,然后围绕具体设计与实现,分爬虫服务设计、推送服务设计与无线API网关设计三部分进行了详细地论述,最后对系统进行测试并对各模块的整合运行进行了阐述,并在此基础上进行了全文研究的总结。围绕数据的挖掘、收集、匹配和推送这一条数据流的闭环,本文提出了一整套合理的解决方案,主要研究成果可以概括为以下几方面:1.利用爬虫技术实现了线下数据的自动收集整理。本研究使用基于Python语言的爬虫对这些公开信息进行抓取收集,提取分类信息和关键字,设计匹配的数据结构,将结构化的数据保存到系统中。并且针对网站的反爬虫设计了专门的应对策略。2.基于地理位置的推送消息模块的设计,实现了高并发、高可靠的消息推送功能。使用的是系统内置的定位技术,并将推送消息的生成和发送解耦,通过一个内部SOA接口暴露给推荐系统方调用的方式来实现给推荐系统推送消息,并且使用异步处理的模型,以避免同步高并发处理所带来的一系列难题及硬件要求。文中区分安卓和iOS两个系统讨论了推送,按照不同的系统环境,设计和实现了不同的推送策略。3.使用无线API网关解决开发移动App时面临的诸多痛点,例如与后台服务高耦合、无法快速迭代升级以及缺乏统一的安全保护等。最大的创新之处在于通过热部署这一功能设计解决了稳定性和可迭代性的两难问题。使用脚本形式,在保证核心功能平稳运行的同时,实现了扩展功能,保证程序的非停机发布,在程序稳定运行的基础上实现了可迭代性。并且为特殊情况发生的场景,重点设计了异常处理的方法以及服务降级、熔断保护的方案。4.本文最后对系统进行了测试。系统通过测试运行,对系统的高并发性、可维护性都进行了反复验证。测试通过后,实现了爬虫服务、API网关服务和推送服务三个服务的部署,并从服务端和客户端两个方向,彼此印证了系统的运行。在平台的实现中,本文采用了Python语言实现了爬虫设计部分,其他部分脚本使用Java和Go语言实现,选择了最适应于场景的技术语言。本文的创新主要体现在:通过综合使用多种关键技术实现了后台数据服务对信息的挖掘、收集、匹配和推送,具体体现在使用结合GPS和WiFi进行地理位置信息的快速定位及消息推送,使用爬虫进行基础数据的自动化收集整理,以及使用一个高性能高可用的移动网关作为数据服务的对外接口。本文的不足之处在于:本文仅对后台数据服务提出了基础解决方案,在实际线上应用环境下,还会有各种各样新的问题出现,例如爬虫数据的时效性、更新策略、推送消息的准确性等。这些问题可以在服务上线之后进行不断地优化。

共享图书平台系统的研究与实现

这是一篇关于共享图书,SSM,文本分类,OCR,爬虫的论文, 主要内容为随着供给侧改革和“互联网+”行动计划的推进,共享经济在我国迅速发展。目前,共享平台应用程序已涉及到人们生活中的各个方面。阅读是人们日常生活中不可缺少的活动之一,书籍作为阅读的媒介具有被共享的客观条件和主观需求。但市面上现有的共享图书平台无法同时满足用户对于数字化阅读和实体书阅读的需求。针对上述问题,本文研究并实现了一个共享图书平台系统,旨在为图书拥有者提供闲置书籍再利用渠道的同时,满足图书需求者对于纸质书籍和电子书籍的阅读需求。本文主要工作内容及创新点如下:第一,本文对市面上的共享图书平台系统进行了调研,在分析和总结其中不足的基础之上,结合目前我国国民阅读习惯对共享图书平台系统进行了需求分析与设计。第二,对共享图书平台系统中的关键技术进行研究。结合共享图书平台中电子书文本内容的特点,以朴素贝叶斯对数计数比为基础,提出并实现了一种适用于高维度、低密度文本的低质量文本检测模型。实验证明,该模型相比于传统基于TF-IDF进行特征加权的文本分类模型,在查准率、查全率和F1值上都具有优势,优化了共享图书平台的阅读环境。通过对图像处理技术的调研,基于Tesseract-OCR提出了一种通过图书扉页图片提取图书在版编目数据的方法。第三,通过实际调研总结现有共享图书平台中存在的问题和不足。基于Spring Boot和SSM(Spring+SpringMVC+MyBatis)框架搭建了共享图书平台移动共享端和后台管理端。基于Redis内存数据库从缓存角度进行了架构优化研究。基于Scrapy框架实现了书籍信息爬虫程序。通过对各大网站中反爬虫机制的调研,采取应对策略以提高爬虫程序的稳定性。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕设港湾，原文地址：https://m.bishedaima.com/lunwen/45390.html