一个分布式动态网页爬虫系统设计与实现
这是一篇关于分布式爬虫,动态网页,Puppeteer框架,消息队列的论文, 主要内容为随着大数据和人工智能时代的到来,网络上的信息量呈现爆炸式的增长,如何快速准确的从海量的信息中采集到需要的数据成为了人们的重点研究课题。一些网络爬虫工具和系统的出现,在一定程度上缓解了这一状况,但这些集中式的单机爬虫系统并不能完全满足实际生产中的数据抓取需求,而且目前互联网中存在大量采用AJAX技术的动态页面,这也给爬虫系统的设计带来了极大的挑战。针对上述两个问题,论文根据实际问题需求设计并实现了一个支持动态页面抓取的分布式爬虫系统,旨在解决传统单机网络爬虫抓取效率慢和动态网页抓取低效的问题。系统采用分布式架构的思想改进了传统单机爬虫的系统结构,将速度较慢的动态页面下载模块分离为独立的分布式服务,这种分布式的设计方式可以解决爬虫控制模块和动态页面下载模块速度不一致的问题。各爬虫节点为对等式结构,节点之间通过消息队列Rabbit MQ进行通信,这种设计方案为系统提供了良好的可扩展性和可伸缩性。系统基于Web Magic设计了爬虫页面解析器,用户的爬虫程序可以非常方便的对爬取到的页面进行数据抽取。系统采用基于Node.js的Puppeteer框架实现了动态页面下载器,此框架提供的API可以控制Chromium无界面浏览器下载采用AJAX异步加载技术的动态页面,并可以在内存中模拟用户的操作,系统使用这些API设计了一种抓取动态页面的解决方案。系统还提供对爬取页面数据的存储功能和基本的URL去重过滤功能。论文设计和实现的分布式动态页面爬虫系统在传统单机爬虫的基础上改进系统架构,并提升爬虫程序的抓取性能,为进一步的爬虫系统研究提供了依据。系统同时还具有动态页面抓取的功能,经过优化和改进后的动态页面下载模块对异步动态页面的抓取提供了良好的支持,抓取动态页面的能力有了进一步的提高。系统测试结果表明预期功能得以实现,并达到了较好的性能目标。
基于分布式的新闻爬取和推荐系统的设计与实现
这是一篇关于分布式爬虫,新闻推荐系统,LDA模型,日志系统的论文, 主要内容为基于分布式的新闻爬取和推荐系统是山东省科学院内部立项“智慧科学院”的重要组成部分之一。智慧科学院旨在利用先进的大数据处理技术,研发各类热点技术、促进各团队/院所的科研合作,提高人才筛选与综合评价等,作为科研助手、合作参谋、人才猎手,全面助力科学院的科研、服务和人才工作,促进科学院精细化管理和业务升级。随着机器学习技术的不断发展和市场竞争的加剧,国内外市场上的新闻推荐类应用也越来越成熟和稳定。但是通用的新闻阅读和推荐应用,新闻来源是由新闻应用所属的企业负责的,用户无法对新闻来源提出进一步的定制需求,只能被动接受。本文所做的系统支持用户对感兴趣的新闻页面进行个性化定制,系统后台对用户的定制需求进行处理,将用户感兴趣的新闻来源添加到爬虫的数据源中,使用户更容易、更精确的获取感兴趣的新闻信息。同时本系统也为用户提供了信息检索服务,个性化推荐服务,让用户获取信息的难度进一步降低。本文的主要工作是根据用户对特定网站的需求定义(包括地址、关键字、推送时间等),利用网络爬虫抓取信息,为山东省科学院各级领导、业务科室、科研人员以网页、邮件等方式提供精准的信息检索和推送服务。依托大数据平台技术,搭建用户行为日志收集和分析系统,对用户进行建模。使用Spark分布式计算框架对从互联网上爬取到的新闻数据进行挖掘分析。利用用户建模数据和新闻建模数据进行个性化新闻推荐。本项目综合了互联网新闻爬虫、搜索引擎、机器学习挖掘新闻数据、日志搜集和分析、推荐系统等多种技术,有一定的复杂性,所以将整个系统分成了 5个子系统。新闻爬取子系统利用Nutch分布式爬虫软件爬取互联网上的新闻数据,并二次开发Nutch源代码,精准解析新闻数据的各个字段,将数据中文分词后写入HBase数据库,创建新闻语料库。新闻检索子系统利用分布式开源搜索引擎软件Solr,基于用户的信息检索需求,开发搜索API。新闻特征学习子系统利用Spark分布式计算平台的机器学习库MLlib,对新闻语料库中的新闻数据进行预处理,建模。使用主题模型LDA训练新闻的主题分布向量作为新闻的特征表示。用户特征建模子系统利用JavaScript脚本客户端收集用户行为日志,使用HTTP协议发送到后台,使用Spark Streaming流处理技术实时处理用户日志,对用户进行建模。新闻推荐子系统利用新闻的建模结果和用户的建模结果,计算用户对待推荐新闻的偏好评分,按评分排序作为推荐结果,并使用Spring框架开发Restful API供前台调用。本文完成时已经成功开发出了本系统并在山东省计算中心试运行使用。本论文提出的方案对用户定制新闻的推荐系统具有一定的参考价值。
基于互联网医疗大数据的分析平台设计与开发
这是一篇关于分布式爬虫,医疗大数据,可视化,Http协议的论文, 主要内容为随着互联网技术的发展,互联网技术在医疗行业的应用日益广泛。然而,国内医疗行业一直都面临着医疗资源紧缺、办事效率低以及民众看病难等问题,随着人口老龄化现象的加重,医疗业迫切需要解决的问题是如何在可行性、科学性建议的指导下提高医疗领域的效能,现有医疗行业应用互联网技术也主要集中在这些问题上面。基于这些前提,论文基于医疗互联网大数据,利用可视化、数据挖掘等技术,完成了基于互联网医疗大数据的分析平台的开发与设计,实现了医院重要程度相关指标分析、地域性专家医生推荐、地域性重点医院排序等功能。论文主要内容如下:(1)在查阅大量文献的基础上,综述课题的研究背景以及国内外相关研究现状,详细介绍了基于互联网医疗大数据的分析平台的分布式爬虫的设计、Http数据传输技术、Vue2前端框架的使用、数据库设计、数据挖掘方法设计以及Echarts可视化技术的应用等内容。(2)在对互联网医疗网站的调研后,综合分析了互联网医疗数据的数据种类以及对应类型数据的特点,结合这些特点本文进行了数据库、数据格式、可视化模型的选择与定义,并最终确定了开发目标和实际功能需求,设计了系统的开发架构、环境以及技术流。(3)进行了平台功能需求分析和平台开发业务分析。根据平台功能需求分析确定了有关数据来源的获取方法和预处理方法以及整体开发流程,结合平台开发业务分析详细介绍了整体开发所需技术栈及实现方法。并且在本文对应模块中,本文从数据的选择、模型的建立、任务处理的过程以及关键问题的处理都做了详细的表述。(4)互联网医疗大数据分析平台是一个由分布式爬虫系统提供数据支持,浏览器端结合Web服务器端组成的B/S架构可视化分析平台。平台基于Scripy框架,利用分布式技术实现了数据稳定、高效地采集;基于Http协议和WebSocket动态交互开发数据传输模块,实现了数据的稳定实时传输;基于Vue2框架和Express框架以及数据挖掘技术,实现了分析平台统计分析功能模块与查询推荐功能模块的正常运行与显示。本平台实现了对互联网医疗数据的分析挖掘,开发了一个集成多接口的分析平台,具有医疗资源分布分析、医院重要程度指标分析、地域性重点医院排序、地域性专家医生推荐查询等功能。
基于NLP与分布式爬虫的故事化资讯系统
这是一篇关于新闻资讯,自然语言处理,分布式爬虫,时间线,摘要生成的论文, 主要内容为在当前这个互联网大数据时代,各种网络新闻资讯的获取也越来越容易,新闻资讯的更新速度也越来越迅速。基于新闻的时效性,很多新闻资讯都以时间序列为主要的叙事方式,因此在展示新闻内容和新闻线索的时候,时间线就成为了用户与新闻交互中很重要的一环。每当有重大新闻事件发生时,相关的跟踪报导的时间跨度很长,在同一时间下又有多家媒体会对此新闻进行报导,最后导致新闻信息重叠,造成信息获取过多和时间的浪费。因此对于用户来说,如何能快速获取到自己关注新闻的全部进展就成为了一个比较难解决的问题。所以为了解决这一问题,开发一款以时间线为线索的资讯系统就很有必要。基于NLP与分布式爬虫的故事化资讯系统可以整理出一个连续报导事件的发展脉络,并将整个新闻的动态按照时间线或者故事化的方式呈现给用户。故事化资讯系统主要分为分布式爬虫、自然语言处理算法、系统管理端和展示端四个模块。采用Scrapy-Redis分布式爬虫技术来实现新闻资讯的实时获取,通过pyltp工具和Text Rank算法来实现对新闻文本的时间提取和摘要生成,然后由基于Spring Boot框架实现的管理端将数据传递给展示端,最后将整理好的新闻资讯呈现在展示端。本文将对系统各个模块的设计工作与功能实现进行详细的介绍。该系统的使用能满足用户对新闻资讯的实时获取,在大大缩短用户搜集新闻信息时间的同时也能满足用户对新闻资讯发展动向全面了解的需求。本人主要负责该项目的前端部分工作以及NLP模块时间提取和摘要生成的设计与实现。
基于深度学习的企业推荐技术的研究与实现
这是一篇关于推荐系统,分布式爬虫,文本分类,基于内容推荐,深度学习的论文, 主要内容为推荐系统,是一种能够从海量的信息中,依据使用者的历史信息或者使用者的自身特征,向使用者提供符合其自身需求或者使用者所喜欢的信息或者物品。它能够依据使用企业的历史业务记录或者企业自身的特点,从海量的信息中筛选出使用企业可用于业务进行的有用信息,从而节省时间与人力成本,推动传统企业向信息化转型。基于这个切实的需求,本文设计并且实现一个基于深度学习的企业推荐系统,该系统由分布式数据采集系统,基于深度神经网络的企业分类算法与基于内容的企业推荐算法组成。在分布式数据收集方面,本文采用Python下的Scrapy框架,根据Redis内存数据库的特点,采用Mysql数据库作为数据的持久化存储,完成了Scrapy-Redis分布式爬虫系统。针对基于深度学习的企业分类算法,因为从网络中抓取的原始数据不包含企业的类别信息,企业的类别信息这一属性在推荐中至关重要。在这部分本文在有限的数据集下情况下,完成了三种神经网络,前馈神经网络、卷积神经网络以及Ngram神经网络。这三种神经网络在验证集上的准确率分别为86.28%、86.16%和86.16%。在实现企业分类的工作中采用了前馈神经网络。针对基于内容的企业的推荐算法,本文从企业业务实际出发,制定了企业相似度计算方法。分别指定了企业属性的描述方法,定义了三种不同字段的计算方法。即列表类字段、文本类字段以及数字类型字段。对于最重要的文本类字段的计算方法本文实现了LSI模型与Word Embedding方法,并将最后的计算结果与Baidu AI进行对比。其中LSI模型、Word Embedding模型与Baidu AI的两两皮尔森相似度为0.3979、0.1984与0.6451。最后依据企业业务选择LSI模型进行文本类字段分类。在最后在推荐企业结果上,根据最后企业的反馈,根据推荐系统进行业务与不根据进行业务相对比业务成功率提升约7.5%。
基于分布式爬虫的电影搜索系统的设计与实现
这是一篇关于分布式爬虫,电影搜素系统,MTV模型的论文, 主要内容为随着大数据的到来,数据的价值显得越来越重要。海量的数据有着巨大的研究价值和商业价值,这其中也包含电影信息数据。数据的来源以前是管理员手动输入相关的数据,现在可以通过网络爬虫代替管理员去获取网络上丰富的电影数据。但传统的爬虫不支持分布式,这往往需要花费大量的时间才能爬取足够多的数据。而分布式爬虫通过多个爬虫协同工作爬取数据可以提升成倍的效率,从而解决单个爬虫爬取效率低的问题。电影搜索系统使用分布式爬虫获取电影数据,分布式爬虫使用了Redis数据库和Scrapy爬虫框架。爬虫分为Master端和Slave端,Master端爬虫主要负责解析网页目录页,把匹配的目录页链接存入Redis以便Master后续继续爬取,同时把匹配的详情页链接存入Redis交给Slave端进行后续处理。Slave端爬虫通过查询Redis数据库中详情页链接进行详情页解析并下载数据,下载完数据后通过脚本将数据格式化后存入MySQL数据库中以便网站访问。在爬虫运行过程中,通常会遇到些问题,所以针对这些问题设计了一些中间件来解决。例如通过模仿不同的浏览器发送访问请求来防止爬虫被网站屏蔽,通过爬虫访问时返回的状态码进行不同的应对处理,通过代理IP的方式解决爬虫下载错误等问题。电影搜索系统采用Django的MTV模型进行设计,主要包含电影搜索,电影评价,电影收藏,用户注册与登录,后台管理等功能。用户登录后可以关键字进行电影查询,也可以点击链接进行电影类别,电影年份,电影制作地区等多种类查询,能满足大部分用户的查询需求。最后对电影搜索系统进行了功能测试和性能测试,验证了网站的绝大部分功能都能正常工作。电影搜索系统不仅节省了管理员导入电影资源所需的时间,还给用户提供了一个搜寻电影信息,并与他人讨论电影的场所。
基于运营商管道大数据的智能电商推荐系统
这是一篇关于深度包检测,电商行为分析,大数据,分布式爬虫,标签提取,K-means,推荐算法,梯度提升,协同过滤的论文, 主要内容为随着现代互联网技术的飞速发展和不断完善,以及家庭固定宽带越来越高的稳定性和越来越快的网络速度,越来越多的用户通过各种电子终端(电脑、平板、电视盒子,尤其是移动手机)接入家庭固定宽带来获得各种丰富的互联网内容。基于互联网技术、信息网络技术等基础之上的电子商务展现出了巨大的发展潜力,尤其是网络购物受到了极大用户的青睐。而当下正是大数据飞速发展的时候,通过收集累积家庭固定宽带下用户的电子商务平台上的网络购物数据和行为,对未来电子商务平台企业的用户挖掘、广告投放、商品推荐等方面提供巨大的数据支持,也为未来大数据发展提供了长远的开发和利用价值。运营商在拥有相较于其他电子商务平台更完整的用户网络购物流量的独特优势的基础之上,对家庭宽带用户进行网络购物更精准的个性化推荐,不但为运营商提供流量变现的可靠方式,更为家庭宽带用户提供高质量的大数据服务,在电子商务领域中是具有十分深远的意义与价值。据此,本文提出了一种基于运营商管道大数据的智能电商推荐系统。由于大多数电商网站不是全网加密,本文推荐系统采用DPI技术对非加密数据包进行数据采集,感知用户身份信息和用户行为,即可描绘家庭画像。同时,推荐系统通过预先建立的统一标签融合信息库对用户行为进行标签提取。最终,推荐系统通过混合推荐算法针对用户提取的标签进行用户兴趣的预测。针对此推荐系统,本文的主要创新如下:1、利用特征关键字自动提取技术挖掘HTTP数据包内容的关键字集合,通过大数据平台进行清洗去噪以提升关键字集合的准确度,取代传统的人工肉眼挖掘关键字的方式。2、基于改进的TF-IDF算法计算词条相关度,利用词条相关度所组成的特征向量进行K-means聚类,依据向量间余弦相似度融合各电商近义标签形成统一标签库。3、根据用户的以往兴趣商品以及提取的得到商品分类,利用加权融合基于改进SVD的协同过滤算法和引入用户兴趣热度因子、日期热门度因子的改进梯度提升预测算法为用户产生推荐。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://m.bishedaima.com/lunwen/45470.html