5个研究背景和意义示例,教你写计算机Scrapy爬虫论文

今天分享的是关于Scrapy爬虫的5篇计算机毕业论文范文, 如果你的论文涉及到Scrapy爬虫等主题,本文能够帮助到你

基于大数据的人才画像研究与应用

这是一篇关于大数据,人才画像,Scrapy爬虫,TF-IDF算法,K-means算法的论文, 主要内容为在当今信息化基础建设相对成熟的新时代,政企事业单位的管理不断精细化和精确化,加之其规模不断扩大、任用制度不断改进,人才的信息数据呈现出指数级增长的趋势。人才建设已经成为关系到企业、社会和国家各方面稳步发展的关键因素。基于海量人才数据,政企事业单位如何借助数据挖掘模型和大数据技术等手段,有效且全面掌握人才的潜在价值,更好地分析现有人才并挖掘新型人才,最终找到与其发展相适应的组织、制度、流程和支撑,显得至关重要。在新时代背景下,能够刻画人才特征的人才画像将是人事管理过程中的必然产物,也是政企事业单位对人才不断开发、培养并增值的必经之路,更是其稳步发展的基本前提。政企事业单位拥有自身的人才画像体系已然迫在眉睫。本文的核心目标是设计并实现一款帮助企业深入挖掘人才专业领域特征的人才画像Web系统。基于该目标,本文主要工作包括:借助互联网社交软件和网络购物平台构建用户画像的背景,调研了用户画像的构建方法和相关技术,并针对江西省政企事业单位职能部门人才建设的实际需求进行调研,结合JX省人事人才一体化平台项目特点,提出人才画像概念,设计并实现了基于大数据的人才画像系统。本文以JX省人事人才一体化平台为数据源,利用Scrapy框架对中国知网进行网络爬虫,补充专业领域数据;人才画像需要大数据技术支撑,利用Hadoop生态圈各组件对一体化平台的相关业务数据进行存储和处理;通过IKAnalyzer分词技术和TF-IDF标签权重算法进行特征选择;结合K-means算法,对人才画像进行聚类分析。本文构建的人才画像系统采用B/S架构,通过Jfinal+Vue.js框架实现前后端分离,促进逻辑设计、业务开发和维护过程的便捷和解耦。前端使用Highcharts插件对人才画像采用可视化图形和词云进行展示。最终实现一套完整的人才画像系统。

基于GDBN和XGBOOST的门户网站评论情感分类研究

这是一篇关于深度置信网络,代价敏感学习,情感分析,Scrapy爬虫,XGBoost的论文, 主要内容为在Web2.0技术广泛普及的时代,互联网信息技术不断发展与成熟,各大社交与电子商务平台快速兴起,网民不但能从互联网上摄取信息,而且还拥有了分享自己想法、观点的话语权等。由于我国网民规模和互联网普及率的不断扩大,门户网站已经成为了主要的信息发布渠道,越来越多的网络用户在门户网站上表达自己的情感、分享自己的观点,这使得门户网站上的评论信息日益增长,产生海量无规律的评论文本数据,且这些数据不断地实时更新。如何在短时间内提取到实时更新的海量无规律的评论文本数据背后蕴藏的巨大商业价值和舆论价值信息并通过建立模型进行情感倾向分类已经成为了自然语言处理领域中的一个重点研究内容。本课题出于精确高效考虑,提出了一种基于遗传深度置信网络(Genetic Deep Belief Networks,GDBN)和XGBoost(eXtreme Gradient Boosting)的门户网站评论情感分类模型。该模型利用GDBN提取从门户网站上爬取的中文评论文本数据的深层次特征,然后通过基于代价敏感学习(Cost Sensitive Learning,CSL)的XGBoost算法进行情感倾向分类。本文的评论情感分类模型主要包含特征提取和模型分类两个部分。第一部分,通过遗传算法(Genetic Algorithm,GA)解决传统深度置信网络(Deep Belief Networks,DBN)中的隐层神经元数目难以选择的问题,提高了分类模型的灵活性、提取评论文本深层次特征时的准确性和模型的运行速率;第二部分,结合CSL和XGBoost算法的优点提出基于代价敏感学习XGBoost算法,然后利用该算法对GDBN提取到的评论文本深层次特征进行情感倾向分类。最后,本文将中科院谭松波教授收集的携程酒店用户评论语料和基于Scrapy框架的爬虫爬取的京东电商平台上的手机部分评论作为模型的实验数据集,并在实验数据集上对本文提出的评论情感分类模型进行了测试,测试结果表明:本文所提模型在文本情感分类方面具有更高的拟合和泛化能力,能够准确、高效、快速的完成门户网站上评论情感的分类。

针对微博舆情的采集与分析系统的设计与实现

这是一篇关于微博舆情,Scrapy爬虫,ZeroMq,情感强度的论文, 主要内容为随着互联网的飞速发展,微博成为了国内分享网络信息的主要途径,微博给人们的生活带来了方便。但由于缺乏对信息的有效监控和管理,为社会带来了虚假信息和造谣信息,破坏了良好的网络舆论,可能危害公众的生活。因此,我们需要一个针对微博舆情的采集与分析系统,来对微博的舆论进行实时有效的监控,能够及时发现热点舆情和计算该主题的情感强度,并可对负面消息进行适当的引导舆论。本文对微博舆情系统的采集技术和舆情分析技术进行研究和分析,并对该系统进行了设计与实现,主要工作有:(1)在Scrapy爬虫的基础上,本文基于ZeroMq设计了一个高效的分布式爬虫系统。该系统结合了微博的特点,提出了使用位图法和Hash索引相结合的方法解决海量的URL冲突问题;同时针对微博对网络爬虫的反爬虫限制,利用了代理节点采集和定时采集相结合的策略来提高爬取数据的效率;为提高数据量,还结合了微博提供的开放平台服务接口来爬取微博数据,扩大数据量。(2)本文提出了优化主题微博情感强度计算的方法。该方法构建了情感词典,然后对主题的评论进行预处理;同时基于主题微博的评论的情感来计算其情感强度;最后提出了使用微博的认证类型来优化情感强度的方法。实验结果表明该方法能使主题微博情感强度的准确度提高0.05～0.1。(3)本文实现了微博舆情分析系统并进行了界面展示,通过对微博数据进行了微博发布行为的时间分布、微博转发延迟的时间分布以及微博舆情热点等实验分析。实验结果表明该系统结合代理采集系统可以实时的监控微博舆情并使用优化主题微博情感强度计算的方法能有效的分析出热点舆情的情感倾向。

分布式信息抽取系统在物流领域中的应用

这是一篇关于WEB信息抽取,分布式信息抽取系统,Scrapy爬虫,标签路径类选择器的论文, 主要内容为随着国内物流行业的蓬勃发展,在线物流平台的营运方式成为主流,每天都会有海量的货运信息和承运信息发布到各个承运平台上,而对互联网上的数据进行抓取和分析,也成为比较常见的商业行为。在实习企业惠龙易通的集配平台内,利用人工构建包装器的方式对物流站点进行数据抓取,但由于手工构建包装器繁琐且难以维护,因此,在现有系统的基础上,降低人工投入、提高包装器构建的自动化程度是课题研究的主要问题。论文针对企业现有系统的缺点和问题,通过对爬虫技术、WEB信息抽取技术以及分布式技术的研究,结合物流承运平台页面结构复杂、重复的特点,设计并实现了一个包装器规则自动化构建、根据规则自动采集数据,对采集的数据去重、存储的分布式信息抽取系统,并在采集的数据的基础上搭建了一个基于近义词语义转换的检索服务。论文的主要工作如下:(1)物流信息抽取规则的自动化构建:针对物流平台页面列表多且结构复杂的特点,对“标签路径”算法进行了改进,通过优化“标签路径比”的计算方式,提高正文节点和噪音节点的区分度,从而提高了标签提取的准确度;针对物流术语表达不规范的问题,将TD-IDF算法提取的特征值转化为国家颁布的物流标准术语,减少特征值歧义,从而提高VSM算法对页面主题相似度计算的准确度;针对标签路径无法直接提取页面数据的问题,将CSS选择器和正文列表的标签路径进行结合,设计并使用“标签路径类选择器”的方式生成了抽取规则,使标签路径可以准确地表示每一个元素。(2)分布式物流信息抽取系统设计:搭建了基于Scrapy-redis的分布式爬虫系统。应用抽取规则对某一个站点进行抓取时,为了使爬虫停留在当前站点内进行爬行,对框架内“爬行策略”组件进行了重写,设计“异源过滤”的策略过滤异源URL地址;为了减少“待爬取队列”管理对内存的开销,利用“布隆过滤器”对待爬URL队列进行过滤;为了降低细微表述差异对去重的影响,使用局部敏感哈希算法“SimHash”对物流信息进行去重,并将该算法的特征值提取过程和TD-IDF算法进行合并,并增加语义特征。通过对相关模块的重构,提高了原爬虫框架的工作效率。(3)分布式抽取系统的实现及性能测试:使用Python对包装器生成和爬虫系统进行开发,使用Node.js开发可视化网站界面。对中国物通网进行实际爬取分析,并对抓取过程在分布式环境及单机环境中进行测试比较。测试结果表明,优化后分布式系统整体运行效率比之前提高了11%;修改后的待爬队列去重误判率仅有0.047%。整个系统的运行效率可以达到预期目标和效果。最后根据测试结果,对系统中存在的不足提出了下一步的优化方向。