基于大数据的微博转发预测及热点发现算法的研究
这是一篇关于社交网络,大数据,数据挖掘,Hadoop,用户转发行为,热点话题发现,K近邻,K-means的论文, 主要内容为在互联网高速发展的中国,大多数网络用户开始逐渐使用新浪微博、QQ、微信朋友圈等社交网络平台进行交流,社交网络改变了人们以往的交往方式。社交网络中每时每刻都在产生大量的数据,仅仅是新浪微博每天就会产生超过一点五亿条数据。在这样海量数据的背景下,单机的处理能力无法满足对信息处理效率的要求,大数据技术因此顺势而生,传统的数据挖掘算法也需要进行改进并且并行化。本文对基于Hadoop的社交网络大数据进行了研究,首先通过爬虫对微博数据进行爬取,然后在分析微博用户的转发行为基础之上提出了相应的算法,对用户转发行为进行预测;同时采用改进后的K-means算法对数据进行聚类,从而实现热点话题的及时发现。本文通过实验的方式论证了算法的有效性。文章的主要研究内容包括以下几个方面:(1)设计了性能良好的微博数据爬取平台,重点分析微博登录验证与反爬虫系统,通过一系列巧妙的设计,采用多线程和优先队列的方式对用户信息及微博正文数据进行爬取,分析出需爬取的主要内容包括用户信息、用户关系信息、微博正文信息、微博转发信息,利用MySQL数据库结构化的方式对数据进行存储。(2)对微博上用户转发行为预测算法进行了设计与实现,为避免现有K近邻算法在大数据背景下效率低、时间成本高的问题,结合压缩近邻算法进行改进并提出了基于决策边界的压缩K近邻算法(CKNN)。并重点分析了改进后的算法在大数据平台上的设计与实现。同时将K近邻算法(KNN)、压缩近邻算法(CNN)作为对照算法在数据集上进行训练,验证了该算法的性能。(3)设计与实现了微博热点话题发现算法,重点分析了现有K-means算法的不足之处,利用粒子群优化算法对传统的K-means算法进行改进并提出了K-means-PSO算法,避免其受到初始聚类中心的影响,减少出现局部最优的情况,随后分析了改进后的算法在大数据平台上的设计与实现。将DBSCAN密度算法、K-means算法作为对照算法在数据集上进行训练,验证了该算法的性能。(4)对基于Hadoop平台的算法效果进行分析,并且通过数据表明大数据平台能够有效提升算法执行速度。本文提出的基于大数据的微博转发预测算法和热点话题发现算法,在理论上,对微博用户行为和网络舆情进行研究具有参考价值;在实践上,对用户行为预测算法和社交网络数据挖掘进行实现具有探索意义。
基于大数据的微博转发预测及热点发现算法的研究
这是一篇关于社交网络,大数据,数据挖掘,Hadoop,用户转发行为,热点话题发现,K近邻,K-means的论文, 主要内容为在互联网高速发展的中国,大多数网络用户开始逐渐使用新浪微博、QQ、微信朋友圈等社交网络平台进行交流,社交网络改变了人们以往的交往方式。社交网络中每时每刻都在产生大量的数据,仅仅是新浪微博每天就会产生超过一点五亿条数据。在这样海量数据的背景下,单机的处理能力无法满足对信息处理效率的要求,大数据技术因此顺势而生,传统的数据挖掘算法也需要进行改进并且并行化。本文对基于Hadoop的社交网络大数据进行了研究,首先通过爬虫对微博数据进行爬取,然后在分析微博用户的转发行为基础之上提出了相应的算法,对用户转发行为进行预测;同时采用改进后的K-means算法对数据进行聚类,从而实现热点话题的及时发现。本文通过实验的方式论证了算法的有效性。文章的主要研究内容包括以下几个方面:(1)设计了性能良好的微博数据爬取平台,重点分析微博登录验证与反爬虫系统,通过一系列巧妙的设计,采用多线程和优先队列的方式对用户信息及微博正文数据进行爬取,分析出需爬取的主要内容包括用户信息、用户关系信息、微博正文信息、微博转发信息,利用MySQL数据库结构化的方式对数据进行存储。(2)对微博上用户转发行为预测算法进行了设计与实现,为避免现有K近邻算法在大数据背景下效率低、时间成本高的问题,结合压缩近邻算法进行改进并提出了基于决策边界的压缩K近邻算法(CKNN)。并重点分析了改进后的算法在大数据平台上的设计与实现。同时将K近邻算法(KNN)、压缩近邻算法(CNN)作为对照算法在数据集上进行训练,验证了该算法的性能。(3)设计与实现了微博热点话题发现算法,重点分析了现有K-means算法的不足之处,利用粒子群优化算法对传统的K-means算法进行改进并提出了K-means-PSO算法,避免其受到初始聚类中心的影响,减少出现局部最优的情况,随后分析了改进后的算法在大数据平台上的设计与实现。将DBSCAN密度算法、K-means算法作为对照算法在数据集上进行训练,验证了该算法的性能。(4)对基于Hadoop平台的算法效果进行分析,并且通过数据表明大数据平台能够有效提升算法执行速度。本文提出的基于大数据的微博转发预测算法和热点话题发现算法,在理论上,对微博用户行为和网络舆情进行研究具有参考价值;在实践上,对用户行为预测算法和社交网络数据挖掘进行实现具有探索意义。
O2O住房空气质量共享的检测与评价系统设计
这是一篇关于O2O住房,空气质量检测,数据共享,模糊数学,K近邻,WebSocket的论文, 主要内容为随着国民经济的全面发展,人们的住宿方式日趋多样化,酒店、民宿、公寓等O2O住房受到越来越多的青睐,通过移动APP在线上平台看房和选房,线下直接拎包入住。然而与其相关的空气质量问题不容小觑,近年来,因O2O住房空气质量问题而引起的健康事故层出不迭,其关键在于用户在选择住房时无法准确、全面获知其空气质量。鉴于此,本文设计了一种便携式的O2O住房空气质量检测与评价系统。住客可在入住后持检测设备对该住房空气质量进行检测并将结果上传至数据共享平台供其他住客查看,也可通过该平台查看他人上传的住房空气质量信息,实现检测数据共享。系统的空气质量检测终端用于采集O2O住房室内常见的环境参数如温度、湿度、甲醛、PM2.5和PM10;实时数据经检测终端的GPRS模块传输至服务器(底层依赖Apache Tomcat,以Spring MVC+Spring+MyBatis的软件架构设计)的Redis数据库中使用算法实时评价;服务器将实时检测数据和相应评价结果通过WebSocket长连接通道发送给建立对应连接的客户端APP;APP实时显示检测数据和评价结果,并可上传检测结果至其数据共享平台,该平台具有多样性显示、多条件筛选与排序的功能,通过该平台,住客可直观获知O2O住房的空气质量情况;后台管理与监测系统用于管理系统用户,以及在线设备实时数据和位置的动态监测。系统采用基于K近邻的模糊层次分析算法进行空气质量评价,利用层次分析法确定室内环境下甲醛、PM2.5和PM10的影响权重。为了结合检测数据评价的时效性和准确性,实验发现解模糊化时常用的面积中心法(信息利用率高)和最大隶属度法(计算简单,实时性强)在隶属度集合最大与次大值间距过小时所得评价结果不一致。为此本文使用K近邻构建分类模型,以各指标实际数据和隶属度向量为输入,解模糊化结果为输出,进行模型训练,最终确定系统解模糊化策略。最后通过在不同模拟环境下,利用多种常用算法进行空气质量评价,结合实际数据,对比验证本系统综合评价算法的客观性;并对系统的各个模块进行功能测试和验证,测试和验证结果表明系统能够完成设计的目标。
基于大数据的微博转发预测及热点发现算法的研究
这是一篇关于社交网络,大数据,数据挖掘,Hadoop,用户转发行为,热点话题发现,K近邻,K-means的论文, 主要内容为在互联网高速发展的中国,大多数网络用户开始逐渐使用新浪微博、QQ、微信朋友圈等社交网络平台进行交流,社交网络改变了人们以往的交往方式。社交网络中每时每刻都在产生大量的数据,仅仅是新浪微博每天就会产生超过一点五亿条数据。在这样海量数据的背景下,单机的处理能力无法满足对信息处理效率的要求,大数据技术因此顺势而生,传统的数据挖掘算法也需要进行改进并且并行化。本文对基于Hadoop的社交网络大数据进行了研究,首先通过爬虫对微博数据进行爬取,然后在分析微博用户的转发行为基础之上提出了相应的算法,对用户转发行为进行预测;同时采用改进后的K-means算法对数据进行聚类,从而实现热点话题的及时发现。本文通过实验的方式论证了算法的有效性。文章的主要研究内容包括以下几个方面:(1)设计了性能良好的微博数据爬取平台,重点分析微博登录验证与反爬虫系统,通过一系列巧妙的设计,采用多线程和优先队列的方式对用户信息及微博正文数据进行爬取,分析出需爬取的主要内容包括用户信息、用户关系信息、微博正文信息、微博转发信息,利用MySQL数据库结构化的方式对数据进行存储。(2)对微博上用户转发行为预测算法进行了设计与实现,为避免现有K近邻算法在大数据背景下效率低、时间成本高的问题,结合压缩近邻算法进行改进并提出了基于决策边界的压缩K近邻算法(CKNN)。并重点分析了改进后的算法在大数据平台上的设计与实现。同时将K近邻算法(KNN)、压缩近邻算法(CNN)作为对照算法在数据集上进行训练,验证了该算法的性能。(3)设计与实现了微博热点话题发现算法,重点分析了现有K-means算法的不足之处,利用粒子群优化算法对传统的K-means算法进行改进并提出了K-means-PSO算法,避免其受到初始聚类中心的影响,减少出现局部最优的情况,随后分析了改进后的算法在大数据平台上的设计与实现。将DBSCAN密度算法、K-means算法作为对照算法在数据集上进行训练,验证了该算法的性能。(4)对基于Hadoop平台的算法效果进行分析,并且通过数据表明大数据平台能够有效提升算法执行速度。本文提出的基于大数据的微博转发预测算法和热点话题发现算法,在理论上,对微博用户行为和网络舆情进行研究具有参考价值;在实践上,对用户行为预测算法和社交网络数据挖掘进行实现具有探索意义。
基于数据挖掘的T产品质量评价研究
这是一篇关于产品质量评价,数据挖掘,Word2Vec,K近邻,支持向量机的论文, 主要内容为产品质量评价过程中通常采用抽检、问卷调查等方式,这些方式虽然在一定程度上能反映质量状况,但仍然存在抽检样本量小、抽检成本高、较难发现未知威胁、与消费者评价不符合等问题。现阶段,随着互联网与数据挖掘技术的发展,获取消费者对产品的真实评价变地方便、可行。基于此背景,文章以互联网中的消费者评论为数据源,采用数据挖掘技术评价T产品(儿童木制玩具)的产品质量。研究过程中,文章首先提出对产品质量概念的理解。其次,文章采用数据挖掘中的Word2Vec、KNN方法提出了 T产品质量指标的提取算法,并构建T产品质量评价指标。在此基础上,文章构建支持向量机产品质量评价模型。针对样本不平衡问题,文章引入代价敏感因子对初始模型进行修正。修正后模型的整体预测效果较好,且对负样本的预测能力提升。然后,文章以天猫、京东平台上183,875条评论数据作为数据源,评价T产品的整体产品质量及各指标的质量。最终,文章将本文的评价结果与质量抽检结果作对比,并依据分析结果从质量监督工作及电子商务平台管理两个角度提出建议,为质量监管提供决策支持。本文的研究结论主要包括:(1)有效地提取产品质量指标,T产品质量指标提取算法在指标类别划分、情感倾向确定上的准确率为76.23%、71.64%。(2)基于代价敏感的SVM质量评价模型的整体预测效果较好,稀少类别负样本的预测评价指标F1值由63%提升到72%。(3)T产品质量整体产品质量合格率为80.72%,低于抽检质量。(4)文章获得T产品各质量指标的关注度、合格率,将各质量指标划分为四类:高关注度高质量、高关注度低质量、低关注度低质量、低关注度高质量。(5)以数据分析结果为依托,为质量监督机构及电商平台献计献策。文章将数据挖掘方法应用到产品质量评价中,进一步丰富了数据挖掘及产品质量相关研究。在实践上,文章提出产品质量评价指标及评价模型,用于T产品的质量评价,具有一定的实践价值。同时,将评价结果与抽检评价相对比,依据对比分析结果,从质量监督管理及电子商务平台管理两个角度提出相关建议,辅助当下产品质量监督管理。
O2O住房空气质量共享的检测与评价系统设计
这是一篇关于O2O住房,空气质量检测,数据共享,模糊数学,K近邻,WebSocket的论文, 主要内容为随着国民经济的全面发展,人们的住宿方式日趋多样化,酒店、民宿、公寓等O2O住房受到越来越多的青睐,通过移动APP在线上平台看房和选房,线下直接拎包入住。然而与其相关的空气质量问题不容小觑,近年来,因O2O住房空气质量问题而引起的健康事故层出不迭,其关键在于用户在选择住房时无法准确、全面获知其空气质量。鉴于此,本文设计了一种便携式的O2O住房空气质量检测与评价系统。住客可在入住后持检测设备对该住房空气质量进行检测并将结果上传至数据共享平台供其他住客查看,也可通过该平台查看他人上传的住房空气质量信息,实现检测数据共享。系统的空气质量检测终端用于采集O2O住房室内常见的环境参数如温度、湿度、甲醛、PM2.5和PM10;实时数据经检测终端的GPRS模块传输至服务器(底层依赖Apache Tomcat,以Spring MVC+Spring+MyBatis的软件架构设计)的Redis数据库中使用算法实时评价;服务器将实时检测数据和相应评价结果通过WebSocket长连接通道发送给建立对应连接的客户端APP;APP实时显示检测数据和评价结果,并可上传检测结果至其数据共享平台,该平台具有多样性显示、多条件筛选与排序的功能,通过该平台,住客可直观获知O2O住房的空气质量情况;后台管理与监测系统用于管理系统用户,以及在线设备实时数据和位置的动态监测。系统采用基于K近邻的模糊层次分析算法进行空气质量评价,利用层次分析法确定室内环境下甲醛、PM2.5和PM10的影响权重。为了结合检测数据评价的时效性和准确性,实验发现解模糊化时常用的面积中心法(信息利用率高)和最大隶属度法(计算简单,实时性强)在隶属度集合最大与次大值间距过小时所得评价结果不一致。为此本文使用K近邻构建分类模型,以各指标实际数据和隶属度向量为输入,解模糊化结果为输出,进行模型训练,最终确定系统解模糊化策略。最后通过在不同模拟环境下,利用多种常用算法进行空气质量评价,结合实际数据,对比验证本系统综合评价算法的客观性;并对系统的各个模块进行功能测试和验证,测试和验证结果表明系统能够完成设计的目标。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://m.bishedaima.com/lunwen/50533.html