基于短文本处理算法优化的文本信息推荐系统的设计与实现
这是一篇关于短文本,特征词,K-means聚类算法,用户兴趣模型,文本推荐系统的论文, 主要内容为"麦圈"作为推荐聚合类资讯产品,以"微博"用户行为数据包括发布、分享、转发等数据为基础,构建用户兴趣模型,并依赖于该模型向用户定向推荐资讯类内容。如何为用户精准的推荐信息成为了平台新的研究方向,因此,用户兴趣模型的构建是推荐系统中最重要的环节,而微博所蕴含的海量文本信息为个性化推荐提供了分析用户兴趣模型的信息数据源。然而由于微博文本数据长度较短,用户的兴趣多样化,系统推荐的效果不太理想,因此,对短文本处理算法的优化是提升系统推荐准确度和稳定性的关键点。本文设计的基于短文本的文本信息推荐系统,首先依据用户的微博行为数据构建用户兴趣模型,其次将待推荐的文本信息进行聚类分析,并与兴趣模型进行相似性计算,最后将结果推荐给用户浏览,同时将用户的评分数据反馈推荐系统,用于用户兴趣模型的更新优化。其中,向量空间模型是文本结构化表示、用户兴趣模型构建以及相似度计算的基础模型。本文的文本推荐系统基于短文本处理算法的优化以及用户兴趣模型的构建实现。首先针对微博短文本数据特点,在短文本预处理阶段,为了提升文本特征词的表征能力,在词项TF-IDF加权计算的基础上提出基于语义相关联的短文本特征词提取算法。然后,在短文本的聚类算法中,本文针对K-means算法对噪声敏感以及对初始中心选取存在依赖性问题,提出了将相似性度量作为初始中心计算的依据思路,并实现了基于相似中心的cK-means短文本聚类算法的设计方案,同时基于短文本算法的优化构建了用户兴趣模型。最后,本文将优化后的用户兴趣模型应用到具体的文本推荐系统中,给出了系统的整体框架,并详细叙述了推荐系统核心模块的实现细节以及系统测试分析。对短文本处理算优化的验证结果表明,本文提出的基于语义相关的文本特征词提取算法以及cK-means文本聚类算法准确度均有所提升,同时基于短文本处理算法优化的用户兴趣模型更适用于对短文本的兴趣聚合。对文本推荐系统的横向测试和纵向测试显示,基于短文本处理算法优化的用户兴趣模型应用到文本推荐系统之后,推荐系统的准确度和稳定性相比之前均有所提升。
基于Hadoop的数据挖掘算法的研究与应用
这是一篇关于属性权重,遗传算法,K-means聚类算法,Hadoop的论文, 主要内容为信息时代,数据的重要性受到越来越多人的关注。由于数据的类型繁多和总量巨大,如何处理大规模的数据集成为研究的热点。虽然数据挖掘算法可以对数据进行处理,但数据挖掘算法因自身的缺点和数据量大的问题难以处理大规模数据集。将数据挖掘算法和Hadoop平台相结合,是数据挖掘算法未来研究的方向。数据挖掘算法有很多,在此主要以K-means聚类算法为例进行研究。本文的主要研究内容为:1)研究基于属性权重的改进型meansk-聚类算法(WK-means)的并行化。在K-means聚类算法的目标函数中,每个属性的权值都为1,表示各个属性的地位是平等的。在实际情况中,各个属性对样本分类的影响是不一样的。基于该观点,提出基于属性权重的改进型K-means聚类算法。为了验证算法的有效性,将该算法迁移到Hadoop系统平台上。使用数据集对运行在Hadoop系统上的改进型聚类算法进行测试。2)研究引进遗传算法的遗传聚类算法(CAGAK)的并行化。现有的经典K-means存在诸多的不足,如K值的确定、易陷入局部最优解和易受初始中心的影响。遗传算法因具有全局性和并行性可以被用来解决K-means算法易陷入局部最优解的问题。针对遗传算法及其改进型的不足,提出改进型遗传算法,验证算法的合理性。将改进型遗传算法与K-means算法结合,并使用数据集来验证改进型遗传聚类算法的聚类效果。将改进型遗传聚类算法迁移到Hadoop系统上。试验验证其合理性。3)基于云平台的数据挖掘分析原型系统的设计与实现。将基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)迁移到数据挖掘分析原型系统的算法库中。系统的使用者可以根据问题的性质选择恰当的数据挖掘算法,配置合适的参数、处理选定的数据。处理的结果以可视化的形式展示。该分析原型系统的开发环境选用Eclipse,框架结构为SSH(Spring+Struts+Hibernate),对外接口为Rest API。基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)分别针对K-means的不足提出的改进型算法,相互之间是独立的。这两个算法分别位于文章的第3章、第4章,且第3章和第4章之间是并列的。
基于Hadoop的数据挖掘算法的研究与应用
这是一篇关于属性权重,遗传算法,K-means聚类算法,Hadoop的论文, 主要内容为信息时代,数据的重要性受到越来越多人的关注。由于数据的类型繁多和总量巨大,如何处理大规模的数据集成为研究的热点。虽然数据挖掘算法可以对数据进行处理,但数据挖掘算法因自身的缺点和数据量大的问题难以处理大规模数据集。将数据挖掘算法和Hadoop平台相结合,是数据挖掘算法未来研究的方向。数据挖掘算法有很多,在此主要以K-means聚类算法为例进行研究。本文的主要研究内容为:1)研究基于属性权重的改进型meansk-聚类算法(WK-means)的并行化。在K-means聚类算法的目标函数中,每个属性的权值都为1,表示各个属性的地位是平等的。在实际情况中,各个属性对样本分类的影响是不一样的。基于该观点,提出基于属性权重的改进型K-means聚类算法。为了验证算法的有效性,将该算法迁移到Hadoop系统平台上。使用数据集对运行在Hadoop系统上的改进型聚类算法进行测试。2)研究引进遗传算法的遗传聚类算法(CAGAK)的并行化。现有的经典K-means存在诸多的不足,如K值的确定、易陷入局部最优解和易受初始中心的影响。遗传算法因具有全局性和并行性可以被用来解决K-means算法易陷入局部最优解的问题。针对遗传算法及其改进型的不足,提出改进型遗传算法,验证算法的合理性。将改进型遗传算法与K-means算法结合,并使用数据集来验证改进型遗传聚类算法的聚类效果。将改进型遗传聚类算法迁移到Hadoop系统上。试验验证其合理性。3)基于云平台的数据挖掘分析原型系统的设计与实现。将基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)迁移到数据挖掘分析原型系统的算法库中。系统的使用者可以根据问题的性质选择恰当的数据挖掘算法,配置合适的参数、处理选定的数据。处理的结果以可视化的形式展示。该分析原型系统的开发环境选用Eclipse,框架结构为SSH(Spring+Struts+Hibernate),对外接口为Rest API。基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)分别针对K-means的不足提出的改进型算法,相互之间是独立的。这两个算法分别位于文章的第3章、第4章,且第3章和第4章之间是并列的。
基于Hadoop的数据挖掘算法的研究与应用
这是一篇关于属性权重,遗传算法,K-means聚类算法,Hadoop的论文, 主要内容为信息时代,数据的重要性受到越来越多人的关注。由于数据的类型繁多和总量巨大,如何处理大规模的数据集成为研究的热点。虽然数据挖掘算法可以对数据进行处理,但数据挖掘算法因自身的缺点和数据量大的问题难以处理大规模数据集。将数据挖掘算法和Hadoop平台相结合,是数据挖掘算法未来研究的方向。数据挖掘算法有很多,在此主要以K-means聚类算法为例进行研究。本文的主要研究内容为:1)研究基于属性权重的改进型meansk-聚类算法(WK-means)的并行化。在K-means聚类算法的目标函数中,每个属性的权值都为1,表示各个属性的地位是平等的。在实际情况中,各个属性对样本分类的影响是不一样的。基于该观点,提出基于属性权重的改进型K-means聚类算法。为了验证算法的有效性,将该算法迁移到Hadoop系统平台上。使用数据集对运行在Hadoop系统上的改进型聚类算法进行测试。2)研究引进遗传算法的遗传聚类算法(CAGAK)的并行化。现有的经典K-means存在诸多的不足,如K值的确定、易陷入局部最优解和易受初始中心的影响。遗传算法因具有全局性和并行性可以被用来解决K-means算法易陷入局部最优解的问题。针对遗传算法及其改进型的不足,提出改进型遗传算法,验证算法的合理性。将改进型遗传算法与K-means算法结合,并使用数据集来验证改进型遗传聚类算法的聚类效果。将改进型遗传聚类算法迁移到Hadoop系统上。试验验证其合理性。3)基于云平台的数据挖掘分析原型系统的设计与实现。将基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)迁移到数据挖掘分析原型系统的算法库中。系统的使用者可以根据问题的性质选择恰当的数据挖掘算法,配置合适的参数、处理选定的数据。处理的结果以可视化的形式展示。该分析原型系统的开发环境选用Eclipse,框架结构为SSH(Spring+Struts+Hibernate),对外接口为Rest API。基于属性权重的改进型K-means聚类算法(WK-means)和遗传聚类算法(CAGAK)分别针对K-means的不足提出的改进型算法,相互之间是独立的。这两个算法分别位于文章的第3章、第4章,且第3章和第4章之间是并列的。
基于短文本处理算法优化的文本信息推荐系统的设计与实现
这是一篇关于短文本,特征词,K-means聚类算法,用户兴趣模型,文本推荐系统的论文, 主要内容为"麦圈"作为推荐聚合类资讯产品,以"微博"用户行为数据包括发布、分享、转发等数据为基础,构建用户兴趣模型,并依赖于该模型向用户定向推荐资讯类内容。如何为用户精准的推荐信息成为了平台新的研究方向,因此,用户兴趣模型的构建是推荐系统中最重要的环节,而微博所蕴含的海量文本信息为个性化推荐提供了分析用户兴趣模型的信息数据源。然而由于微博文本数据长度较短,用户的兴趣多样化,系统推荐的效果不太理想,因此,对短文本处理算法的优化是提升系统推荐准确度和稳定性的关键点。本文设计的基于短文本的文本信息推荐系统,首先依据用户的微博行为数据构建用户兴趣模型,其次将待推荐的文本信息进行聚类分析,并与兴趣模型进行相似性计算,最后将结果推荐给用户浏览,同时将用户的评分数据反馈推荐系统,用于用户兴趣模型的更新优化。其中,向量空间模型是文本结构化表示、用户兴趣模型构建以及相似度计算的基础模型。本文的文本推荐系统基于短文本处理算法的优化以及用户兴趣模型的构建实现。首先针对微博短文本数据特点,在短文本预处理阶段,为了提升文本特征词的表征能力,在词项TF-IDF加权计算的基础上提出基于语义相关联的短文本特征词提取算法。然后,在短文本的聚类算法中,本文针对K-means算法对噪声敏感以及对初始中心选取存在依赖性问题,提出了将相似性度量作为初始中心计算的依据思路,并实现了基于相似中心的cK-means短文本聚类算法的设计方案,同时基于短文本算法的优化构建了用户兴趣模型。最后,本文将优化后的用户兴趣模型应用到具体的文本推荐系统中,给出了系统的整体框架,并详细叙述了推荐系统核心模块的实现细节以及系统测试分析。对短文本处理算优化的验证结果表明,本文提出的基于语义相关的文本特征词提取算法以及cK-means文本聚类算法准确度均有所提升,同时基于短文本处理算法优化的用户兴趣模型更适用于对短文本的兴趣聚合。对文本推荐系统的横向测试和纵向测试显示,基于短文本处理算法优化的用户兴趣模型应用到文本推荐系统之后,推荐系统的准确度和稳定性相比之前均有所提升。
电商平台林产品个性化推荐算法研究
这是一篇关于林产品推荐,协同过滤,K-means聚类算法,Weighted Slope One算法的论文, 主要内容为林产品以其具有的天然、环保、绿色的优势,成为了健康产品的主流选择之一。电子商务平台的不断发展带动了林业产品推广和销售。但是随着用户和产品规模的不断增多,出现了严重的“信息负载”问题,因此个性化推荐服务应运而生。个性化推荐服务能够快速主动挖掘潜在的购买用户,帮助用户快速找到可能感兴趣或喜欢的商品,不但可以增加网络流量、提升营业收入,同时还能够加强用户对于网站的忠诚度以及用户体验。电子商务平台对于产品的推荐大多是基于协同过滤推荐算法,该算法是迄今为止应用最成功的个性化推荐算法,被广泛的应用到很多领域中。但是随着互联网的快速普及,使得电商平台用户、产品规模的不断扩大,协同过滤算法遇到严重的数据稀疏性问题,导致推荐的精度和可扩展性都在急剧下降。文中对协同过滤算法进行深入学习和研究过后,提出了一种基于Weighted SlopeOne(简称WSO)的K-means个性化林产品推荐算法,该算法首先将WSO算法进行产品打分的思想应用于高维稀疏用户-产品评分矩阵的填充上,然后使用改进的K-means算法对用户进行聚类生成用户类簇,最后在每个类簇内为目标用户实现推荐服务。文中以MovieLens数据集为数据源进行对比试验,经仿真表明,文中的算法能够有效地提升推荐的精度和可扩展性。以Apache Mahout为实验平台,将文中提出的基于WSO的K-means个性化林产品推荐算法应用于京东商城的林产品购买评分中,实验结果表明,文中提出算法的precision、recall、MAE指标反应良好,适宜将文中提出的算法在林产品贸易销售平台进行大范围推广,以提升林产品销量和用户忠诚度。
基于海量评论导购系统的设计与实现
这是一篇关于大数据分析,评论挖掘,K-means聚类算法,协同过滤,导购系统,分布式存储的论文, 主要内容为21世纪的今天,网上购物已经融入了我们的生活,对于大多数人而言,“其他人在购买商品后的评语”对于我们的决策定制产生了巨大的影响力。当互联网尚未普及的时候,我们能够获得的评价信息量少并且渠道单一,企业和消费者想要获取更多的信息十分困难。互联网和电商网站的广泛应用使我们获取信息的渠道和数量呈几何数量递增,我们通过不同的电商网站获取大量的信息。对于商品的评价信息的分析,目前大多数网站的对信息的处理仅仅是针对分数等量化信息进行汇总,没有对文字进行处理。而阅读文字评论信息非常费时,需要辗转多个网站对多个信息进行总结;另外,由于屏幕大小的限制,在移动终端上阅读文字评论信息也很不方便。本文通过对各大电商网站中的各类评论数据进行爬取,设计了基于海量商品评论数据的手机移动端的智能导购系统。首先对当前的评论数据挖掘经验进行学习,实现了基于改进的K-means聚类算法的面向海量评论信息的数据挖掘方法。通过基于CRF的分词器的用户偏好内容学习预测方法,实现对中文评论信息的分析处理挖掘。根据商品的名称相似性生成推荐列表,对用户自行评分预测计算,最后通过评分预测计算结果进行反向排序生成最终的推荐列表,其中的评论对象数据以倒排索引来进行检索,用户所提交的数据查询请求预先通过前端的索引服务器完成分词处理,然后再对处理后的结果数据利用倒排索引进行查询。采用Hadoop平台结合HBase存储方式实现大数据的分布式存储解决大数据计算和存储的问题。实验证明本系统实现了成功处理千万级评论数量,能够实现快速响应用户的检索需求,为用户提供各类有价值的商品评价导购信息。
基于环境VPD决策的温室甜瓜灌溉系统设计与试验
这是一篇关于甜瓜,VPD,灌水量,K-means聚类算法,灌溉系统的论文, 主要内容为我国目前农业生产灌溉多以简单的阈值调控或时间控制为主,依靠人工经验进行管理,难以完全摆脱人工进行自主决策,自动化程度较低,管理粗放,不能按需进行水肥供给,不利于农产品产量与品质的提高,还导致资源利用效率低、劳动力成本增加。基于作物水肥需求模型的自动灌溉可以按作物需求进行精准水肥供给,在提高甜瓜产量与品质的基础上节约水肥资源,充分发挥水肥资源潜力,满足现代农业水肥农艺综合精准调控的时代要求,实现水肥一体化智能灌溉,促进农业产业化和集约化农业健康快速发展。本研究对自动灌溉系统的结构、灌溉量控制以及软硬件设计方法进行了深入研究,设计研发了基于温室甜瓜最优生长的自动灌溉决策系统,并在系统搭建完成后设计验证试验对系统应用效果进行了分析。本研究的主要研究内容与结果如下:(1)兼顾甜瓜产量、品质、水氮利用效率三个类别10个指标建立综合评价体系,引入融合最大隶属度的AHP法确定甜瓜栽培综合最优的日灌水水平,采用K-means聚类算法对日最优灌溉量与环境温湿度数据进行分析,建立了甜瓜不同生育期基于环境饱和水气压差(Vapor Pressure Deficit,VPD)聚类结果的定量灌溉决策模型。结果表明,120%蒸腾蒸发量的灌水水平下甜瓜综合生长最优,不同生育期内VPD与灌溉量数据在聚类形心数为3时轮综合表现最佳,组间轮廓清晰,界限分明,且在VPD较高时,灌水量显著增高,聚类结果最好。(2)基于模型的自动灌溉系统设计。基于甜瓜灌溉决策模型设计了远程自动灌溉系统,系统包括数据采集组件、通信组件、决策组件、监控组件及灌溉组件。通过C语言对单片机进行编程,嵌入作物需水模型,并通过各组件的联动实现环境数据的记录、实时监控、灌溉量的自主决策与执行和手动控制等功能。在硬件选择上兼顾低成本和设备轻简化,采用RS485温湿度传感器实现环境参数的自动采集;以高性能低能耗的STM32系列芯片作为主控芯片实现模型运算处理;由4G模块实现通讯及操控;通过输出继电器及电磁阀实现甜瓜生长期间的水肥系统的自动运行,并由电子流量计实时测量并反馈灌溉量;通过云平台实现远程监控功能。(3)自动灌溉系统试验验证。将基于模型的自动灌溉系统应用于甜瓜生产并与常规灌溉管理对照,试验处理甜瓜折算产量为9.79t·hm-2,相较于对照处理高2.2%;试验处理的甜瓜可溶性固形物含量和可溶性蛋白含量相较于对照处理分别高出0.98%和12.8%,但2组处理无显著差异;试验处理的甜瓜果实VC含量显著高于对照处理,达25.9%。在甜瓜全生育期的灌水量上,基于模型的自动灌溉系统优势显著,相比于对照处理节水15.9%。证明本系统采用的基于VPD与灌溉量的甜瓜灌溉决策模型合理,且有效降低了劳动力的投入,适用于甜瓜节水高效生产。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/47255.html