基于同构及异构信息网的虚假评论群组检测研究
这是一篇关于虚假评论群组检测,同构信息网,异构信息网,谱聚类的论文, 主要内容为随着互联网的迅速发展,电子商务平台的出现改变了人们购物、出行、就餐等方方面面的消费方式。阅读评论作为人们从电商平台获得对特定商品信息的重要途径之一,很大程度上会影响阅读者对某一商品的看法,甚至会进一步影响阅读者的行为决策。然而,虚假评论群组通过操控大量电商平台账号或利用返利等各种方式指使个人用户发表虚假评论并从中牟利,极大影响市场的公平性和评论的真实性。随着虚假评论发布模式的迅速发展与变化,针对虚假评论群组的检测研究愈发重要。本文对虚假评论群组检测模式进行了深入研究,分别提出了基于同构和异构信息网的两种虚假评论群组检测算法。基于同构信息网的算法首先通过人工构建用户间的关联特征,设计关联特征规则,然后利用这些关联特征构建以每位用户作为结点的同构用户信息网,再使用聚类方法获取候选群组。基于异构信息网的算法则在构建用户信息网时完整地利用了元数据。异构信息网的多结点类型结构能够最大程度地保留数据集中来自现实世界的语义信息,因此在获取候选群组的过程中能捕获到复杂对象及其关系。本文通过将谱聚类方法分别迁移应用至两种用户信息网络,对同构及异构信息网的关联相似性进行挖掘,获得关联度较高的多个子候选群组,结合现有的虚假评论者和群组特征与本文提出的行为特征对子候选群组进一步分析,发现虚假评论群组。本文基于Yelp数据集完成了同构信息网络及异构信息网络的构建工作。在同构信息网络上利用谱聚类算法,在异构信息网络上通过求解相似矩阵完成谱聚类划分,从而对这两种信息网络进行划分,获得候选群组,实现虚假评论群组检测。本文对虚假评论群组的行为特征进行梳理,提出选用了群组极端评分比、群组重复评论比和群组评分偏差三个虚假评论群组行为特征作为聚类效果评估指标。实验结果验证了本文提出的用户同构信息网络构建方法的可行性,以及本文提出的两种虚假评论群组检测算法的准确性。实验结果也表明本文提出的算法与现有的虚假评论群组检测算法在同一数据集上进行划分比较,效果提升显著。
架空输电线路鸟害风险预警模型及软件实现
这是一篇关于鸟害,K-Means聚类,谱聚类,鸟害分布图的论文, 主要内容为近年来输电线路鸟害事故的频繁发生引起了国家电网公司的高度关注,因此每年都投入大量的人力物力进行鸟害防治,但效果却不尽如人意。许多的专家学者也针对鸟害问题进行了大量的研究,研究方向主要包括两种,一种是进行防鸟装置的设计改进,另一种是结合多种鸟害影响因素对鸟害风险进行预测。对于鸟害风险的预测,大多数论文都是利用综合评价法、熵权法或层次分析法构建鸟害预测模型,但这些预测方法都存在主观性较强,现实指导意义不大的问题,并且这些论文均会对所有特征值设置相应的权重,但针对于权重赋值的大小目前尚没有统一完善的标准体系,因此差异性较大。此外,针对于鸟害数据的统计也趋于理想化。因为电网公司可能缺少对于鸟害的详细记录,例如某些供电局对于鸟害数据的收集是仅对鸟害造成的跳闸事故有详细的记录,而对于未造成线路事故的情况仅记录为发生过鸟害,并未注明是鸟粪掉落、大型鸟飞过或是在杆塔上筑巢等鸟类活动。另外鸟类造成的线路事故仅发生一次便会引起高度重视,因此同一座杆塔上发生事故次数大多为一次,那么针对这种情况,既没有记录该次鸟害所造成的危险程度,次数也均为一次的数据,便无法确定其相对应的风险等级。因此对于此类无标签数据,本文采用聚类分析算法构建鸟害风险预警模型,主要思想是利用数据本身相互间存在的关系进行鸟害风险等级划分,减少人为主观因素的影响,并降低模型对原始数据的要求。本文的主要内容是通过机器学习算法研究出一套输电线路鸟害风险预警模型,利用Vue前端架构设计出一种鸟害分布图软件,让供电运维工作的管理人员更为清晰地看到鸟害风险分布状况,从而有针对性地采取相应防控举措,以提升防鸟效率,并更好的维护输电线路的稳定运营。本文所做的研究如下:(1)针对收集到的广东某供电局2016-2020年的历史鸟害故障数据,并结合相关调研资料对数据加以补充梳理,分析鸟害发生的原因与电压等级、杆塔类型和周边环境之间的联系,并以电压等级、杆塔类型和周边环境信息构建原始数据集。(2)针对当前在进行鸟害风险预警模型构建的过程中受到人为因素影响较大的问题,本文选用机器学习算法中的K-Means聚类、DBSCAN聚类和谱聚类进行模型构建,并利用肘部法则和轮廓系数法对传统K-Means均值聚类算法中最佳聚类数难以确定的问题进行了改进,运用主成分分析法对数据进行降维,结果表明降维后的数据聚类效果更佳。(3)利用SSE指数和CHI指数对改进K-Means聚类算法、DBSCAN聚类算法和谱聚类算法构建的风险预警模型进行对比,结果显示改进K-Means聚类算法构建的模型聚类效果更好。(4)针对当前鸟害防治效率低的问题,本文利用构建好的鸟害风险预警模型对输电线路进行鸟害风险等级预测,并基于Vue前端框架设计开发出一套鸟害分布图软件对风险预测结果进行展示,使电网运维人员可以更直观看到各级鸟害分布情况,有针对性地采取防鸟措施进行鸟害防治,提高工作效率。
集成聚类算法及其在个性化推荐中的应用研究
这是一篇关于聚类,密度峰值,谱聚类,近邻传播,集成聚类,协同过滤推荐的论文, 主要内容为聚类是数据学习中一项关键技术,以无监督的形式进行分类。通俗地讲,聚类就是将数据划分出不一样的类簇,同一类簇中的相似度尽可能的大,而不在同类簇中的相似度尽可能的小。近年来,聚类出现在很多新的技术研究领域,如:个性化推荐。个性化推荐是依据用户数据和喜好习惯向用户推送符合偏好的信息,挖掘用户的潜在需求,这在很大程度上减少了查找信息的时间,提高了网络平台的效率。协同过滤算法面对庞杂数据进行推荐时,算法推荐效率会降低。利用聚类算法数据分类的特点来解决推荐中的弊端,不仅能降低计算量,还提升了推荐效率。聚类算法在个性化推荐技术中应用时,如何实现快速、高效率的推荐是研究的重难点。本文针对经典聚类算法自身的不足和推荐算法存在的问题缺点等进行分析研究,工作具体如下:(1)针对K-means算法随机生成初始中心对结果干扰大以及容易陷入局部最优的缺点,先提出了依靠密度峰值优化K-means初始中心的F-KMs聚类算法,再提出名为N-FK的集成算法:不仅可以快速得到最佳初始中心并且利用谱聚类的算法特点解决了F-KMs无法处理任意密度形状的数据的不足。(2)针对在处理大规模数据时,近邻传播(AP)算法复杂度高且需要巨大内存做支持,算法结果受参数取值的影响大以及AP算法无法处理非凸数据等问题。本文融合AP和N-FK算法,提出一种三阶层的集成聚类算法:第一层利用AP对数据稀疏粗分,每类选取一个类代表元;第二层对得到的类代表元通过N-FK进行细致聚类;最后合并前两层的结果得到所有数据的精确划分。所提出的集成算法,融合了AP及N-FK算法的优点,可以处理不同类型的大规模数据,减少存储空间利用。(3)将本文集成聚类算法应用于个性化推荐中,设计出基于集成聚类的多层次推荐算法。此算法先将原大数据集进行聚类划分,然后从相似度高的目标类中重新构建用户矩阵进行协同过滤推荐,减少了计算复杂度。文章采用MovieLens数据集进行实验,通过推荐性能度量指标进行测评检验,证明本文提出的多层次推荐算法提高了的推荐效率,并可以处理数据稀疏性的弊端,使推荐更具“个性化”。
基于概率矩阵分解和谱聚类的协同过滤推荐算法
这是一篇关于推荐算法,概率矩阵分解,谱聚类,协同过滤推荐算法,稀疏性的论文, 主要内容为随着大数据时代的来临,数据呈现爆炸式增长。数据不仅表现在数据量大,也呈现“数据冗余”的问题。而推荐系统能很好地从海量的数据信息中获取用户感兴趣的信息,以便更好地产生用户推荐列表。目前,推荐系统较为广泛的应用在商业领域,它不仅能挖掘企业潜在的商业价值,也能更好地满足客户的个性化需求。协同过滤推荐算法是推荐系统中应用最基础的算法,但是也存在着三个亟待解决的问题。“稀疏性”问题,是协同过滤推荐算法中面临的主要问题之一。其原理主要是用户-项目评分矩阵较为稀疏,即只有一部分人对一部分项目进行评分,从而造成数据量较少,进而影响推荐结果的准确度。“冷启动”问题,当系统中出现新的用户或者项目时,由于系统之前并没有相关用户或者项目的记录,所以会直接导致推荐结果的不准确。“可拓展性”问题,随着新用户和项目的逐渐加入,数据量逐渐增加,系统的计算复杂度逐渐提升,现有的推荐算法能否更好的进行实时推荐也成为其面临的主要问题。针对推荐系统三大问题和更好的生成个性化推荐列表,本文的主要工作具体如下:首先,缓解“数据稀疏性”问题,本文利用概率矩阵分解填充用户-项目稀疏矩阵。本文以Movie Lens100K数据集作为实验数据集,利用概率矩阵分解、全局平局值、Slope one和非负矩阵分解四种方法进行填充稀疏矩阵,以均方误差(RMSE)作为评价指标,结果表明:概率矩阵分解的RMSE最低,为0.9177。说明用概率矩阵分解填充稀疏矩阵的效果最好,预测评分的准确率有所提升。其次,为了更好的进行个性化推荐,我们对填充好的用户-项目矩阵进行谱聚类,缩小目标用户最近邻的搜索范围,给出更为准确的近邻区间,降低搜索范围。然后,在类内进行协同过滤推荐算法,计算目标用户与其他用户之间相似度,确定最紧邻集合,在最近邻内由预测评分公式计算预测评分。最后,为了验证本文算法的效果,我们以公共数据集Movie Lens100K作为实验数据集,利用均方根误差(Root Mean Square Error)和平均绝对误差(Mean Absolute Error)作为评价指标,进行了五组实验:实验一:概率矩阵分解正则化参数λ值的确定,以RMSE为评价指标,结果表明λ=0.1时,RMSE最小,后续实验λ恒为0.1;实验二:概率矩阵分解的潜在特征数量确定,当迭代数量为50次,潜在特征数量为5;实验三:概率矩阵分解融合不同的聚类算法,比较不同聚类数量产生的结果,以MAE作为评价指标,确定最优聚类数量;实验四:比较了概率矩阵分解融合聚类算法的RMSE数值,分别是融合谱聚类算法和K-Means算法与传统协同过滤推荐算法相比较,结果表明融合谱聚类算法的RMSE值最低,表明融合谱聚类算法的效果最好,能有效的改善冷启动问题;实验五:基于上面四个实验参数的确定,输出不同近邻数下的预测评分,与基于传统的协同过滤推荐算法、未聚类的概率矩阵分解(PMF)的协同过滤和本文改进的算法(PMF_SC)进行比较,以RMSE和MAE作为评价指标,结果表明:本文所提出的算法相比于协同过滤算法和概率矩阵分解在MAE和RMSE上有所降低,说明该算法在预测的准确率有一定提升,具有一定的参考意义。
基于聚类矩阵近似的协同过滤推荐模型研究
这是一篇关于谱聚类,矩阵近似,协同过滤,推荐方法的论文, 主要内容为基于矩阵分解技术的系统过滤是一种常见的推荐技术,但是由于用户和商品数据的稀疏性和推荐系统可扩展性差的问题,使推荐系统的准确性和计算效率受到了巨大挑战。本文提出基于显性信息和隐性信息聚类矩阵近似的协同过滤推荐模型,该模型主要针对推荐系统中存在的用户商品数据的稀疏问题和推荐系统可扩展性较差问题进行改进,以期提升推荐系统的准确率与计算效率。基于显性信息的聚类矩阵近似的协同过滤推荐方法通过用户和商品同时聚类来考虑用户对于商品兴趣的局部特性,找到评分矩阵的内在结构,形成稠密矩阵块。同时,该方法应用的是真实评分数据,而不是填充数据,从而较少地将缺失数据纳入计算范围,减少了噪声数据的干扰,提升了推荐质量。在稠密矩阵块内部做推荐减少了推荐系统整体的数据输入,提高了计算效率。基于隐性信息的聚类矩阵近似的协同过滤推荐方法首先将用户-商品评分矩阵转化为进过处理后的偏好指示矩阵,在此基础上进行寻找最相似的用户-商品稠密矩阵块。然后将通过偏好指示矩阵找到的稠密矩阵块中的数据还原为原始用户对商品的评分数据,并进行矩阵近似和对用户进行推荐。最后,本文选取MovieLens-100K电影评分真实数据集进行试验,并采用RMSE的评价指标对推荐系统进行评价。推荐实验表明,基于显性信息的聚类矩阵近似协同过滤推荐模型在准确性和可扩展性方面得到了提高,基于隐性信息的聚类矩阵近似协同过滤推荐模型比上一模型在准确性方面有所提高;两个模型在不同的情况下皆可提高推荐系统的准确性,提升可扩展性,从而带来更好的用户体验,提升电商平台与商家的收入。
架空输电线路鸟害风险预警模型及软件实现
这是一篇关于鸟害,K-Means聚类,谱聚类,鸟害分布图的论文, 主要内容为近年来输电线路鸟害事故的频繁发生引起了国家电网公司的高度关注,因此每年都投入大量的人力物力进行鸟害防治,但效果却不尽如人意。许多的专家学者也针对鸟害问题进行了大量的研究,研究方向主要包括两种,一种是进行防鸟装置的设计改进,另一种是结合多种鸟害影响因素对鸟害风险进行预测。对于鸟害风险的预测,大多数论文都是利用综合评价法、熵权法或层次分析法构建鸟害预测模型,但这些预测方法都存在主观性较强,现实指导意义不大的问题,并且这些论文均会对所有特征值设置相应的权重,但针对于权重赋值的大小目前尚没有统一完善的标准体系,因此差异性较大。此外,针对于鸟害数据的统计也趋于理想化。因为电网公司可能缺少对于鸟害的详细记录,例如某些供电局对于鸟害数据的收集是仅对鸟害造成的跳闸事故有详细的记录,而对于未造成线路事故的情况仅记录为发生过鸟害,并未注明是鸟粪掉落、大型鸟飞过或是在杆塔上筑巢等鸟类活动。另外鸟类造成的线路事故仅发生一次便会引起高度重视,因此同一座杆塔上发生事故次数大多为一次,那么针对这种情况,既没有记录该次鸟害所造成的危险程度,次数也均为一次的数据,便无法确定其相对应的风险等级。因此对于此类无标签数据,本文采用聚类分析算法构建鸟害风险预警模型,主要思想是利用数据本身相互间存在的关系进行鸟害风险等级划分,减少人为主观因素的影响,并降低模型对原始数据的要求。本文的主要内容是通过机器学习算法研究出一套输电线路鸟害风险预警模型,利用Vue前端架构设计出一种鸟害分布图软件,让供电运维工作的管理人员更为清晰地看到鸟害风险分布状况,从而有针对性地采取相应防控举措,以提升防鸟效率,并更好的维护输电线路的稳定运营。本文所做的研究如下:(1)针对收集到的广东某供电局2016-2020年的历史鸟害故障数据,并结合相关调研资料对数据加以补充梳理,分析鸟害发生的原因与电压等级、杆塔类型和周边环境之间的联系,并以电压等级、杆塔类型和周边环境信息构建原始数据集。(2)针对当前在进行鸟害风险预警模型构建的过程中受到人为因素影响较大的问题,本文选用机器学习算法中的K-Means聚类、DBSCAN聚类和谱聚类进行模型构建,并利用肘部法则和轮廓系数法对传统K-Means均值聚类算法中最佳聚类数难以确定的问题进行了改进,运用主成分分析法对数据进行降维,结果表明降维后的数据聚类效果更佳。(3)利用SSE指数和CHI指数对改进K-Means聚类算法、DBSCAN聚类算法和谱聚类算法构建的风险预警模型进行对比,结果显示改进K-Means聚类算法构建的模型聚类效果更好。(4)针对当前鸟害防治效率低的问题,本文利用构建好的鸟害风险预警模型对输电线路进行鸟害风险等级预测,并基于Vue前端框架设计开发出一套鸟害分布图软件对风险预测结果进行展示,使电网运维人员可以更直观看到各级鸟害分布情况,有针对性地采取防鸟措施进行鸟害防治,提高工作效率。
基于聚类矩阵近似的协同过滤推荐模型研究
这是一篇关于谱聚类,矩阵近似,协同过滤,推荐方法的论文, 主要内容为基于矩阵分解技术的系统过滤是一种常见的推荐技术,但是由于用户和商品数据的稀疏性和推荐系统可扩展性差的问题,使推荐系统的准确性和计算效率受到了巨大挑战。本文提出基于显性信息和隐性信息聚类矩阵近似的协同过滤推荐模型,该模型主要针对推荐系统中存在的用户商品数据的稀疏问题和推荐系统可扩展性较差问题进行改进,以期提升推荐系统的准确率与计算效率。基于显性信息的聚类矩阵近似的协同过滤推荐方法通过用户和商品同时聚类来考虑用户对于商品兴趣的局部特性,找到评分矩阵的内在结构,形成稠密矩阵块。同时,该方法应用的是真实评分数据,而不是填充数据,从而较少地将缺失数据纳入计算范围,减少了噪声数据的干扰,提升了推荐质量。在稠密矩阵块内部做推荐减少了推荐系统整体的数据输入,提高了计算效率。基于隐性信息的聚类矩阵近似的协同过滤推荐方法首先将用户-商品评分矩阵转化为进过处理后的偏好指示矩阵,在此基础上进行寻找最相似的用户-商品稠密矩阵块。然后将通过偏好指示矩阵找到的稠密矩阵块中的数据还原为原始用户对商品的评分数据,并进行矩阵近似和对用户进行推荐。最后,本文选取MovieLens-100K电影评分真实数据集进行试验,并采用RMSE的评价指标对推荐系统进行评价。推荐实验表明,基于显性信息的聚类矩阵近似协同过滤推荐模型在准确性和可扩展性方面得到了提高,基于隐性信息的聚类矩阵近似协同过滤推荐模型比上一模型在准确性方面有所提高;两个模型在不同的情况下皆可提高推荐系统的准确性,提升可扩展性,从而带来更好的用户体验,提升电商平台与商家的收入。
基于聚类的低秩矩阵填充推荐算法研究
这是一篇关于推荐系统,矩阵填充,谱聚类,哈希分类,联合优化的论文, 主要内容为随着互联网与大数据的不断发展,人们快速获取有用信息的难度不断增大。推荐系统作为有效缓解信息超载的工具之一,不仅可以为用户快速获取感兴趣的信息,同时也具有巨大的商业价值。然而,系统中庞大的用户和项目、稀疏的用户评分数据,导致计算复杂度大,模型构建不精确,推荐性能低下。针对上述存在的挑战,本文提出了两种相似用户划分方法,并在此基础上提出一种基于谱聚类的低秩矩阵填充的推荐算法。本文的主要研究工作如下:(1)提出了归一化评分矢量跟踪用户偏好记录的方法,减少评分稀疏对用户之间相似性计算的影响。提出两种相似用户划分方法:基于位置敏感的哈希函数分类算法和基于图论的谱聚类算法,将原始用户项目矩阵划分为多个子矩阵。(2)提出基于谱聚类的低秩矩阵填充算法。基于谱聚类的相似用户划分方法,为进一步提高用户评分率,减少子矩阵的规模,对与目标用户无关的列进行修剪,提出一种联合优化模型,通过优化构建的目标损失函数,确定使算法达到最优推荐的参数分类数和修剪率。最后应用矩阵填充算法。真实数据集实验结果表明,本文提出的两种分类算法能有效提高相似用户的划分准确度。在谱聚类分类算法的基础上,提出的低秩矩阵填充联合优化算法,能有效提高用户感兴趣项目列表的推荐精度。
基于概率矩阵分解和谱聚类的协同过滤推荐算法
这是一篇关于推荐算法,概率矩阵分解,谱聚类,协同过滤推荐算法,稀疏性的论文, 主要内容为随着大数据时代的来临,数据呈现爆炸式增长。数据不仅表现在数据量大,也呈现“数据冗余”的问题。而推荐系统能很好地从海量的数据信息中获取用户感兴趣的信息,以便更好地产生用户推荐列表。目前,推荐系统较为广泛的应用在商业领域,它不仅能挖掘企业潜在的商业价值,也能更好地满足客户的个性化需求。协同过滤推荐算法是推荐系统中应用最基础的算法,但是也存在着三个亟待解决的问题。“稀疏性”问题,是协同过滤推荐算法中面临的主要问题之一。其原理主要是用户-项目评分矩阵较为稀疏,即只有一部分人对一部分项目进行评分,从而造成数据量较少,进而影响推荐结果的准确度。“冷启动”问题,当系统中出现新的用户或者项目时,由于系统之前并没有相关用户或者项目的记录,所以会直接导致推荐结果的不准确。“可拓展性”问题,随着新用户和项目的逐渐加入,数据量逐渐增加,系统的计算复杂度逐渐提升,现有的推荐算法能否更好的进行实时推荐也成为其面临的主要问题。针对推荐系统三大问题和更好的生成个性化推荐列表,本文的主要工作具体如下:首先,缓解“数据稀疏性”问题,本文利用概率矩阵分解填充用户-项目稀疏矩阵。本文以Movie Lens100K数据集作为实验数据集,利用概率矩阵分解、全局平局值、Slope one和非负矩阵分解四种方法进行填充稀疏矩阵,以均方误差(RMSE)作为评价指标,结果表明:概率矩阵分解的RMSE最低,为0.9177。说明用概率矩阵分解填充稀疏矩阵的效果最好,预测评分的准确率有所提升。其次,为了更好的进行个性化推荐,我们对填充好的用户-项目矩阵进行谱聚类,缩小目标用户最近邻的搜索范围,给出更为准确的近邻区间,降低搜索范围。然后,在类内进行协同过滤推荐算法,计算目标用户与其他用户之间相似度,确定最紧邻集合,在最近邻内由预测评分公式计算预测评分。最后,为了验证本文算法的效果,我们以公共数据集Movie Lens100K作为实验数据集,利用均方根误差(Root Mean Square Error)和平均绝对误差(Mean Absolute Error)作为评价指标,进行了五组实验:实验一:概率矩阵分解正则化参数λ值的确定,以RMSE为评价指标,结果表明λ=0.1时,RMSE最小,后续实验λ恒为0.1;实验二:概率矩阵分解的潜在特征数量确定,当迭代数量为50次,潜在特征数量为5;实验三:概率矩阵分解融合不同的聚类算法,比较不同聚类数量产生的结果,以MAE作为评价指标,确定最优聚类数量;实验四:比较了概率矩阵分解融合聚类算法的RMSE数值,分别是融合谱聚类算法和K-Means算法与传统协同过滤推荐算法相比较,结果表明融合谱聚类算法的RMSE值最低,表明融合谱聚类算法的效果最好,能有效的改善冷启动问题;实验五:基于上面四个实验参数的确定,输出不同近邻数下的预测评分,与基于传统的协同过滤推荐算法、未聚类的概率矩阵分解(PMF)的协同过滤和本文改进的算法(PMF_SC)进行比较,以RMSE和MAE作为评价指标,结果表明:本文所提出的算法相比于协同过滤算法和概率矩阵分解在MAE和RMSE上有所降低,说明该算法在预测的准确率有一定提升,具有一定的参考意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/47742.html