融合社区发现的混合推荐算法及其在音乐数据上的应用
这是一篇关于推荐系统,协同过滤,社交关系,项目属性特征,社区发现的论文, 主要内容为在大数据时代背景下,网络上的信息量呈爆炸式增长。丰富的信息资源为人们提供了诸多便利,同时产生的信息过载问题也增加了用户获取真正感兴趣信息的难度。为了解决用户的有限需求与海量数据之间的矛盾,推荐系统应运而生。其中协同过滤推荐算法作为应用最为广泛的推荐算法之一,凭借其优秀的推荐质量,获得了众多学者的青睐。传统的协同过滤推荐算法根据用户历史行为数据挖掘用户偏好,通过寻找与目标用户相似度较高的用户群体,计算目标用户对项目的预测评分。但在实际应用中,由于用户与项目数量的规模激增,数据的稀疏性问题、冷启动问题也随之暴露出来。本文则针对上述问题,对传统的协同过滤算法进行了深入研究,提出了一种融合社区发现的混合推荐算法,简称HRA-CD算法。本文的主要研究内容如下:1.传统的基于用户的协同过滤算法仅根据历史行为数据计算用户相似度,忽略了社交因素对推荐产生的影响,因此首先利用用户间好友关系,对用户-项目稀疏评分矩阵进行部分填充,一定程度上缓解了数据稀疏性造成的相似度计算偏差;其次,建立用户社交关系网络,通过简单的社交网络分析定义用户间社交关系强度,加入社交因素对传统的基于评分的用户相似度进行改进,提高了用户相似度计算的准确性,有效改善了推荐质量。2.针对传统的基于项目的协同过滤算法中类似的相似度计算问题,通过利用项目的基本属性特征,构建空间向量模型,定义项目的属性特征相似度并对传统的基于评分的项目相似度进行改进,一定程度上解决了项目的相似度计算问题与冷启动问题。3.传统的协同过滤算法仅使用相似度排序作为最近邻用户或项目的挑选依据,忽略了用户或项目相似度网络中的关系传递性。使用复杂网络中的社区发现算法对网络中联系紧密的节点进行社区划分,提出用户推荐群与项目相似群的计算方法,以此作为最近邻用户或项目的候选集合。融合以上改进,结合基于用户的协同过滤与基于项目的协同过滤进行混合推荐。4.在Last.fm与MSD两个音乐数据集上进行了对比实验,选取最优参数取值,与传统的协同过滤算法在常用的评估指标上进行对比,验证HRA-CD算法的有效性。5.以HRA-CD算法为核心,将其应用于音乐推荐中,使用SSM框架与MVP框架设计并实现一个线上音乐推荐系统。
电商在线评论的情感倾向性研究
这是一篇关于情感词典,情感分类,SO-PMI,社区发现的论文, 主要内容为伴随着互联网体量的快速扩张,互联网技术也在飞速发展,在给人们的生活带来便利的同时,也改变着人们的消费习惯。现今越来越多的人会在京东、淘宝等电商平台购物,也会在其上分享自己的使用体验或者通过他人的评价来决定购买与否。这些评论文本都包含着评论者的观点,分析消费者的评论,可以从中获知用户的消费态度、对产品的哪方面更为在意等,挖掘其中潜在的信息,可以帮助企业了解用户对某产品的态度和诉求,具有巨大的商业价值。本文主要研究为电商环境下用户评论文本的情感分析,以手机评论作为案例,使用情感分析方法来进行情感倾向的判断。主要研究内容总结如下:(1)对传统SO-PMI算法基准词选取方法的改进。SO-PMI算法是扩展情感词典的一种传统方法,本文在分析其原理后针对其缺陷,结合TF-IDF算法的特点与优点,提出了一种优化基准词选取的方法,初步地提高了传统SO-PMI算法对情感词典扩展的效果。(2)在改进的基础词选取方式的基础上,提出FU-PMI算法。改进的基准词选取方案一定程度上提高了情感词典扩展效果,但是还有其缺陷所在。本文针对这些问题,引入社区发现算法Fast Unfolding,结合SO-PMI算法以及Fast Unfolding算法的特点,提出FU-PMI算法来进行后续的情感词典扩展工作。(3)评论情感分类实验。首先选取京东商城作为数据来源,获得手机板块的数据,对其进行去重等处理后,基于评分对评论数据进行标注。之后基于情感词典对这些数据进行分类处理,得到实验数据。实验结果表明本文提出的方法相较于传统的SO-PMI有着更好的效果,并根据实验的结果分析了用户评论的特点,给出了相应的参考信息,对用户购物和商家改进产品提供了一定的指导意义。
基于社交网络中社区发现的信息推荐系统研究
这是一篇关于推荐算法,社交网络,知识图谱,矩阵分解,注意力机制,社区发现的论文, 主要内容为随着互联网规模的高速发展,网络上传播的信息数量急速增加,如何在规模庞大的信息中进行有偏好的信息检索成为了一个重要的研究课题。为了满足用户对于信息推送的需要,推荐算法应运而生。早期的推荐算法可以根据用户对项目的交互历史生成交互矩阵,并根据交互矩阵计算出满足用户偏好的推荐内容,这一方法也被大多数推荐模型沿用至今。但真实环境中用户与项目的交互矩阵极度稀疏,矩阵中的交互项普遍只占用所有潜在交互的1%至4%,并随着用户与项目数量的不断增加,这一稀疏性也会变得愈发严重。对基于交互矩阵来挖掘信息的推荐算法而言,矩阵的稀疏性严重限制了推荐系统的性能,由于算法依赖于交互矩阵的存在,系统冷启动会使得模型难以训练。除此以外,基于交互矩阵的推荐算法因为自身结构的限制对于数据的拟合能力过差,性能瓶颈明显。因此如何解决矩阵稀疏性和冷启动问题,增强模型对数据的拟合能力成为了提升推荐算法性能的重要方向。随着近些年机器学习模型的发展,将机器学习模型同推荐系统联系起来为解决上述问题提供了可能。考虑到交互矩阵的稀疏特点,本文加入社交网络作为训练信息的补充,提出了一种融合注意力社区聚合与矩阵分解技术的联合学习网络模型SNATMF,并在大量实验分析与验证中证明了模型性能的优势。模型主要工作如下:(1)根据项目知识图谱对应的三元组构造社交网络结构,提出了一种在图神经网络中进行社区内进行发现聚合的算法。这一算法可以对目标节点高维社区邻域内的信息进行聚合,以获得蕴含丰富语义信息的嵌入向量。这样的嵌入向量可以为推荐提供充分的信息补充,以缓解交互矩阵稀疏的影响。(2)受到注意力机制的启发,在社区聚合过程加入了双端注意力机制,分别在用户端与项目端对目标节点的社区邻域进行有偏聚合。注意力机制的加入使得发现过程能够更充分地考虑用户偏好以获得更全面的权重设置,提升聚合的嵌入效果。(3)在上述模块中加入矩阵分解模块进行联合学习,矩阵分解模块通过分解交互矩阵生成用户与项目的隐向量表示,并在联合学习阶段将其作为嵌入向量的补充,丰富模型的特征表达空间。这一方法能够预测用户对于未知项目的潜在交互评分,可以提高模型对于交互矩阵的利用率,进一步缓解交互矩阵稀疏对模型性能的影响。本文在Movielens-1m数据集上对所述模型进行了详细实验,通过与其他六个基准算法的对比实验,在CTR预估和Top-K预估两个方面证明了本文所提出模型的性能优势。同时,对于模型本身,本文通过对超参数的控制实验讨论了不同超参数对于模型的影响,并得出了最优的超参数组合。最后,本文对模型中的不同模块进行了消融实验,分析了不同模块对于模型性能的影响以及重要程度。
基于Spark的大规模复杂网络的社区发现算法的研究与改进
这是一篇关于复杂网络,社区发现,标签传播,算法同步化,Spark GraphX的论文, 主要内容为复杂网络是计算机学界比较经典的研究领域之一,研究者们将现实生活中的一些具体现象抽象为复杂网络,通过复杂网络的拓扑结构、节点或边包含的隐式或者显式的信息,来抽取出人们感兴趣并且能为社会带来巨大价值的信息。例如,通过人群接触的复杂网络确定某些传染病的传染源以及传播势头,利用知识图谱获取某一学科的发展趋势以及与其它学科的交叉情况等。在复杂网络领域中,社区发现是目前最基础、最广泛的研究。社区发现,是根据已有的知识将复杂网络划分为若干个子模块,一个模块成为一个社区,里面包含一些关系密切的节点与连接边。社区发现可以理解成一种基于复杂网络的无监督的聚类算法。随着模块度概念、谱聚类算法的提出,社区发现算法在21世纪初期迅猛发展,各种各样的社区发现算法被提出并得到论证。优秀的社区发现算法可以提高复杂网络社区划分的指标标准,从性能方面也可以提高发现效率,减少时间开销。但是随着大数据时代的降临,复杂网络的规模也是快速发展。在进行实际操作时,单机的计算能力无法满足人们的需求,即使进一步优化算法,在单机条件下也无法带来质的飞跃。因此,如果将计算交给大数据计算平台,就可以满足人们对规模巨大的复杂网络进行高效计算的需求。大数据时代产生了许多大数据计算框架平台,其中,Spark因为计算速度快,生态圈丰富,从而获得了大数据业内的广泛认可。并且,Spark计算平台拥有的相关图计算组件GraphX,可以帮助实现算法同步化。基于上述知识,本文提出基于Spark的大规模复杂网络的社区发现算法的研究与改进。本文首先对一个无权值的复杂网络进行加权预处理;其次选取经典的高效社区发现算法——标签传播算法,进行包括标签初始化、标签传播和标签更新策略、迭代收敛策略等多方面的优化工作,进而建立一个新的社区发现算法模型;然后,将算法接入Spark,通过GraphX编程实现算法同步化,并建立Spark实验平台;最后,通过经典的复杂网络数据和规模较大的复杂网络数据进行实验,与一些经典的社区发现算法进行对比,验证提出的算法是否有效,并且通过大规模复杂网络数据集来验证基于Spark GraphX平台确实大幅度提高了在复杂网络中进行社区发现的计算性能。
海量数据下的社区演化分析系统的研究与实现
这是一篇关于分布式技术,社区发现,时间序列网络,演化行为检测的论文, 主要内容为现如今,网络科学主要是研究来自不同应用和领域的复杂系统之间的共性问题及处理这些问题的普适方法。由于社会的进步,互联网信息时代的来临,复杂网络范围扩大,传统的依靠网络内存计算的社区发现技术早已无法满足这种繁杂的网络需求。为了应对这一挑战,采用并行化技术可以有效地处理海量数据,从而更好地实现社区发现。在本文研究的第一个关键算法中,首先提出了一个基于核心节点扩展的单机社区发现算法,算法通过计算网络中相邻节点之间的节点相似度筛选出网络中的核心节点,将核心节点作为基础计算出第一阶段的社区结构,并通过研究不同社区结构之间的相同节点进行社区的合并,最终计算得到最终的社区结构。本文提出了一种采用Hadoop平台的复杂网络分布式处理建模,它采用HDFS文件格式来初始化网络文件,并利用分布式数据库来储存和读写数据,同时还建立了多层次MapReduce数据处理模式,以实现更高效的网络管理。最后,将提出的单机社区发现算法与多阶段分布式处理模型相结合,提出了一个基于MapReduce的分布式社区发现算法。通过对比实验,本文提出的算法模型在社区发现方面表现出了良好的准确性和时间效率,而且通过改变MapReduce框架中任务数量也能够提高不同规模数据下网络的算法计算效率。另一方面,现如今生活中的网络更多呈现动态性,随着时间的发展而发展,静态网络分析错过了捕捉动态网络中演化行为的机会。检测社区的演变,可以深入了解网络的基本行为。在本文中,提出了一个检测动态网路中社区演化行为的框架,首先提出了一个新的社区匹配算法,能够追踪和识别一段时间内的相似社区,为他们建立关系,作为演化行为的基础。接着提出了一个基于节点数量与重要性的社区演化行为检测算法,通过考虑节点之间的关系与影响力,进一步分析动态网络的演化过程。本文将框架运用于多个真实的数据集来验证框架的能力和适用性,实验研究表明本文提出的算法能够准确地挖掘出更多动态网络中的社区演化行为,本文还同时研究了算法中参数对不同演化行为检测结果的影响,从而进一步提高算法的准确性。本文提出了一个新的社区发现与动态演化行为检测系统,它可以有效地处理海量数据,并且通过网页前端的方式提供给没有算法经验的研究者,使他们能够更加轻松地进行复杂网络的研究。这种系统不仅可以支撑社区发现和社区动态演化行为检测两个重要的应用,而且还可以协助研究者良好地理解和应用这些方法。本文旨在深入探讨该问题的研究背景和含义,并结合国内的研究状况和有关方法,从业务场景出发,对关键需求进行分析,提出有效的解决方案,最后介绍实验的整体流程。接下来,本文将介绍整个系统的设计和实现,并讨论如何部署和测试它。最后,将总结本文的所有工作,并对未来的研究进行展望。
城市公共交通系统乘客知识图谱的构建和挖掘研究
这是一篇关于公共交通,知识图谱,Neo4j,社区发现的论文, 主要内容为随着国内经济的高速发展,一线城市已经建立起了“地铁为骨干,公交为扩展,出租车(网约车)为补充”的现代城市公共交通系统。公共交通每天高速运转,服务着数以百万计的乘客。随着路网规模不断扩张、城市居民不断增加,车流人流密度不断变大,给相关管理部门带来了前所未有的压力。传统的信息化基础设施已经不能满足大规模城市公共交通场景的运营和安全管理的需求。如何利用已有的数据资源和大数据技术来支撑公共交通的精细化运营,提高公共交通的安全防护水平是从业者面临的首要问题。本研究以一个一线城市的地铁系统产生的海量多源异构数据为研究基础,使用相关大数据工具构建公共交通系统乘客知识图谱用来支撑公共交通安全管理。首先,根据已有的数据和应用需求设计出知识图谱的模式层和数据层;其次,使用大数据计算引擎Spark和相关算法计算乘客的时空特征、社交特征和电子特征,实现知识抽取;将构建好的知识图谱存储在图数据库Neo4j中;最后,在一个超大规模真实数据集上验证了该方法。实验结果表明,在有522万节点、2682万条关系的图数据库中查询两个节点间的最短路径时平均耗时0.042秒。该知识图谱能有效支撑公共交通安全场景下的应用查询,从而为公共交通领域的安全防控问题提供技术辅助。同时,本研究基于构建好的知识图谱,借助4个典型的社区发现算法对乘客群体进行社区划分,以多维的指标对这几个算法进行评估,并对社区划分结果进行分析,从而达到有效减少轨道交通警务活动中的前段探查、情报调查和人力资源成本的目的。
基于多维大数据分析的纪检监察研判关键技术研究与应用
这是一篇关于纪检监察大数据,知识图谱构建,知识推理,社区发现,知识图谱可视化的论文, 主要内容为纪检监察机关在“实施国家大数据战略”的号召下重塑治理生态。论文针对“大数据+纪检监察”模式下案件调查初核多维大数据在处理中存在的数据类型杂乱、不易管理与不易发现线索等问题,提出构建基于知识图谱的案件调查初核知识图谱,通过推理其隐式关系、分析与挖掘案件模式以及提供数据分析可视化系统,为案件调查人员提供有效初核线索,帮助调查。论文有如下几方面贡献:1.提出基于知识图谱构建技术处理多维案件调查初核大数据。在知识抽取过程中,将纪检监察相关信息部门获取的多类Excel表格数据进行抽取、融合并转换为三元组形式。在知识推理时,将自动推理机与根据办案人员以往案件调查经验抽象的自定义规则推理机相结合,克服了在自动推理图谱中隐性关系时存在的三元组推理不全面的问题,达到了有效扩充案件初核知识图谱的目的。2.提出基于规则的以及概率的方法进行案件初核调查系统的上层应用开发。通过使用异常信息提取方法对涉案人员进行分析、使用模式判断方法对犯罪模式(尤其是团伙模式)进行挖掘以及使用“知识图谱+社区发现”模式将涉案人员进行归类,达到为案件调查人员提供有效分类数据以及使案件调查更为便利的目标。3.设计并实现为案件调查人员提供的数据分析结果可视化系统,将分析后数据进行多角度可视化展示,例如从时间链路和空间链路的角度展示重要事件的时间信息以及涉案人员的行程信息等。系统根据特定的功能需求,通过使用相应的Cypher语句查询案件调查初核知识图谱后,将查询结果以图谱、数据两种形式在前端页面进行可视化展现,最终为办案人员提供合理且操作简单的可视化平台。论文通过分析纪检监察案件调查初核知识图谱的构建、挖掘与分析以及可视化的结果,表明基于知识图谱相关技术对多维纪检监察案件调查初核数据进行处理与分析可以挖掘其中隐含的关联信息、异常信息和团体信息,为案件调查人员提供有效线索,使案件调查更为便利。
复杂网络的社区发现算法研究
这是一篇关于复杂网络,社区发现,DRDPSO-net,模块度,多目标优化的论文, 主要内容为在大数据时代,需要亟待处理的数据形式日渐增多。在关系型数据中,可将个体抽象为节点,个体的联系映射为节点的边,组织成具有社区结构的复杂网络。在复杂网络中,处于某一个社区中的个体可能来自实际网络中具有相似特点或相同生活背景的社会团体。若能有效的挖掘网络中隐藏的社区结构,则可以寻找到社区内部与社区之间的重要信息。社区发现算法的本质则是用以揭示网络中存在的社区。实际场景中,如个性化推荐系统,流行疾病的传播都是在社区发现的基础之上实现的。因此,社区发现算法具有着重要的研究意义和广泛的应用前景,也是数据挖掘领域的热点研究内容之一。各种规模的网络中存在着异构性、复杂性,使得发现社区算法划分社区结构工作变的更具有挑战性。目前诸多社区发现算法已经被广泛地应用于挖掘网络社区问题,但其获取高质量社区结构与提高算法划分社区的准确度,一直是社区发现算法不断被研究和改进的方向。本文针对复杂网络社区发现,主要做了如下工作:(1)为得到高质量的社区结构,提出了一种离散的随机漂移粒子群优化模块度(DRDPSO-net)算法。在初始时,基于节点之间的邻居相似性获取粒子群体的初始值,使其发现潜在的社区结构。其次,为了能使传统的随机漂移粒子群算法能在网络数据中取得理想结果,重新定义粒子的离散更新公式。在局部搜索过程中贪婪地更新粒子的社区信息,改善局部网络结构逐渐增强全局模块度值。在不同规模大小的生成网络与真实网络中进行对比实验,表明了该算法的有效性。在不同的网络中能获得的社区结构更为理想。(2)基于DRDPSO-net社区发现算法的实验结果分析,优化最大模块度可能造成的分辨率限制问题,且算法在真实网络中划分准确率较低。为解决此问题,提出了一种多目标优化社区的mDRDPSO-net社区发现算法。通过核均值(KKM)和比率削减(RC)两个互相冲突的目标函数来控制网络中的社区规模、缓解模块度分辨率。另外,根据多目标求解策略逐步更新Pareto非劣解集,从Pareto非劣解集中可选取满足需求的目标社区结构。在各算法的对比之下,mDRDPSO-net社区发现算法可以进一步提高地网络社区划分的准确度。(3)对具有属性信息的复杂网络的社区发现进行分析,将上述的多目标优化框架基于拓扑与属性相似进一步探究社区的挖掘。通过实验结果表明,该方法也能有效地应用于Facebook-Ego网络上。
铁路调度系统的主机安全威胁检测技术研究
这是一篇关于网络安全,主机威胁检测,铁路调度系统,XGBoost,社区发现的论文, 主要内容为随着信息技术在人们生活与工业生产等领域的大量应用,计算机网络规模也随之不断地拓展,延伸到各行各业中去。在国家的基础行业中,铁路行业承载着人民出行,物流运输等巨大的基础性作用,其网络系统中也大量使用着信息化设备来执行整个铁路的调度、运行等业务。然而在信息技术蓬勃发展的同时,当前网络环境中的安全形势也变得复杂严峻,对网络造成了巨大的威胁。铁路行业因其关系着国计民生的基础性作用,其信息系统更易遭受有组织、目的性更强、隐匿性更高的网络威胁。检测铁路调度系统中的主机威胁将更具现实意义。现有威胁检测技术多以威胁指标或规则进行检测,对于“Living off the land”的威胁策略检测作用不再明显。关注于主机中的威胁行为,利用主机事件日志对行为的记录,找出行为之间的内在联系,从而发现其中的威胁模式,对于铁路调度系统的安全防护提供了新的思路。针对这种情况,本论文研究关注于铁路调度系统下终端主机的威胁检测技术。论文中包含的工作内容如下:1、设计了基于Sysmon事件日志的铁路调度系统主机安全威胁检测模型。利用Sysmon日志工具记录的事件行为日志,解析出日志实体,提取实体间关系特征。结合复杂网络图的理论,以日志实体做点集,关系特征为边集建立无向图;在此基础上使用集成学习XGBoost算法对图中边权重进行分配,最后应用社区发现Louvain算法,发现日志社区图中的恶意威胁社区。使用ATT&CK组织提供的威胁模拟数据集及实验室高铁仿真平台收集的日志数据进行验证。利用Python及相应的科学工具包实现上述模型及实验过程。2、基于Beats系列数据采集器、Logstash、Elasticsearch等开源工具设计并搭建了数据采集子系统及存储平台。负责从铁路调度系统业务终端主机中采集主机行为日志,通过Logstash的集中过滤融合存储到Elastic平台中。3、基于Spring Boot、Vue等框架设计并实现了Web服务子系统,作为系统与用户的交互窗口,为用户提供威胁实例管理、主机日志社区图展示与存储平台管理等功能。最后对系统进行功能性验证与测试,能够完成预期功能结果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://m.bishedaima.com/lunwen/48023.html