多源知识图谱无监督融合关键技术研究
这是一篇关于知识图谱融合,实体对齐,实体消歧,翻译模型,聚类的论文, 主要内容为近年来,知识图谱得到了广泛应用。随着不同机构组织或个人,根据自己的需求和设计理念不断创建相应知识图谱,不同知识图谱之间的融合日益重要。目前,绝大多数的知识图谱融合方法都是有监督的。有监督虽然能获得较好融合结果,但是存在对训练数据要求高、算法实时率低等问题。在以军事为例的某些特殊领域中,存在训练数据稀缺,算法实时性要求高等特点,无法应用有监督的融合方法,所以本文针对无监督条件下的知识图谱融合问题,研究了实体对齐和实体消歧技术,具体工作如下:1.设计了算法ST(Sim Rank+Trans H),通过集成相似度计算模型Sim Rank和翻译模型Trans H,提高了无监督条件下的模型查全率(Recall)。首先,ST利用Sim Rank算法,计算任意两点间的邻域相似度。然后,基于Trans H模型,将知识图谱嵌入到向量空间,并计算任意两点间距离。只有在两个节点邻域高度相似,且在向量空间中距离相近时,ST算法才对其进行融合。实验结果表明,在无监督条件下,ST算法较单个模型而言,显著提高了查全率(Recall)及综合评价指标F1分数,减少了对非重复节点的错误合并。2.设计了算法TPK(Trans H+PCA+K-means),通过主成分分析法PCA提取Trans H模型向量化结果,提高了K-means聚类结果的轮廓系数及兰德系数指标。首先,TPK利用Trans H模型,将知识图谱嵌入到向量空间,得到节点及边的向量化结果。然后,通过PCA提取图谱节点及边向量的主成分。最后,根据节点及边向量的主成分结果,使用K-means聚类算法进行聚类消歧。实验结果表明,在同等聚类中心规模下,提高了轮廓系数及兰德系数指标。3.设计了图谱节点聚类中心数的优化指标SRindex,通过优化SRindex,可确定实体节点的最优聚类个数,减少了消歧结果中的误判。首先,在不同的中心数目下,本文计算聚类结果的轮廓系数和兰德系数,并计算两者的和SRindex。本文以SRindex为优化目标,通过贪心算法最大化SRindex,从两个聚类中心开始,不断增加聚类中心数目,直至SRindex达到拐点,以此确定最佳的聚类中心数目。实验结果表明,通过SRindex确定节点的最优聚类个数,可减少消歧结果中的误判。4.研究了一种向量迁移方法,可基于向量化图谱反推其他图谱的节点及边向量,有效降低了知识图谱向量化中的时间开销。首先,本文使用Trans H模型对其中一个知识图谱进行向量化。然后,根据前件向量加关系向量等于后件向量的规则,通过向量相减运算,从已向量化的图谱反推其他图谱的节点及边向量。该方法可以大幅降低知识图谱融合中的向量化时间。最后,本文设计并实现了无监督条件下,针对多源知识图谱融合的原型系统,依托开源资料所构建的态势图谱进行了验证,结果表明,本文所提方法在多源知识图谱融合中是可靠且高效的,并且在“基于知识的战场态势分析与辅助决策技术”项目中得到了应用。
基于模糊聚类与严格匹配的云资源分配策略
这是一篇关于云计算,资源匹配,聚类,满意度的论文, 主要内容为云计算是大数据爆发的移动互联网时代的一种核心技术。作为其关键技术的资源调度管理策略成为了行业研究热点,然而由于云用户追求服务的个性化和服务提供商追求收益的问题,现有的策略难以两者兼顾,导致资源调度效率和综合满意度都不高。因此,对用户的需求进行聚类分析,综合考虑用户需求偏好与资源执行偏好,是提高资源分配效率与服务满意度的有效途径。通过对现有资源匹配策略进行研究,本文取得的研究成果主要包括:1.针对资源分配效率低下问题,本文依据特定类型资源适合处理同类型任务的特征,通过对任务需求和与资源属性聚类,将资源检索的范围缩小到同类型的集合之间,提出了用户任务与云资源双边聚类模型。经过大量的数值示例验证了模型的正确性和有效性。2.针对当前资源匹配双方的综合满意度不高的问题,本文首先根据双方偏好对同类型集合中的待匹配对象进行偏好排序,然后建立双方满意度函数以及设立最多参考匹配对象数从而得到双方的最低满意度标准,融合并优化双方满意度目标函数,提出了任务资源严格匹配策略。该策略通过提取任务需求偏好与资源执行偏好,保证了在满足最低满意度标准下资源匹配双方较高的综合满意度。最后,本文采用Spring MVC框架设计并实现了资源匹配系统,对本文提出的两个模型进行了显性验证,为云服务系统的资源调度策略提出了一种新的解决方案。
基于数据挖掘的电子商务内容推荐系统研究
这是一篇关于电子商务,推荐系统,协同过滤,聚类,关联分析的论文, 主要内容为随着电子商务的发展,个性的内容推荐系统对电子商务网站来说尤为重要。本文首先介绍了电子商务个性化内容推荐的相关概念,以及国内外研究现状,分析与研究了各种推荐算法及其优缺点,针对传统协同过滤方法存在的数据稀疏,冷开始及奇异发现的问题,提出了基于数据挖掘方法的相应改进思路。 针对数据稀疏问题使用了用户评分矩阵,将隐式数据转化为显示数据;对于冷启动问题设计了基于聚类的协同过滤推荐方法,并对k-means聚类算法依赖初始K值进行了选取方法的改进,引入了平均用户相似度,根据用户的内在联系实现自动划分聚类,并对改进的算法进行了详细描述;针对奇异发现的问题,本文引入了关联分析的方法,利用关联规则通过从数据集中识别频繁项集,然后再利用这些规则去创建描述商品关联关系的过程,实现了跨类别的推荐。 最后对电子商务推荐系统的整体框架和个性化内容的推荐模块进行了详细设计。并将整个研究内容运用到实际的电子商务系统下,对网站实际浏览量和购买量进行综合评估测试,结果表明,改进后协同过滤算法有效解决了传统算法所存在的问题,提高了网站整体的浏览量和购买量,进一步证实本课题研究内容运用到电子商务网站中的具有实际意义。
基于用户画像的农产品电商个性化推荐方法研究
这是一篇关于知识图谱,聚类,用户画像,协同过滤,农产品推荐的论文, 主要内容为随着中国各大农产品电商平台的发展,生成了大量的用户和农产品信息,出现了“信息超载”现象,造成用户浏览到感兴趣的农产品愈发困难,并且不能及时、有效地购买到满足自身需求的农产品。因此,对消费者与电商平台交互时产生的消费行为等信息进行进一步挖掘,通过构建群组动态用户画像预测用户的兴趣偏好,并通过个性化推荐系统解决“信息超载”问题。本文研究农产品用户画像主要包括基本信息子画像、行为子画像和农产品领域知识子画像三个部分,研究用户画像更新技术,并通过改进一种核模糊C均值聚类算法,构建基于农产品领域知识图谱的群组动态用户画像,进一步结合动态画像技术,研究农产品电商个性化推荐方法,最终将用户真正感兴趣地农产品,通过电商平台系统推送给消费者,主要研究了以下内容:(1)群组动态用户画像研究。本文从用户需求的角度出发,建立农产品领域知识图谱,通过分析消费者在电商平台产生的历史信息,并结合数据挖掘等手段产生用户标签,进一步,研究时间序列和用户画像结合技术,实现动态更新用户画像。并采用近邻传播(affinity propagation,简称AP)算法改进一种基于核函数的模糊核C-均值算法(FKCM)对用户画像进行聚类。基于以上研究,构建基于农产品领域知识图谱的群组动态用户画像模型,为验证模型的有效性和可行性,对比了传统算法得到的群组用户画像,并设计用户画像用于推荐上的性能实验,实验表明,本文构建的群组用户画像在准确率以及召回率上都有所改善与提升。(2)农产品个性化推荐方法研究。基于本文数据在协同过滤推荐算法(CF)计算上的问题,针对用户打分习惯等原因,从而导致相似度计算误差较大等问题,本文在余弦相似度计算公式的基础上,减去用户的平均评分,并融入加权评分的方式用于协同过滤推荐计算,并结合用户画像技术,分析用户历史数据,从中提取出用户兴趣标签信息,从而,改进一种基于动态用户画像与协同过滤(DUCF)融合的推荐算法,实验与传统推荐算法(CF、UCF)对比,整体性能上有所提升。(3)基于动态用户画像与协同过滤(DUCF)推荐算法的农产品个性化推荐系统设计与实现。通过对系统的功能分析和数据库设计,基于Django框架设计并研发了基于DUCF的农产品个性化推荐功能模块,同时本文推荐系统实现了完整的浏览、收藏、购买、加购物车等功能,为用户提供了流畅的购物体验。
协同过滤推荐系统中虚拟信息核的构建与优化
这是一篇关于推荐系统,协同过滤,虚拟用户,虚拟信息核,聚类,进化算法,多臂赌博机的论文, 主要内容为推荐系统是一种信息过滤系统,它通过分析用户的历史行为数据,帮助用户过滤掉海量数据中的垃圾信息,并为用户推荐合适的物品。协同过滤算法是推荐系统中应用最广泛的算法之一,它通过分析邻居用户的偏好信息来预测用户对物品的未知评分。但随着数据规模的增大,该算法也暴露出一些典型问题,如数据稀疏、可扩展性问题等。为了缓解上述问题,基于信息核的协同过滤算法被提出,其中信息核是通过消除一些潜在的噪声用户而获得的具有更多有用信息的一组真实用户。然而,由于丢失了用户的信息,由真实用户组成的信息核获得的推荐精度通常偏低。为克服这一缺点,本文提出了几种基于虚拟用户组成的虚拟信息核的推荐方法,在获取更高的推荐精度的同时,进一步缓解了可扩展性问题。本文主要从两方面出发:第一是构建出包含推荐信息更丰富的虚拟用户;第二是选取部分虚拟用户组成虚拟信息核,以更少的用户实现更好的推荐效果。具体包括以下内容:(1)提出了一种基于聚类及进化算法的虚拟信息核优化。首先,通过t-SNE算法将评分矩阵降维,获取用户的低维矩阵。然后,为了让用户信息被充分利用,基于用户的低维矩阵将用户多次重复聚类。最后,将聚类中心组成虚拟用户集,并基于进化算法从用户集中选取虚拟信息核。在计算适应度函数值时,通过构建规模更小的训练集和验证集来降低适应度评价代价并加快算法效率。实验结果表明本方法具有出色的推荐效果。(2)提出了一种基于聚类及多臂赌博机的虚拟信息核构建方法。该方法是在第一个方法基础上的改进,主要研究动机是提高虚拟信息核的选取效率。首先,基于已经获得的虚拟用户集,提出了利用多赌博赌博机选取虚拟信息核,通过ε-greedy算法实现赌博机的利用与探索过程,并重新定义了赌博机的奖赏机制,减轻了噪声反馈结果的影响。然后,根据评分预测偏差来更新每个臂的奖赏信息,从而获得虚拟用户的信任值。最后,利用信任值较大的一些虚拟用户组成虚拟信息核。实验结果充分说明了本方法选取出的虚拟信息核的推荐精度更高,且选取效率有了明显的提高。(3)提出了一种基于用户相似度及多臂赌博机的推荐方法。该方法是对第二个方法在构建时间和推荐精度上继续改进。首先,利用多臂赌博机从真实用户集中选取部分用户作为初始用户,并将其作为初始聚类中心。然后,根据与初始用户的相似度,将剩余用户重复分配至最相似的多个集群中。其次,更新每个集群的聚类中心,并将新的聚类中心组成虚拟用户集。最后,再次利用多臂赌博机选取虚拟用户组成虚拟信息核。实验结果表明本方法极大地缩短了构建虚拟用户的时间,提高了算法的效率,并且在推荐精度方面,本方法构建的虚拟用户取得了令人满意的结果。
基于矩阵分解和聚类的混合推荐算法研究
这是一篇关于矩阵分解,聚类,协同过滤,推荐算法,KL散度相似度的论文, 主要内容为近年来随着互联网的普及和应用,网络上的信息量呈现井喷式增长,推荐系统成为解决信息过载问题的一种重要方式。推荐算法是推荐系统的核心,决定着最终的推荐效果。基于矩阵分解的推荐算法和基于内存的协同过滤推荐算法作为经典的推荐算法被广泛应用于各种推荐系统。但是基于矩阵分解的推荐算法存在着数据来源单一及数据稀疏性等问题,基于内存的协同过滤推荐算法存在实时性不强、评分预测准确性偏低以及相似度计算模型完全依赖共同评分用户等问题,影响推荐效果。为了解决以上问题,本文做出了以下研究:(1)提出一种基于SVD++和用户聚类的协同过滤算法。首先引入用户属性信息增加数据来源,并使用K-Means对向量化表示的用户属性进行用户聚类减少用户相似度计算次数,解决了基于矩阵分解模型的SVD++算法数据源单一问题;然后在用户相似度计算模型中加入时间权重因子获取目标用户随时间变化的相似近邻用户,提高了整个算法的实时性;最后将相似近邻应用到偏差调整项,使用偏差调整项为SVD++模型产生的初次预测评分进行二次预测,得到最终预测结果。经过实验对比,本文提出的基于SVD++和用户聚类的协同过滤算法的预测误差低于SVD++模型和基于用户的协同过滤算法,具有较高的评分预测准确性。(2)提出一种基于SVD和项目聚类的协同过滤算法。首先使用SVD矩阵分解模型将用户项目评分矩阵进行降维处理,提取项目特征向量,并使用K-Means聚类将项目特征向量进行聚类划分,有效解决了数据稀疏性问题;然后提出一种改进的基于KL散度的项目相似度计算方法,该方法根据项目评分的概率分布计算项目间相似性,同时加入热门项目惩罚因子,避免了出现热门项目频繁被推荐的情况,解决了项目相似度计算方法过分依赖共同评价用户的问题;最后结合Pearson相似度和改进的基于KL散度相似度的项目相似度计算方法获取近邻项目,并产生推荐,兼顾了项目评分概率分布和共同评价用户的影响。经过实验对比,本文提出的基于SVD和项目聚类的协同过滤算法一定程度上解决了数据稀疏性问题,具有较高的推荐准确性和有效性。
基于用户活跃度的新闻推荐算法研究
这是一篇关于新闻推荐,协同过滤,多层感知机,数据降维,聚类的论文, 主要内容为随着信息技术的普及,各大新闻网站每天的新闻资源骤增,为了改善“信息过载”问题,学者们对新闻推荐一课题展开了广泛研究。现有的技术手段多为先提取新闻的特征,然后分析用户的兴趣偏好,从而根据两者的匹配程度进行推荐。值得注意的是,实际生活中的新闻包含的信息形式多种多样,除了文本外还夹杂着图片、视频、链接等内容,这些信息的异构性导致难以在统一的框架中利用这些信息,提取新闻特征的推荐系统变得过于复杂,而单是提取文本特征又不足以全面的刻画新闻。针对上述问题,本文从实际应用角度出发,对新闻推荐进行了研究,主要研究内容如下:不同领域新闻的受众群体呈现不同特性。与其他领域新闻不同的是,关注体育新闻的用户群体会密切关注正在进行的赛事或相关体育新闻,在新闻报导刚刚出现或更新的时候积极提交反馈表达自己观点。针对这类用户反馈行为的时间特征本文使用基于用户的协同过滤推荐算法完成此类新闻推荐。同时使用Scrapy根据应用场景需求编写爬虫采集了虎扑网站上的新闻数据,基于真实新闻数据集进行了仿真,评测了精确率、召回率和F1值。通过在真实新闻数据集上的仿真发现,常用的几种相似度计算方法存在一定弊端,本文提出了结合用户活跃度的相似度计算方法,通过三种方式来计算用户活跃度,并使用基于用户活跃度的协同过滤推荐算法在真实新闻数据集上对新闻推荐的精确率、召回率和F1值进行了计算,并用基于用户的协同过滤推荐作为基线算法进行了对比,结果表明基于用户活跃度的协同过滤推荐算法大幅优于基线算法,具有一定实用价值。基于用户的协同过滤推荐适用于用户兴趣偏好相对稳定的应用场景,而如果考虑到用户兴趣偏好随时间不断偏移的情况时,该方法就存在一定局限性,为此本文提出了基于多层感知机的用户行为多分类的新闻推荐算法,新算法通过对积极反馈的用户行为分类而不是通过计算相似度来挖掘用户潜在关联,将新闻推送给同一类别中的活跃用户进而实现新闻推荐。同样在真实新闻数据集上进行了仿真,分析了新闻推荐的精确率、召回率和F1值,结果表明各项指标与前述算法性能相当,但所用时间与存储空间大幅减少。针对小规模新闻数据集训练多层感知机时可以采用人工标注的方式生成训练集和测试集,但在真实应用场景下,新闻数据集体量大,导致人工标注耗时耗力,为此本文探索实现了机器标注方式来提高效率。分别使用均匀流型近似与投影算法和t分布的随机邻域嵌入算法对数据进行降维再分别使用K均值聚类算法和标签传播算法进行标注来生成训练集和测试集。使用上述两种标注方式训练得到的多层感知机实现新闻推荐,并在真实新闻数据集上对精确率、召回率和F1值进行了评测,结果表明推荐效果略低于人工标注,但标注效率大幅提高。
在线学习路径推荐算法研究
这是一篇关于在线学习,长短期记忆网络,学习路径推荐,聚类的论文, 主要内容为“互联网+教育”正不断变革在线教育的教学模式,个性化学习被认为是未来教育的一种重要学习方式。但由于互联网中各种学习资源同质化与优质资源的供给不足并存的现象,导致学习者在学习过程中面临着选择什么样的资源进行学习以获得最佳效果等问题,有必要研究适合不同学习者自我调节的适应性学习策略,以根据学习者的学习特征与偏好推荐合适的学习资源,进而满足学习者的个性化学习需求,这些已成为当前在线学习领域研究的热点问题。论文以大规模在线学习环境为背景,构建学习路径模型和学习者模型,并利用长短期记忆网络(LSTM)构建一种新颖学习路径推荐方法,为学生在线个性化学习提供导航,以帮助其提高学习效率。主要工作主要包括两个方面:提出了基于聚类的学习路径生成算法(Clustering-based learning path generation algorithm)。该方法基于学习者的基本特征计算学习者之间的相似度,将相似度较高的学习者划分到同一个聚类簇中,然后在同一个簇里寻找与目标用户相似的学习者的学习路径,根据聚类结果生成目标用户的推荐学习路径。该方法通过对学习者和学习路径进行初始推荐,可进一步为LSTM训练提供输入。提出了基于长短期记忆网络的学习路径推荐改进算法(Learning path recommendation based on Long Short-Term Memory Network)。该方法通过训练一个扩展的长短期记忆网络模型,将最近的学习路径推荐给学习者并利用该模型预测学习者的学习效果,根据预测结果选择合适的学习路径推荐给学习者。实验结果表明,所提出的模型与其他传统推荐模型相比较具有更好的适配性和准确性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://m.bishedaima.com/lunwen/46280.html