基于概率图模型的事件推荐系统研究
这是一篇关于推荐系统,信息过载,稀疏矩阵,概率图模型,概率矩阵分解的论文, 主要内容为近几年网上购物成为主要消费手段,用户量和消费产品不断增多,导致互联网信息不断过载。用户如何在不断增加的信息库中挑选出自己有用信息,成为如今需要研究的重点。推荐系统在研究中承担着重要的职责,在人们身边很多领域都发挥着重要的作用,从最初的电商物品推荐不断发展成对新闻、短视频、事件、活动等各领域推荐。随着推荐系统在事件活动推荐中应用广泛,信息过载和评分数据稀疏等问题能给用户的推荐准确性带来很多问题。针对这些问题,本文将在传统的推荐系统模型算法基础上进行改进,提出基于概率图模型的事件推荐系统算法,在数据集上验证其推荐效果相比较传统算法有了很大的提升,最后将基于概率图模型算法应用到一个校园活动推荐系统设计中,表现出很好的应用价值。主要工作如下:(1)由于传统矩阵分解算法存在冷启动、数据稀疏性和预测时间复杂度高等问题,导致推荐准确性下降,提出基于隐式反馈和基准偏好的标准化矩阵分解优化算法。该算法将优先对数据集预处理、用户和项目的评分矩阵同时引入Batch Norm稀疏矩阵算法来训练归一化处理参数,加快收敛速度,提高训练的稳定性。同时,增加项目约束偏置,更能够显示用户的真实评分。最后,对用户矩阵加入隐式反馈信息,构建基于隐式反馈和基准偏好的标准化矩阵分解模型,对用户的评分矩阵进行预测。实验结果表明,该优化算法能更好地解决矩阵分解中的冷启动和数据稀疏问题,在预测精度上比传统的矩阵分解算法具有很大的优势。(2)由于一些特定用户不喜欢对消费后的物品,进行评分造成的数据稀疏问题。导致传统推荐模型的参照数据较少,不能给出准确推荐信息,提出基于特定用户约束的概率矩阵分解算法。该算法针对特定的评分稀疏用户引入一种潜在相似度约束矩阵来影响用户的特征向量,并结合最大后验概率估计和蒙特卡罗采样推断进行概率矩阵分解,自动调整模型正则化参数,最后在数据集上进行测试评估和对比实验。实验结果表明,该算法在预测性能上得到很大提升,并且在解决特定用户的评分稀疏问题上可以准确预测用户喜好。(3)利用基于隐式反馈和基准偏好的标准化矩阵分解模型和基于特定用户约束的概率矩阵分解模型优点,将模型应用到实际生活中,设计并实现一个校园活动推荐系统。该系统可以很好地向用户推荐感兴趣的活动,利用对用户参加过的活动,以及相似用户之间的关系,产生更有效的推荐结果,满足用户需求的同时增加了用户体验,最后对系统进行系统化的测试,保证系统的实用性和稳定性。
面向民机数字化设计的需求文档模型化技术研究
这是一篇关于膨胀门注意力网络,关系抽取,句法结构特征,概率图模型,知识图谱的论文, 主要内容为复杂系统跨学科跨领域的特性会导致需求分析过程费时费力,且存在歧义以及隐含需求获取不充分等问题,因此需要一种简单高效的自动化工具来对需求文档进行分析处理,构建专业领域知识图谱,帮助分析人员建立系统模型。然而在垂直细分的专业领域构建知识图谱面临诸多困难,实体关系抽取作为构建知识图谱的关键任务,对其研究与探索也变得尤为重要。针对专业领域实体关系类型复杂、标注语料库缺乏、提取困难等问题,本文深入研究当前关系抽取研究现状,对关系抽取的关键技术进行了探索,提出了一种构建专业领域知识图谱的方法,主要包括以下几个方面:(1)提出了一种基于中文句法结构特征和Bootstrapping方法的专业领域数据集构建方法以解决专业领域标注数据缺失问题。通过分析中文句法结构特征,构建相应的过滤规则、匹配规则、扩展规则,从文本数据中抽取出具有丰富实体关系类型的标注种子集合。然后再结合Bootstrapping方法,抽取出文本数据中具有该关系类型的更多实体对,以此构建高质量的标注数据集。(2)提出了一种基于概率图和膨胀门的中文实体关系抽取方法以解决专业领域实体关系复杂、关系重叠等问题。首先将构建的专业领域数据集作为原始语料输入,进行分字、分词等预处理;然后利用字词混合向量与位置向量结合的方式表示文本语义特征,输入到膨胀门注意力网络模型中进行训练;最后基于概率图的思想,先识别出主实体,再识别出子实体和实体关系。(3)进行了自对比实验以及与其他抽取模型的比较实验。自对比实验结果验证了模型各个模块对于关系抽取性能提升的影响;与其他抽取模型的对比实验验证了模型的有效性。最终利用抽取到的关系三元组构建民机数字化设计领域知识图谱,实现需求文档模型化。
面向民机数字化设计的需求文档模型化技术研究
这是一篇关于膨胀门注意力网络,关系抽取,句法结构特征,概率图模型,知识图谱的论文, 主要内容为复杂系统跨学科跨领域的特性会导致需求分析过程费时费力,且存在歧义以及隐含需求获取不充分等问题,因此需要一种简单高效的自动化工具来对需求文档进行分析处理,构建专业领域知识图谱,帮助分析人员建立系统模型。然而在垂直细分的专业领域构建知识图谱面临诸多困难,实体关系抽取作为构建知识图谱的关键任务,对其研究与探索也变得尤为重要。针对专业领域实体关系类型复杂、标注语料库缺乏、提取困难等问题,本文深入研究当前关系抽取研究现状,对关系抽取的关键技术进行了探索,提出了一种构建专业领域知识图谱的方法,主要包括以下几个方面:(1)提出了一种基于中文句法结构特征和Bootstrapping方法的专业领域数据集构建方法以解决专业领域标注数据缺失问题。通过分析中文句法结构特征,构建相应的过滤规则、匹配规则、扩展规则,从文本数据中抽取出具有丰富实体关系类型的标注种子集合。然后再结合Bootstrapping方法,抽取出文本数据中具有该关系类型的更多实体对,以此构建高质量的标注数据集。(2)提出了一种基于概率图和膨胀门的中文实体关系抽取方法以解决专业领域实体关系复杂、关系重叠等问题。首先将构建的专业领域数据集作为原始语料输入,进行分字、分词等预处理;然后利用字词混合向量与位置向量结合的方式表示文本语义特征,输入到膨胀门注意力网络模型中进行训练;最后基于概率图的思想,先识别出主实体,再识别出子实体和实体关系。(3)进行了自对比实验以及与其他抽取模型的比较实验。自对比实验结果验证了模型各个模块对于关系抽取性能提升的影响;与其他抽取模型的对比实验验证了模型的有效性。最终利用抽取到的关系三元组构建民机数字化设计领域知识图谱,实现需求文档模型化。
面向民机数字化设计的需求文档模型化技术研究
这是一篇关于膨胀门注意力网络,关系抽取,句法结构特征,概率图模型,知识图谱的论文, 主要内容为复杂系统跨学科跨领域的特性会导致需求分析过程费时费力,且存在歧义以及隐含需求获取不充分等问题,因此需要一种简单高效的自动化工具来对需求文档进行分析处理,构建专业领域知识图谱,帮助分析人员建立系统模型。然而在垂直细分的专业领域构建知识图谱面临诸多困难,实体关系抽取作为构建知识图谱的关键任务,对其研究与探索也变得尤为重要。针对专业领域实体关系类型复杂、标注语料库缺乏、提取困难等问题,本文深入研究当前关系抽取研究现状,对关系抽取的关键技术进行了探索,提出了一种构建专业领域知识图谱的方法,主要包括以下几个方面:(1)提出了一种基于中文句法结构特征和Bootstrapping方法的专业领域数据集构建方法以解决专业领域标注数据缺失问题。通过分析中文句法结构特征,构建相应的过滤规则、匹配规则、扩展规则,从文本数据中抽取出具有丰富实体关系类型的标注种子集合。然后再结合Bootstrapping方法,抽取出文本数据中具有该关系类型的更多实体对,以此构建高质量的标注数据集。(2)提出了一种基于概率图和膨胀门的中文实体关系抽取方法以解决专业领域实体关系复杂、关系重叠等问题。首先将构建的专业领域数据集作为原始语料输入,进行分字、分词等预处理;然后利用字词混合向量与位置向量结合的方式表示文本语义特征,输入到膨胀门注意力网络模型中进行训练;最后基于概率图的思想,先识别出主实体,再识别出子实体和实体关系。(3)进行了自对比实验以及与其他抽取模型的比较实验。自对比实验结果验证了模型各个模块对于关系抽取性能提升的影响;与其他抽取模型的对比实验验证了模型的有效性。最终利用抽取到的关系三元组构建民机数字化设计领域知识图谱,实现需求文档模型化。
基于概率图模型的个性化推荐算法研究与并行实现
这是一篇关于概率图模型,吉布斯采样,变分自编码器,协同过滤,期望最大化算法的论文, 主要内容为随着互联网的高速发展,很多电子商务平台逐渐兴起并提高了大众生活质量,但随着数据规模的爆炸式增长,正在使用推荐系统的互联网平台(如阿里巴巴、Paper Weekly等)面临着严重的信息过载问题,无法针对用户特点做有效的个性化推荐。由于传统推荐算法的模型表达能力不够强,而概率图模型同时具有概率论和图论的优势,故可使用概率图模型对推荐问题中各变量之间的依赖关系提供解释性更强的建模,但很多基于概率图模型的推荐算法在求解参数时仅使用朴素的零均值球形高斯先验分布,无法实现迭代式参数求解,因而对已有商品(in-matrix)推荐效果较差;其次,很多推荐算法无法解决冷启动问题,即刚进入系统的新商品(out-of-matrix)会由于没有任何购买历史而很难将其推荐给任何用户;此外,有些推荐算法虽然融合了社会化信息以缓解评分矩阵稀疏度过高的问题,但并未考虑用户间的信任曝光因素;最后,推荐算法的时间复杂度往往很高,程序运行效率偏低。为了解决上述问题,本文主要针对曝光矩阵分解算法(Exposure Matrix Factorization,Expo MF)进行研究,提出了两个改进的算法,主要工作如下:(1)提出基于变分自编码器的混合推荐算法(Variational Autoencoder-based Hybrid Recommendation,VAHR)。在Expo MF算法的概率图模型的基础上,使用吉布斯采样做参数的推断,从而将某参数在前一次迭代中得到的完整条件分布作为其下一次迭代的先验分布,依靠先验分布与似然函数之间的共轭关系直接得出后验分布的解析解,以此实现迭代式的参数推断;使用最大后验概率-期望最大化算法实现迭代式的参数估计,并分析两种求解方式的异同;通过变分自编码器抽取用户曝光向量的隐特征并重构,以此预测各商品对于该用户的曝光概率;利用以上推断出的参数训练得到一个可提取商品隐特征的变分自编码器,以此解决新商品的推荐问题。实验表明,VAHR与其他同类型的算法相比,对于in-matrix和out-of-matrix问题都能有效地提高召回率。(2)提出基于曝光的社会化推荐算法(Exposure-Based Social Recommendation,EBSR)。在VAHR算法的基础上融合社会化标签和社交信任关系两类社会化信息来提取用户和商品的隐特征,以缓解矩阵稀疏度问题;考虑到社交信任关系矩阵中的负反馈值可能受到用户之间信任曝光因素的影响,于是在使用用户-商品评分曝光隐变量的基础上进一步引入用户-用户信任曝光隐变量;在用户-商品评分及用户-用户信任关系两种观测变量的生成过程中引入校正偏置项,以实现可解释性更强的建模;最后使用吉布斯采样和最大后验概率-期望最大化算法迭代地求解参数,并分析两种求解方式的异同;考虑到EBSR算法中吉布斯采样的并行性,利用Java提供的并行框架Fork/Join优化算法的运行速度。通过在Last.fm以及爬取得到的知乎数据集上的实验表明,EBSR与同类型的算法相比能有效地提高评分预测精度,并通过并行实现可达到较高的加速比。
面向长尾实体的开放式知识丰富方法
这是一篇关于知识丰富,长尾实体,图神经网络,概率图模型的论文, 主要内容为语义网技术的不断演进和发展,推动了机器对Web数据的智能化理解,并催生了众多的知识图谱。知识图谱以符号化的形式描述现实世界中的实体及其相互关系,结构化地存储着大量描述实体事实的知识。时至今日,知识图谱已经成为各类以知识为驱动的人工智能应用的宝贵资源。现有大型开放知识图谱尽管体量很大,但它们被广泛认为是不完备的,本文研究发现这种不完备很大程度体现在长尾实体事实的缺失。为了提高知识图谱的完备性,研究者们从多个角度展开探索,很多相关工作被提出。然而,现有工作缺乏对长尾实体的关注,对于长尾实体知识丰富的表现十分有限。鉴于长尾实体当前在知识图谱中事实稀少,基于知识图谱嵌入技术的链接预测方法将很难学习到这些长尾实体的高质量嵌入。知识抽取的方法因为信息量不足,不能很好地处理错误或异常。其他方法则仅针对单一目标设计并实现,并非知识图谱自动丰富的完整解决方案。与已有方法对实体不加区分不同,本文针对性地关注知识图谱中长尾实体的知识丰富,并提出了一个完整的解决方案OKELE,旨在利用知识图谱中知识相对完备的流行实体以及Web上大量的开放数据来丰富长尾实体的知识。本文提出了一种属性预测模型,其有效结合了图神经网络和注意力机制,通过比较相似流行实体来预测长尾实体的缺失属性;本文探索了多种类型的Web数据的属性值抽取方法,并使用流行实体强化数据源检索和信息抽取;本文提出了一种基于共轭先验的概率图模型来评估数据源的可靠性,验证事实真值。实验结果表明,本文提出的解决方案有效适用于长尾实体的知识丰富,方法中的属性预测模型和真值验证模型在效果上均优于对比模型。
面向长尾实体的开放式知识丰富方法
这是一篇关于知识丰富,长尾实体,图神经网络,概率图模型的论文, 主要内容为语义网技术的不断演进和发展,推动了机器对Web数据的智能化理解,并催生了众多的知识图谱。知识图谱以符号化的形式描述现实世界中的实体及其相互关系,结构化地存储着大量描述实体事实的知识。时至今日,知识图谱已经成为各类以知识为驱动的人工智能应用的宝贵资源。现有大型开放知识图谱尽管体量很大,但它们被广泛认为是不完备的,本文研究发现这种不完备很大程度体现在长尾实体事实的缺失。为了提高知识图谱的完备性,研究者们从多个角度展开探索,很多相关工作被提出。然而,现有工作缺乏对长尾实体的关注,对于长尾实体知识丰富的表现十分有限。鉴于长尾实体当前在知识图谱中事实稀少,基于知识图谱嵌入技术的链接预测方法将很难学习到这些长尾实体的高质量嵌入。知识抽取的方法因为信息量不足,不能很好地处理错误或异常。其他方法则仅针对单一目标设计并实现,并非知识图谱自动丰富的完整解决方案。与已有方法对实体不加区分不同,本文针对性地关注知识图谱中长尾实体的知识丰富,并提出了一个完整的解决方案OKELE,旨在利用知识图谱中知识相对完备的流行实体以及Web上大量的开放数据来丰富长尾实体的知识。本文提出了一种属性预测模型,其有效结合了图神经网络和注意力机制,通过比较相似流行实体来预测长尾实体的缺失属性;本文探索了多种类型的Web数据的属性值抽取方法,并使用流行实体强化数据源检索和信息抽取;本文提出了一种基于共轭先验的概率图模型来评估数据源的可靠性,验证事实真值。实验结果表明,本文提出的解决方案有效适用于长尾实体的知识丰富,方法中的属性预测模型和真值验证模型在效果上均优于对比模型。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码驿站 ,原文地址:https://m.bishedaima.com/lunwen/49230.html