面向个性化推荐系统的多任务神经协同过滤模型
这是一篇关于推荐系统,协同过滤,矩阵分解,神经网络,多任务学习,嵌入表示的论文, 主要内容为随着互联网的快速发展与普及,网络中的信息量呈现爆炸式地增长,用户很难从海量数据中筛选出其感兴趣的内容,从而出现信息过载的问题。推荐系统是解决信息过载的重要工具,而协同过滤算法是推荐系统中研究与应用最为广泛的算法。近年来,推荐系统不断融入神经网络及深度学习的技术以提升推荐性能。基于神经网络的推荐算法具有更强的表征能力,可以从用户的行为记录中深度挖掘出用户偏好,并一定程度上缓解传统推荐算法的可扩展性问题。推荐系统中存在多种记录用户与物品历史交互的方式,不同方式的交互记录都包含了丰富且有价值的用户偏好信息。因此如何融合这些有效信息,进一步提升推荐系统的推荐性能,是推荐系统中一个有价值的研究课题。同时,推荐系统中用户与物品的数量往往十分庞大,在基于深度学习的推荐算法中,如何利用历史交互数据准确地对用户与物品进行嵌入表示,从而提升推荐模型的收敛速度与推荐准确度,成为了推荐系统领域的研究基础与热点。本文研究基于多任务神经协同过滤的推荐方法,同时探究对用户与物品进行嵌入表示的方法,提升模型的推荐性能。具体工作如下:(1)提出了一种深度融合显式及隐式评分的多任务神经协同过滤模型。显式评分与隐式评分是推荐系统中最常用的两类评分方式。显式评分是指用户对物品的具体评分,可以直观地表示用户对物品的喜爱程度。隐式评分是指用户与物品间是否存在交互行为的记录,可以全面地体现用户可能感兴趣的范围。本模型从网络结构与损失函数两个方面对两类评分信息进行深度融合。在模型的网络结构上,设计两个辅助任务分别学习用户-物品的显式评分特征与隐式评分特征,并将两个特征向量进行拼接输入主任务网络,经多层全连接网络非线性映射得到用户对物品评分的预测。在主任务的损失函数上,根据物品显式评分构建权重项,设计加权二分类交叉熵损失函数,从而将显式评分融入到二分类交叉熵损失函数中,这相当于在损失函数中加入注意力机制,使训练过程中推荐模型投入更多的注意力在高评分的记录上,因而使模型获得了更好推荐性能。(2)提出了一种基于User&Item2vec与深度融合显式及隐式评分的多任务协同过滤模型。本方法为了解决基于端到端深度推荐模型嵌入层在训练过程中参数多、计算开销大以及影响模型主体结构优化的问题,设计User&Item2vec模型首先提取用户与物品的嵌入向量表示,再将用户向量与物品向量输入至深度融合显式及隐式评分的多任务协同过滤模型进行评分预测。User&Item2vec方法根据用户与物品的历史交互记录进行建模,使用单隐层的网络结构快速训练并提取出用户与物品的向量表示。关于真实世界中三个不同规模的数据集的实验结果表明,基于User&Item2vec提取用户与物品的向量表示,并使用深度融合显式及隐式评分的多任务协同过滤模型进行推荐,可以获得更高质量的推荐结果。(3)提出了一种基于User&Item2vec与广义矩阵分解的多任务协同过滤模型。为了进一步提升推荐结果的准确性,在深度融合显式及隐式评分的多任务协同过滤模型的基础上,加入广义矩阵分解模块,使模型对输入特征兼具“泛化能力”与“记忆能力”。同时在模型参数初始化阶段,放弃随机初始化这种不包含先验信息的参数初始化方法,而是利用User&Item2vec提取出的特征向量对广义矩阵分解模块的嵌入层进行初始化,加快模型的收敛速度并提高推荐结果的准确性。实验结果表明,加入广义矩阵分解模块可以加强模型的记忆能力,同时利用先验信息对参数初始化,可以进一步提升推荐模型的性能。
基于预训练模型的分子知识图谱的构建研究与应用
这是一篇关于知识图谱,分子设计,预训练模型,深度学习,SMILES序列,嵌入表示的论文, 主要内容为知识图谱(Knowledge Graphs,KG)是谷歌公司在2012年提出的一种新技术。随着其相关应用产品的不断推出,这一技术也引起了产业界和学术界的广泛关注。近年来知识图谱相关技术逐渐成熟,很多研究者都在积极利用知识图谱技术来解决领域内的专业问题,垂直领域的知识图谱构建已经成为人工智能时代的一项很重要的研究课题。但目前仍有很多领域缺乏专业的知识图谱以供研究者以及开发人员们使用。经过文献调研我们发现,在化学领域中已经开发的分子知识图谱多数是以分子为实体节点,这使新分子设计、分子生成等基于原子组成的研究难以使用这些分子节点的知识图谱作为助力。基于原子节点的分子知识图谱对从头(De Novo)分子设计与生成的研究具有重要的价值,但原子实体的标记成为构建分子知识图谱的一个难题。原子实体的类型是由分子结构、元素种类、成键类别等很多因素决定,即使专业领域研究人员有时也难以准确识别出很多化学分子中的原子类型,并较为准确地定义原子的实体及进行提取和分类。另外,化学分子的结构复杂多样且化学分子数据量巨大,可见人工实体抽取的工作量耗费人力巨大,成本高昂。最近,深度学习算法的快速发展给分子知识图谱的构建提供了新的选择。深度学习方法是一种表示学习方法,运用深度学习方法获取得到原子实体的向量表示作为分子知识图谱的节点表示可以有效地解决实体抽取的难题。将原子实体的向量表示进行分类并将原子实体进行命名后,建立原子实体间的成键关系,即可以将它们构建成知识图谱。并且深度学习模型可采用无监督学习预训练的方式,可以省去大量数据标注的时间与人力,因此基于预训练模型的分子知识图谱构建,可以更加快捷和低成本地完成图谱的构建任务,并且使图谱的应用更加方便和具有通用性,可以为分子设计提供新的方案。基于以上思考本文进行了相关研究,具体内容如下:本文构建了以原子为实体节点的分子知识图谱,并进行了相关应用。首先通过预训练模型获得原子的向量表示,再通过实体聚类实现实体命名以获得原子节点实体表示,用以构建分子知识图谱;本研究将分子知识图谱用于分子设计及性质预测等应用以展示图谱的用途和初步检测图谱的质量。主要包括以下工作内容:第一,本文突破了传统方法,基于无标注的分子数据SMILES序列和深度学习预训练模型进行分子数据中原子实体的提取,并实现基于原子实体的分子知识图谱构建。首先,分子的SMILES序列经RDKit预处理可以得到分子内的各种化学性质和结构等信息,将这些特征输入到预训练模型(Chem BERTa,图网络预训练)获得原子的嵌入表示;然后,使用RDKit根据不同原子的相邻原子种类进行实体预分类,确定实体的结构,以提高抽取的实体可解释性。计算分类好的原子向量之间的余弦相似度,设置相同实体的相似度阈值以进行实体融合,融合后每一类中原子向量平均后可以作为分子知识图谱的一个实体,其代表了一种特定环境的原子。同时,使用开源包RDKit获取原子间的化学键作为连接实体之间的关系形成组成知识图谱的三元组{原子实体1-成键关系-原子实体2};最后,将知识图谱进行存储及可视化。第二,本文基于构建的分子知识图谱通过链接预测模型实现分子设计应用。本研究使用链接预测模型Interact E,并在基础模型上加载了编码器WGCN,使得链接预测模型在构建的三元组数据集上的结果有小幅度的提升,Hits@1、Hits@10、MRR的值分别是0.423、0.476、0.635。通过模型预测不同分子的成键的概率评分,总结出合理的分子结构的评分标准为0.5,即分子内所有成键关系的平均得分在0.5以上可说明该分子结构合理存在的可能性高,具有较大概率的可生成性。第三,本研究将分子知识图谱嵌入应用于分子性质预测任务,以检测原子表示的有效性。将分子知识图谱中的原子嵌入与原子的初始特征相加,在消息传递神经网络(MPNN)框架的基础上进行实验,原子特征加入分子知识图谱嵌入后的误差下降了15%。实验结果表明,分子知识图谱嵌入有效表示了与任务成正反馈关系的原子环境信息,有助于提高下游任务的质量。
基于预训练模型的分子知识图谱的构建研究与应用
这是一篇关于知识图谱,分子设计,预训练模型,深度学习,SMILES序列,嵌入表示的论文, 主要内容为知识图谱(Knowledge Graphs,KG)是谷歌公司在2012年提出的一种新技术。随着其相关应用产品的不断推出,这一技术也引起了产业界和学术界的广泛关注。近年来知识图谱相关技术逐渐成熟,很多研究者都在积极利用知识图谱技术来解决领域内的专业问题,垂直领域的知识图谱构建已经成为人工智能时代的一项很重要的研究课题。但目前仍有很多领域缺乏专业的知识图谱以供研究者以及开发人员们使用。经过文献调研我们发现,在化学领域中已经开发的分子知识图谱多数是以分子为实体节点,这使新分子设计、分子生成等基于原子组成的研究难以使用这些分子节点的知识图谱作为助力。基于原子节点的分子知识图谱对从头(De Novo)分子设计与生成的研究具有重要的价值,但原子实体的标记成为构建分子知识图谱的一个难题。原子实体的类型是由分子结构、元素种类、成键类别等很多因素决定,即使专业领域研究人员有时也难以准确识别出很多化学分子中的原子类型,并较为准确地定义原子的实体及进行提取和分类。另外,化学分子的结构复杂多样且化学分子数据量巨大,可见人工实体抽取的工作量耗费人力巨大,成本高昂。最近,深度学习算法的快速发展给分子知识图谱的构建提供了新的选择。深度学习方法是一种表示学习方法,运用深度学习方法获取得到原子实体的向量表示作为分子知识图谱的节点表示可以有效地解决实体抽取的难题。将原子实体的向量表示进行分类并将原子实体进行命名后,建立原子实体间的成键关系,即可以将它们构建成知识图谱。并且深度学习模型可采用无监督学习预训练的方式,可以省去大量数据标注的时间与人力,因此基于预训练模型的分子知识图谱构建,可以更加快捷和低成本地完成图谱的构建任务,并且使图谱的应用更加方便和具有通用性,可以为分子设计提供新的方案。基于以上思考本文进行了相关研究,具体内容如下:本文构建了以原子为实体节点的分子知识图谱,并进行了相关应用。首先通过预训练模型获得原子的向量表示,再通过实体聚类实现实体命名以获得原子节点实体表示,用以构建分子知识图谱;本研究将分子知识图谱用于分子设计及性质预测等应用以展示图谱的用途和初步检测图谱的质量。主要包括以下工作内容:第一,本文突破了传统方法,基于无标注的分子数据SMILES序列和深度学习预训练模型进行分子数据中原子实体的提取,并实现基于原子实体的分子知识图谱构建。首先,分子的SMILES序列经RDKit预处理可以得到分子内的各种化学性质和结构等信息,将这些特征输入到预训练模型(Chem BERTa,图网络预训练)获得原子的嵌入表示;然后,使用RDKit根据不同原子的相邻原子种类进行实体预分类,确定实体的结构,以提高抽取的实体可解释性。计算分类好的原子向量之间的余弦相似度,设置相同实体的相似度阈值以进行实体融合,融合后每一类中原子向量平均后可以作为分子知识图谱的一个实体,其代表了一种特定环境的原子。同时,使用开源包RDKit获取原子间的化学键作为连接实体之间的关系形成组成知识图谱的三元组{原子实体1-成键关系-原子实体2};最后,将知识图谱进行存储及可视化。第二,本文基于构建的分子知识图谱通过链接预测模型实现分子设计应用。本研究使用链接预测模型Interact E,并在基础模型上加载了编码器WGCN,使得链接预测模型在构建的三元组数据集上的结果有小幅度的提升,Hits@1、Hits@10、MRR的值分别是0.423、0.476、0.635。通过模型预测不同分子的成键的概率评分,总结出合理的分子结构的评分标准为0.5,即分子内所有成键关系的平均得分在0.5以上可说明该分子结构合理存在的可能性高,具有较大概率的可生成性。第三,本研究将分子知识图谱嵌入应用于分子性质预测任务,以检测原子表示的有效性。将分子知识图谱中的原子嵌入与原子的初始特征相加,在消息传递神经网络(MPNN)框架的基础上进行实验,原子特征加入分子知识图谱嵌入后的误差下降了15%。实验结果表明,分子知识图谱嵌入有效表示了与任务成正反馈关系的原子环境信息,有助于提高下游任务的质量。
基于时空信息的图神经网络推荐算法研究
这是一篇关于图神经网络,多头注意力机制,门控学习网络,序列推荐,嵌入表示的论文, 主要内容为推荐系统旨在为用户在大量过载的信息中筛选出与用户相匹配的信息,在真实生活中,这对用户与商家双方都意义重大。因图神经网络可以利用空间结构去发掘用户与项目之间的联系,所以其在推荐方向的研究中不断蓬勃发展。然而,以往的研究在建模用户序列的过程中,仍存在一些问题:(1)视野局限于在空间结构角度,忽略了时间信息在捕捉用户兴趣任务中的重要性。(2)随着用户序列长度随着时间变化而增长,如何在建模过程中充分考虑长期偏好的影响。为此,提出了基于时空信息的图神经网络推荐模型,主要研究工作及创新点如下:(1)设计了一种新的时空信息聚合算法TAP(Temporal and Positional aggregation algorithm)。它不是仅仅在图的空间结构上聚合邻居信息,而是从空间结构和用户与项目交互的时间顺序上同步聚合嵌入表示信息,进而在推荐中充分考虑时间信息,促进了原有的模型从空间到时空聚合的发展。TAP利用缩放点积注意捕获单跳邻居的时间顺序,并采用多头注意力机制对不同潜在子空间进行联合注意表示。最后,将TAP无差别地加入基于图神经网络的推荐,形成了新的模型TAP-GNN,用以学习用户和项目的嵌入表示。(2)提出了一个记忆增强的时空感知信息的推荐模型MTAP-GNN(Memory enhancement Temporal and Positional Graph Neural Network)。其加入了一个外部记忆网络,并且充分考虑了用户的短期偏好和长期记忆。为了有效融合用户多角度兴趣,在模型框架中引入了门控学习网络,自适应地结合这两种嵌入表示,用以学习用户与项目的嵌入表示。(3)在三个真实的数据集下进行实验,实验结果表明,TAP-GNN模型与MTAP-GNN模型在各自适应的领域下,相较于之前经典的推荐模型都有着出色的表现。
基于预训练模型的分子知识图谱的构建研究与应用
这是一篇关于知识图谱,分子设计,预训练模型,深度学习,SMILES序列,嵌入表示的论文, 主要内容为知识图谱(Knowledge Graphs,KG)是谷歌公司在2012年提出的一种新技术。随着其相关应用产品的不断推出,这一技术也引起了产业界和学术界的广泛关注。近年来知识图谱相关技术逐渐成熟,很多研究者都在积极利用知识图谱技术来解决领域内的专业问题,垂直领域的知识图谱构建已经成为人工智能时代的一项很重要的研究课题。但目前仍有很多领域缺乏专业的知识图谱以供研究者以及开发人员们使用。经过文献调研我们发现,在化学领域中已经开发的分子知识图谱多数是以分子为实体节点,这使新分子设计、分子生成等基于原子组成的研究难以使用这些分子节点的知识图谱作为助力。基于原子节点的分子知识图谱对从头(De Novo)分子设计与生成的研究具有重要的价值,但原子实体的标记成为构建分子知识图谱的一个难题。原子实体的类型是由分子结构、元素种类、成键类别等很多因素决定,即使专业领域研究人员有时也难以准确识别出很多化学分子中的原子类型,并较为准确地定义原子的实体及进行提取和分类。另外,化学分子的结构复杂多样且化学分子数据量巨大,可见人工实体抽取的工作量耗费人力巨大,成本高昂。最近,深度学习算法的快速发展给分子知识图谱的构建提供了新的选择。深度学习方法是一种表示学习方法,运用深度学习方法获取得到原子实体的向量表示作为分子知识图谱的节点表示可以有效地解决实体抽取的难题。将原子实体的向量表示进行分类并将原子实体进行命名后,建立原子实体间的成键关系,即可以将它们构建成知识图谱。并且深度学习模型可采用无监督学习预训练的方式,可以省去大量数据标注的时间与人力,因此基于预训练模型的分子知识图谱构建,可以更加快捷和低成本地完成图谱的构建任务,并且使图谱的应用更加方便和具有通用性,可以为分子设计提供新的方案。基于以上思考本文进行了相关研究,具体内容如下:本文构建了以原子为实体节点的分子知识图谱,并进行了相关应用。首先通过预训练模型获得原子的向量表示,再通过实体聚类实现实体命名以获得原子节点实体表示,用以构建分子知识图谱;本研究将分子知识图谱用于分子设计及性质预测等应用以展示图谱的用途和初步检测图谱的质量。主要包括以下工作内容:第一,本文突破了传统方法,基于无标注的分子数据SMILES序列和深度学习预训练模型进行分子数据中原子实体的提取,并实现基于原子实体的分子知识图谱构建。首先,分子的SMILES序列经RDKit预处理可以得到分子内的各种化学性质和结构等信息,将这些特征输入到预训练模型(Chem BERTa,图网络预训练)获得原子的嵌入表示;然后,使用RDKit根据不同原子的相邻原子种类进行实体预分类,确定实体的结构,以提高抽取的实体可解释性。计算分类好的原子向量之间的余弦相似度,设置相同实体的相似度阈值以进行实体融合,融合后每一类中原子向量平均后可以作为分子知识图谱的一个实体,其代表了一种特定环境的原子。同时,使用开源包RDKit获取原子间的化学键作为连接实体之间的关系形成组成知识图谱的三元组{原子实体1-成键关系-原子实体2};最后,将知识图谱进行存储及可视化。第二,本文基于构建的分子知识图谱通过链接预测模型实现分子设计应用。本研究使用链接预测模型Interact E,并在基础模型上加载了编码器WGCN,使得链接预测模型在构建的三元组数据集上的结果有小幅度的提升,Hits@1、Hits@10、MRR的值分别是0.423、0.476、0.635。通过模型预测不同分子的成键的概率评分,总结出合理的分子结构的评分标准为0.5,即分子内所有成键关系的平均得分在0.5以上可说明该分子结构合理存在的可能性高,具有较大概率的可生成性。第三,本研究将分子知识图谱嵌入应用于分子性质预测任务,以检测原子表示的有效性。将分子知识图谱中的原子嵌入与原子的初始特征相加,在消息传递神经网络(MPNN)框架的基础上进行实验,原子特征加入分子知识图谱嵌入后的误差下降了15%。实验结果表明,分子知识图谱嵌入有效表示了与任务成正反馈关系的原子环境信息,有助于提高下游任务的质量。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工坊 ,原文地址:https://m.bishedaima.com/lunwen/55549.html