迁移学习及其在跨领域推荐中的应用研究
这是一篇关于推荐,迁移学习,跨领域,CNN,评论文本,数据均衡的论文, 主要内容为互联网技术的不断普及以及大数据时代的到来使人们可以通过众多渠道获取大量的信息,在为人们带来无限便利的同时产生了“信息过载”问题,而推荐系统可以帮助人们从繁杂的信息中挑选出有价值的信息,很好的缓解了“信息过载”问题。然而传统的推荐存在数据稀疏和用户冷启动问题,跨领域推荐可以很好的解决这一问题,它将其它领域丰富的信息迁移到目标领域,帮助目标领域提高推荐的准确性。但目前大多的跨领域推荐工作均采用评分,忽略了包含着更为丰富的用户和项目信息的评论文本。为此,本文对跨领域推荐方法展开了深入的研究,主要工作如下:(1)考虑到推荐系统存在数据稀疏和用户冷启动问题,本文针对评论文本提出一种基于卷积神经网络的跨领域推荐模型(CNN-based Cross-domain Recommendation,CNCR)。首先将评论文本生成用户评论文本文档和项目评论文本文档,并生成对应的词向量文档;然后利用卷积神经网络(Convolutional Neural Network,CNN)有效的提取用户和项目评论文本文档中丰富的信息,得到用户特征和项目特征;其次利用迁移学习的思想,构造共享域作为知识迁移的桥梁,利用共享域的CNN提取源域和目标域的共享特征,同时利用源域和目标域的CNN提取领域特有的特征;最后将不同领域的特征融合进行评分预测,从而实现跨领域推荐。(2)考虑到数据不均衡的现象会导致模型预测结果偏向于样本数据较多的类别,本文在CNCR模型的基础上融合代价敏感学习方法,提出了基于CNN和代价敏感的跨领域推荐模型CNCR-CS(Cost-Sensitive and CNCR)。CNCR-CS模型将代价敏感学习方法用于模型的训练过程,提出了融合代价敏感策略的L2损失函数CSL2(Cost-Sensitive and L2),使得模型的错分代价和最小,从而缓解了上述问题。(3)本文在Amazon的不同领域的数据集上进行了相应的实验,验证本文提出的模型的有效性。实验结果表明,相较于对比模型,利用评论文本和神经网络的本文模型在MAE和RMSE上均有提升,取得了较好的评分预测结果。同时验证了本文提出的CSL2函数的有效性以及本文迁移方法的有效性,此外本文通过控制评论数目的方法设计了其它的实验验证了本文模型缓解数据稀疏问题的能力以及缓解用户冷启动问题的能力,对模型的重要参数进行了相应的分析,同时验证了模型的泛化能力。本文充分的利用了评论文本,合理有效的挖掘了评论文本中蕴含的用户和项目信息,提高了跨领域推荐性能,同时使跨领域推荐的方法在深度学习和评论文本上有了新的发展。
跨领域的小样本实体关系分类方法研究
这是一篇关于跨领域,小样本实体关系分类,注意力机制,特征转换的论文, 主要内容为实体关系分类是信息抽取中重要的技术之一,在智能问答、知识图谱生成、信息检索等场景中发挥着重要作用。现有的实体关系分类模型受大规模的标注数据限制,对于像医疗、金融等标注语料少、难获取、标注成本高的领域,模型性能很难提高。并且当模型训练和测试的两种数据来自不同领域时,由于不同领域的特征分布有偏差,模型会出现在训练数据领域上表现良好而在测试数据领域上表现差的现象。针对以上问题,本文展开跨领域的小样本实体关系分类方法研究,重点研究如何在目标领域样本量有限的情况下提高分类模型的泛化能力,从而提高模型的分类性能。本文的主要贡献如下:(1)本文采用的跨领域小样本实体关系分类模型主体分为两个部分:编码器和分类器。其中,编码器采用BERT预训练模型。对输入进行扩充处理,在输入句子中实体的前后位置插入标签。取BERT输出的隐藏层中实体对开始位置标签对应的向量进行拼接,作为输入句子中实体对关系的向量表示。分类器采用了两种度量方法,分别为点积的方式和原型网络。基于小样本学习的模型能通过少量训练样本快速获得解决问题的能力,缓解了模型对标注数据的依赖。(2)提出了一种融合多维度注意力机制的方法。将多维度注意力机制与度量方法进行融合,提高模型的分类能力。多维度注意力主要包括了实例级注意力和特征级注意力。实例级注意力用于选择有益于分类的实例,避免噪音数据的影响。特征级注意力用于突出特征空间中易区分的特征维度,缓解特征稀疏性问题。(3)提出了一种基于学习特征转换层的方法。将特征转换层集成到编码器上,用于学习特征的各种分布,从而提高模型的泛化能力。由于在不同的度量函数和不同领域条件下,特征转换层的超参数很难通过手动调整找到有效的通用参数。因此,采用自学习的方式来优化特征转换层的超参数。
基于系统相关性的跨领域推荐算法研究
这是一篇关于系统相关性,社区检测,上下文感知,跨领域,推荐的论文, 主要内容为随着互联网的全面覆盖,大量数据持续产生并积累,导致人们很难快速准确地获取自己需要的信息。推荐系统在一定程度上可以过滤掉大量无用信息,但是传统单领域推荐系统存在冷启动和数据稀疏性问题,导致推荐准确性不高,针对性不强,影响了用户体验。随着各种功能的社交平台、电商网站以及相应的应用层出不穷,人们越来越多的参与到多个兴趣领域,留下了丰富的用户行为数据,若能适当地整合这些数据,使得多系统间信息可以共享和互相补充,就可以完善用户模型,实现更好的推荐效果。跨多领域推荐可能存在的商业潜力,以及领域间信息整合和迁移的挑战,驱动了专家学者们对其广泛而深入的研究。国内外的许多专家学者根据具体的推荐任务,已经对跨领域推荐方法进行了广泛而深入的研究和应用。其中存在两种典型的推荐场景:(1)各系统间存在共享的用户信息;(2)各系统间既不存在共享的用户信息,也不存在共享的项目信息,但存在某种基于上下文的相似性和相关性。针对以上两种跨领域推荐场景,目前学者们已提出了一些解决方案,但总体看,仍然存在以下不足:(1)针对场景一,多个系统以用户作为关系桥梁,共享了大量的用户信息,如何通过有效的方法,从这些信息中更全面地抽取和统一多元用户特征,并适当整合,从而为用户提供更优质的个性化推荐服务,还有待进一步探索;(2)针对场景二,如何充分利用系统间上下文的相似性和相关性来建立系统间关系桥梁,从而借助用户较活跃系统中的稠密数据,来提高用户不活跃系统的个性化推荐服务质量,还有待于提出更有效的方法。针对以上问题,本文开展了如下研究工作:(1)利用多系统间共享的用户信息,提出了归一化块拉普拉斯矩阵聚类的多层网络社区检测方法来实现跨领域推荐。由于多源用户行为数据的异构性,同时考虑到用户行为在受到自身兴趣驱使的同时,通常还会受到社会群体行为的推动,该方法通过机器学习等方法抽取和统一多元用户特征,并借鉴单领域推荐常用的协同过滤思路,使用多种用户特征分别构建用户相似性网络,从而在多层网络上发现用户兴趣社区来实施协同过滤推荐,同时还计算了各层网络间的相关性权重。(2)利用多系统间存在的上下文信息相关性,提出了基于系统上下相关性的跨领域推荐算法。受到基于上下文感知高阶张量分解方法的启发,同时考虑到系统间可能存在上下文信息的相似性和相关性(如用户群年龄分布相似,项目的标签语义相关等),从稠密数据集中学习潜在因子,然后迁移到目标领域实施评分预测和项目推荐,这样,不活跃的系统就可以借助活跃系统的数据来提高自身的推荐效果。该算法还引入了一种低秩近似的方法来对张量维度进行截断,有效解决了跨领域潜在因子迁移过程中的张量维度不对齐问题。研究结果表明,基于多层网络社区检测的跨领域推荐算法,能融合多元用户特征,有效发现用户兴趣社区,并计算出多元特征间的关系权重,其在推荐准确率方面不仅优于单领域推荐算法,而且优于将多网络加权融合为单网络的社区发现跨领域协同过滤推荐方法;基于系统上下相关性的跨领域推荐算法,通过利用系统间的上下文相关性,可以有效地从数据密集的辅助领域学习潜在因子,用于目标领域的推荐,较单领域推荐算法效果更优。
基于对抗学习的跨领域序列推荐模型研究
这是一篇关于推荐系统,跨领域,对抗学习,注意力机制的论文, 主要内容为相较于以协同过滤算法为代表的传统推荐系统,序列推荐系统凭借其有效捕捉用户与项目交互的时序关联这一优势,逐渐成为当下推荐系统的研究热点。其中,跨领域序列推荐算法通过知识迁移引入其他领域的辅助信息,可有效应对推荐系统普遍存在的数据稀疏和冷启动问题,在近年来受到了各界的广泛关注。然而,现有的跨领域序列推荐方法大多仅基于重合用户样本空间进行训练,忽视了现实场景中重合用户占比较小的客观事实,使得训练空间与实际应用推荐的全量用户空间存在明显的系统分布差异,这将导致模型最终预估结果是有偏的而损害推荐效果。此外,该类方法无法对非重合用户进行有效推荐,并且对实际应用场景中重合用户的样本质量和数量都有较高要求,极大限制了模型的适用范围。为了解决上述问题,本文提出一种基于对抗学习的跨领域序列推荐模型。该模型主要由基于自编码器的生成对抗网络和基于自注意力的特征提取器构成,前者学习用户跨领域的长期偏好,后者则用于建模用户的即时兴趣。具体而言,该生成对抗网络首先采用自编码器基于源领域和目标领域各自的交互序列学习用户表征,然后使用对抗学习的训练策略使两个领域用户表征的分布趋同,以达到将源领域知识迁移到目标领域的目的,使模型获得更加优异的特征表示和泛化能力。此外,考虑到用户动态变化的即时兴趣对推荐的影响,该模型还使用一个基于自注意力的特征提取器建模用户的近期交互序列,并以重要性为依据为不同项目分配权重,从而有针对性地挖掘用户的即时兴趣。最后,结合用户的长期偏好和即时兴趣建立序列推荐模型,为用户提供更加全面、准确的下一项目推荐。本文基于Amazon的四个公开数据集设计并进行了广泛的对比实验。实验结果表明,针对序列推荐问题,所提模型比业界最先进的序列推荐模型在归一化折现累积收益和命中率指标上表现更优,验证了跨领域知识迁移和用户即时兴趣提取的有效性。除此之外,本文设计了序列推荐框架和针对于视频推荐的序列推荐系统,该系统现已应用于实际工程项目中,让项目工作者更加便捷有效地为视频平台用户提供更优质的推荐。
关系抽取中无监督领域自适应技术的研究与实现
这是一篇关于跨领域,无监督,关系抽取,知识图谱,图模型的论文, 主要内容为实体关系抽取是知识图谱构建与信息提取的关键环节,主要提取两个或者多个实体之间的某种联系,目的是得到三元组(实体1,关系,实体2)。领域自适应问题指在一个领域学习到的模型如何有效地应用到另一个领域。在现实生活中,我们不太可能获得所有领域的数据,更不可能为所有领域都标注数据。所以在关系抽取中无监督领域自适应问题尤为重要。本文的研究问题就是利用源领域带有标签的数据和目标领域没有标签的数据,去提升目标领域关系抽取的效果。主要分为以下方面的内容。1.为了避免领域私有特征的引入,更有效地抽取出领域共有特征,提出了一种多视角自适应网络。该网络在目标领域采用了多视角训练。源领域打好标签的数据和目标领域未打标签的数据被一起输入到共享特征提取器中,以学习共有特征表示。然后使用这些特征生成关系预测。除了这些全视图数据之外,还构造了一些受限制视图数据,会失去一些目标域上的上下文信息,例如实体字。这些受限制的视图数据也被输入到共享特征提取器中以产生预测。全视图数据的预测分布将充当“教师”的角色,以使不同的受限制视图数据学习相同的预测。通过拟合预测的分布,模型可以学习到不依赖于领域独有特征(例如实体词)的一些上下文信息。在ACE2005数据集上的实验表明,模型比现有工作在F1值上最高提升了2.1%,达到了目前最好的效果。2.针对现有模型无法很好捕捉不同领域的非序列特征问题,提出了一种端到端的图适应网络来对齐领域之间的非局部特征。在构造的三部图中,边仅存在于领域私有词和共有词之间,源域词和目标域词之间通过共有词作为媒介间接连接,并且词共现信息作为边的固定权重。然而,单词共现信息对语料库的依赖性强,不可避免地会引入一些噪声,因此又引入了图的动态权重。领域私有单词的表示动态权重由注意力机制实现。固定权重和动态权重相加做为边的最终权重。领域私有单词通过图卷积神经网络被对齐,然后再把这些单词的向量表示输入到共享特征提取器进行特征提取,就能有效避免领域独有信息的引入。在ACE2005数据集上的实验表明,图适应网络能有效对齐非序列的领域独有特征,并更关注一些具有强领域相关性单词的对齐。实验结果F1值最高提升了2.7%,也说明了模型的有效性。3.结合以上的创新点,设计开发了一个无监督的跨领域关系抽取模块,用于直观展示模型的效果,并使之便于整合到知识抽取系统或其他下游的任务中。
基于功效特征聚类的专利推荐方法研究
这是一篇关于专利聚类,知识增强语义表示,自组织神经网络,跨领域,推荐系统的论文, 主要内容为近年来,随着专利数量的日益庞杂,从海量专利中获取有效信息已愈发困难,在此背景下,用于挖掘有效信息的推荐算法已逐渐应用到专利领域中。然而,作为推荐算法中的关键技术,文本聚类算法在推荐系统的应用过程中存在一定不足。首先,作为聚类算法的输入表征,功效特征在专利中十分重要,如何精确提取专利中的功效信息是目前面临的挑战。其次,在专利聚类分析方面,基于IPC分类分析的方法是粗粒度的,无法与专利内容紧密结合,不能实现跨领域的专利聚类分析。最后,在专利推荐方面,如何解决推荐中的冷启动问题以及专利的精确推荐仍是一大挑战。本文针对以上问题进行了如下工作:(1)提出了一种知识增强语义表示(ERNIE)和卷积神经网络(CNN)相结合的模型(FEI-Joint),通过该模型提取专利文献的功效特征。在ERNIE层中加入功效词表对训练结果做修正,CNN层中采用动态更新权重的训练方式,最终获得功效特征矩阵。(2)为实现对专利功效特征聚类,提出一种具有早期淘汰策略与类合并思想的自组织神经网络(ERCM-SOM)。针对SOM算法效率与准确率较低的问题,该算法在寻找获胜神经元的过程中提前淘汰掉不可能获胜的神经元,使聚类效率提高。另一方面,在聚类的最终阶段利用距离与密度相结合的类合并算法提高聚类准确率。(3)基于上述的功效特征聚类算法,结合用户注册时填写的用户信息以及用户的浏览记录,引入时间迁移模型,构建了基于功效特征聚类的协同过滤专利推荐模型。该模型为用户提供了具有实时性的专利推荐,并实现基于功效特征聚类的专利推荐方法的应用。本文对FEI-Joint模型、ERCM-SOM算法和改良推荐算法的有效性以及整合后的推荐服务可用性分别进行了实验。实验证明,与TF-IDF、LDA、CNN在特征提取后的聚类效果相比,FEI-Joint模型在F-measure方面明显提高。ERCM-SOM算法与KMeans、SOM算法相比F-measure值提高的同时,时间较SOM算法有明显缩短。对比IPC的专利分类,采用基于功效特征的聚类方法可实现跨领域的专利聚类效果,为设计者借鉴其他领域的设计方式奠定基础。在结合功效特征聚类和加入时间迁移模型的推荐模型中,各项指标均得到一定的提升,证实了其良好的推荐效果。
基于系统相关性的跨领域推荐算法研究
这是一篇关于系统相关性,社区检测,上下文感知,跨领域,推荐的论文, 主要内容为随着互联网的全面覆盖,大量数据持续产生并积累,导致人们很难快速准确地获取自己需要的信息。推荐系统在一定程度上可以过滤掉大量无用信息,但是传统单领域推荐系统存在冷启动和数据稀疏性问题,导致推荐准确性不高,针对性不强,影响了用户体验。随着各种功能的社交平台、电商网站以及相应的应用层出不穷,人们越来越多的参与到多个兴趣领域,留下了丰富的用户行为数据,若能适当地整合这些数据,使得多系统间信息可以共享和互相补充,就可以完善用户模型,实现更好的推荐效果。跨多领域推荐可能存在的商业潜力,以及领域间信息整合和迁移的挑战,驱动了专家学者们对其广泛而深入的研究。国内外的许多专家学者根据具体的推荐任务,已经对跨领域推荐方法进行了广泛而深入的研究和应用。其中存在两种典型的推荐场景:(1)各系统间存在共享的用户信息;(2)各系统间既不存在共享的用户信息,也不存在共享的项目信息,但存在某种基于上下文的相似性和相关性。针对以上两种跨领域推荐场景,目前学者们已提出了一些解决方案,但总体看,仍然存在以下不足:(1)针对场景一,多个系统以用户作为关系桥梁,共享了大量的用户信息,如何通过有效的方法,从这些信息中更全面地抽取和统一多元用户特征,并适当整合,从而为用户提供更优质的个性化推荐服务,还有待进一步探索;(2)针对场景二,如何充分利用系统间上下文的相似性和相关性来建立系统间关系桥梁,从而借助用户较活跃系统中的稠密数据,来提高用户不活跃系统的个性化推荐服务质量,还有待于提出更有效的方法。针对以上问题,本文开展了如下研究工作:(1)利用多系统间共享的用户信息,提出了归一化块拉普拉斯矩阵聚类的多层网络社区检测方法来实现跨领域推荐。由于多源用户行为数据的异构性,同时考虑到用户行为在受到自身兴趣驱使的同时,通常还会受到社会群体行为的推动,该方法通过机器学习等方法抽取和统一多元用户特征,并借鉴单领域推荐常用的协同过滤思路,使用多种用户特征分别构建用户相似性网络,从而在多层网络上发现用户兴趣社区来实施协同过滤推荐,同时还计算了各层网络间的相关性权重。(2)利用多系统间存在的上下文信息相关性,提出了基于系统上下相关性的跨领域推荐算法。受到基于上下文感知高阶张量分解方法的启发,同时考虑到系统间可能存在上下文信息的相似性和相关性(如用户群年龄分布相似,项目的标签语义相关等),从稠密数据集中学习潜在因子,然后迁移到目标领域实施评分预测和项目推荐,这样,不活跃的系统就可以借助活跃系统的数据来提高自身的推荐效果。该算法还引入了一种低秩近似的方法来对张量维度进行截断,有效解决了跨领域潜在因子迁移过程中的张量维度不对齐问题。研究结果表明,基于多层网络社区检测的跨领域推荐算法,能融合多元用户特征,有效发现用户兴趣社区,并计算出多元特征间的关系权重,其在推荐准确率方面不仅优于单领域推荐算法,而且优于将多网络加权融合为单网络的社区发现跨领域协同过滤推荐方法;基于系统上下相关性的跨领域推荐算法,通过利用系统间的上下文相关性,可以有效地从数据密集的辅助领域学习潜在因子,用于目标领域的推荐,较单领域推荐算法效果更优。
面向产品评论的情感分类方法研究
这是一篇关于产品评论,情感分类,卷积神经网络,跨领域,神经结构对应学习的论文, 主要内容为目前,电子商务已经对我们的生活产生了巨大的影响。历史消费者对电商产品发表的评论,正在潜移默化地影响着其他消费人群的购买行为。因此,对电商平台的产品评论进行情感分类研究逐步成为新的研究热点。某个领域的产品评论如果有充足的标签数据,则可以基于有监督的方法构建产品评论的情感分类模型。然而,领域的标签数据难以获取,或者标注费时费力。而产品评论的情感分类领域性很强,在某个领域的标签数据上训练好的情感分类器,应用到其他领域时性能下降较多。针对上述问题,本文分别提出了单领域和跨领域的情感分类方法,开展了以下三个方面的研究工作:(1)针对单领域的产品评论标签语料充足的情况,提出了改进卷积神经网络的情感分类方法。卷积神经网络擅于捕获特征,较适合进行句子级的情感分类。然而,卷积滤波器的初始化会影响最终分类器的性能。因此本文提出一种利用语义特征向量来对滤波器进行初始化的方法。在亚马逊产品评论和中文产品评论数据集上的实验证明,本文的方法可以有效提高产品评论的情感分类准确率。(2)针对新的领域(目标域)缺少标签数据,而其他领域(源域)的情感分类器应用到该领域时性能下降较多的问题,本文提出了一种基于特征扩展的神经结构对应学习的跨领域情感分类方法。通过改进枢轴特征的提取,将单个源域的标签语料作为辅助数据,训练适合于目标域的情感分类模型。在亚马逊产品评论情感数据集上进行了实验,验证了所提方法的有效性。(3)针对多个源领域的产品评论有标签数据的情况,本文提出了一种多源域集成迁移的情感分类方法。通过获取多个源域到同一个目标域的映射特征,训练多个情感分类器,并根据集成一致性原则为不同的情感分类器加权,最后构建目标域的情感分类器。在亚马逊产品评论情感数据集上进行了实验,验证了所提方法相比单源域的跨领域情感分类方法获得了更好的性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工厂 ,原文地址:https://m.bishedaima.com/lunwen/49192.html