基于集成学习的长尾关系抽取研究
这是一篇关于关系抽取,长尾问题,知识表示的论文, 主要内容为关系抽取是自然语言处理领域的热门研究方向之一,目的是从自然语言中识别实体间的关系,在许多应用中都有广泛的应用,如情感分析、知识图谱构建、信息检索等。然而,关系抽取中存在着许多的挑战和困难,其中一个主要的问题就是长尾问题。长尾问题表示很多关系在数据集中只出现很少的次数,相对于出现频率较高的关系,长尾关系的样本数量非常少,很难进行准确的抽取和建模。长尾问题首先来源于数据不平衡,自然语言中,常见关系会出现大量的样本,但许多特定领域中的关系或专业术语出现次数较少,导致少数数据中的稀有关系难以被抽取形成了长尾分布。为解决关系抽取中的长尾问题,本文对长尾关系抽取进行了以下两个方面的研究以及系统实现。(1)基于多粒度语义增强的长尾关系抽取。为了提高单分类器对长尾关系的能力,本文根据关系标签的层次结构,采用基于预训练模型优化的知识表示,通过在不同级别的关系之间引入具有多粒度约束的标签到句子注意力机制,来增强单分类器的标签层次依赖,进一步挖掘关系标签的语义信息,减轻了长尾问题并提高了关系抽取中长尾类的性能,而不损害头部关系性能。(2)基于集成方法的长尾关系抽取。本文引入了一种集成机制,训练多个具有多样化特征的分类器,并使用路由模块控制多个分类器之间的结果选择,以解决单分类器不足以学习长尾关系的问题,并平衡头部关系类和长尾关系类之间的性能,进一步解决关系提取数据集上的长尾问题。在大规模基准数据集NYT上,本文提出的方法不仅在长尾关系上,而且所有关系上都显示出有效性并达到了出色的性能。(3)端到端的长尾关系抽取系统实现。基于以上两点研究内容,本文采用B/S架构,使用React前端框架、Node.js后端框架、My SQL数据库作为搭建框架,使用Py Torch框架、Neo4j图谱管理工具作为业务框架,设计并实现了端到端的长尾关系抽取系统,具有登录注册、关系抽取、知识图谱展示等功能。
基于场景图的视觉描述生成方法
这是一篇关于视觉描述生成,场景图,视觉表征,长尾问题,语义鸿沟,深度学习的论文, 主要内容为视觉描述生成是一项跨模态的任务,同时结合了自然语言处理与计算机视觉的领域,视觉描述生成任务会将输入的视觉信息转换为语言描述。作为一个跨模态任务,视觉语言描述生成任务最大的难点在于视觉与语言之间存在的语义鸿沟,但是对视觉描述生成的研究是有重要意义的,有助于推动人工智能从感知智能向认知智能转变。视觉描述生成算法有多种处理视觉特征的方式,如基于卷积神经网络提取全局特征、基于目标检测模型提取区域特征、基于场景图生成模型生成图结构表征。场景图表征相较于全局特征与区域特征,不仅能表达更加细粒度的信息还能表达实例之间的关系与属性。但是场景图生成模型一直存在长尾问题导致生成的关系谓词中缺少信息性关系谓词,同时也存在完备性问题,这会影响下游视觉描述生成任务的效果,本文以这些问题为出发点旨在缓解完备性问题和信息性谓词缺失问题从而提升生成的视觉描述的质量。本文引入了信息型场景图并提出了图调整方法,具体来说本文受启发于场景图生成领域的发展替换掉了视觉描述生成任务中常见的场景图生成方式,同时构建了知识图谱对场景图进行调整。由于本文的工作在改善表征的质量,本文提出的方法可以作为插件迁移到其他模型上。本文将提出的方法运用到提出的无监督模型中,获得了15.8的CIDEr效果提升,迁移到基于其他研究者的有监督模型中获得了1.9的CIDEr效果提升。本文提出的方法在CIDEr上的提升较为明显,证明基于该方法生成的视觉描述更好地表达了图像的主干内容。
基于深度学习的远程监督关系抽取研究及应用
这是一篇关于远程监督关系抽取,降噪,长尾问题,注意力机制,知识图谱的论文, 主要内容为关系抽取作为自然语言处理的基础任务和信息抽取的重要任务之一,其目的是从自然语言文本中抽取出实体之间的语义关系并将结果以结构化的形式输出,以支持知识图谱、问答系统等下游应用。随着深度学习的发展,基于有监督学习的关系抽取模型虽然已经能够取得令人满意的抽取结果,但其高度依赖于大规模和高质量的人工标注数据,需要耗费大量的人力和时间成本。远程监督通过大型知识库对齐语料库来进行大规模数据的自动标注,减轻了人工标注的负担,为关系抽取的相关研究提供了有力的支持。然而,远程监督方法的提出伴随了强约束性假设,导致数据集中不可避免地存在着严重的错误标注问题,并且数据呈现极端的长尾分布,使远程监督关系抽取任务仍面临不少挑战。本文基于深度学习方法,围绕噪声问题和长尾问题对远程监督关系抽取展开了研究,主要的研究内容及创新工作如下:(1)基于多实例学习框架的远程监督关系抽取方法虽然有效缓解了噪声数据对于句包级别关系抽取模型的影响,但在句子级别的关系预测任务中却效果欠佳。因此,提出基于正负向联合学习的远程监督关系抽取方法。该方法采用负向学习和选择性正向学习相结合的训练方式进行句子级别关系抽取模型的训练,避免模型过拟合于噪声数据的同时加快模型对干净数据的收敛。然后根据标签置信度,通过噪声过滤和重新标注步骤实现数据重构,将噪声数据转化为可用的训练数据,提高数据集的质量,进而提升模型的性能。实验结果表明,所提方法在NYT数据集的验证集和测试集上的F1值以及噪声标注测试集上的F1值均优于对比方法,验证了所提方法能够有效减少标签噪声,提升模型的句子级别关系抽取能力。(2)针对长尾关系抽取问题,提出一种关系原型和实体类型增强的句子级别关系抽取模型。该模型利用原型思想,使用注意力机制通过原型嵌入对句子表示进行增强,同时引入实体类型信息,使不同关系的样本通过原型和实体类型建立隐式的联系,增强模型对长尾关系样本的表征能力。在此基础上,将关系标签之间的潜在语义依赖通过约束图进行显式建模,并借助图卷积神经网络促进信息在不同关系节点之间的传播,缓解长尾关系数据匮乏的问题,进一步提高模型的长尾关系抽取能力。在NYT数据集和Re-TACRED数据集上的对比实验和消融实验结果表明,在不同类型和不同比例的噪声环境下,所提模型在长尾关系上的表现均有所改善。(3)由于中文语言的复杂性和中文数据集的匮乏,目前针对中文关系抽取的研究尚不充分,仍有很大的提升空间。本文设计并实现了一个中文关系抽取开放系统,旨在为中文关系抽取的研究提供一定的参考,同时验证本文所提方法在中文文本中的适用性。该系统主要包括关系抽取、数据标注和知识图谱查询及可视化三个功能模块,通过远程监督方法对齐知识图谱来实现数据集的自动标注,并以此为基础完成关系抽取模型的训练。系统测试结果表明该系统具有一定的实用价值。综上所述,本文针对远程监督关系抽取中存在的噪声问题和长尾问题分别提出了解决措施和方法,有效缓解了噪声数据对句子级别关系抽取模型的影响,改善了模型在长尾关系上的表现,并基于所提方法设计并实现了一个中文关系抽取开放系统。
基于集成学习的长尾关系抽取研究
这是一篇关于关系抽取,长尾问题,知识表示的论文, 主要内容为关系抽取是自然语言处理领域的热门研究方向之一,目的是从自然语言中识别实体间的关系,在许多应用中都有广泛的应用,如情感分析、知识图谱构建、信息检索等。然而,关系抽取中存在着许多的挑战和困难,其中一个主要的问题就是长尾问题。长尾问题表示很多关系在数据集中只出现很少的次数,相对于出现频率较高的关系,长尾关系的样本数量非常少,很难进行准确的抽取和建模。长尾问题首先来源于数据不平衡,自然语言中,常见关系会出现大量的样本,但许多特定领域中的关系或专业术语出现次数较少,导致少数数据中的稀有关系难以被抽取形成了长尾分布。为解决关系抽取中的长尾问题,本文对长尾关系抽取进行了以下两个方面的研究以及系统实现。(1)基于多粒度语义增强的长尾关系抽取。为了提高单分类器对长尾关系的能力,本文根据关系标签的层次结构,采用基于预训练模型优化的知识表示,通过在不同级别的关系之间引入具有多粒度约束的标签到句子注意力机制,来增强单分类器的标签层次依赖,进一步挖掘关系标签的语义信息,减轻了长尾问题并提高了关系抽取中长尾类的性能,而不损害头部关系性能。(2)基于集成方法的长尾关系抽取。本文引入了一种集成机制,训练多个具有多样化特征的分类器,并使用路由模块控制多个分类器之间的结果选择,以解决单分类器不足以学习长尾关系的问题,并平衡头部关系类和长尾关系类之间的性能,进一步解决关系提取数据集上的长尾问题。在大规模基准数据集NYT上,本文提出的方法不仅在长尾关系上,而且所有关系上都显示出有效性并达到了出色的性能。(3)端到端的长尾关系抽取系统实现。基于以上两点研究内容,本文采用B/S架构,使用React前端框架、Node.js后端框架、My SQL数据库作为搭建框架,使用Py Torch框架、Neo4j图谱管理工具作为业务框架,设计并实现了端到端的长尾关系抽取系统,具有登录注册、关系抽取、知识图谱展示等功能。
基于深度学习技术的软件开发第三方库以及长尾第三方库推荐研究
这是一篇关于软件开发,知识图卷积,长尾问题,深度学习网络,第三方库推荐的论文, 主要内容为软件开发第三方库作为软件开发领域重要的可复用资源,能够提高开发人员的效率。现存的第三方库数量巨大、种类繁多,搜寻合适的第三方库需要耗费开发人员很多精力。同时,现存的诸多第三方库中,存在推荐系统常见的“长尾问题”,比较受欢迎的第三方库被推荐的频次更高,那些没那么受欢迎但是和开发人员项目高度关联的第三方库却不能够被推荐或者很少被推荐。本文基于第三方库领域的推荐任务,主要研究如何向开发人员推荐适合开发项目的第三方库,同时研究如何向开发人员推荐属于长尾集合但又和开发项目关联度高的第三方库。现有的第三方库领域推荐方法往往单独从项目层面或者从第三方库(使用模式)层面进行推荐。单独从项目层面进行推荐的方法只计算项目的相似度,无法判断当前的第三方库对开发人员的项目是否合适。而基于第三方库使用模式的推荐方法通常会忽略对项目特征的考虑。本文提出了一种基于知识图谱的图卷积网络模型KG2Lib,综合考虑项目和第三方库的特征进行推荐;其次,纳入更多关于第三方库的信息来进行更细粒度的推荐。实验结果表明,在公开数据集上本文所提出的模型效果优于其他方法,可以更有效地提高第三方库推荐的准确性,也进一步缓解了第三方库推荐领域的长尾问题。但是,本论文在成功率等指标上虽然有一定提升,但是提升的幅度不够大;同时在dataset2数据集上当推荐的个数为N时,模型的成功率略低于Lib Finder,这也是我们面临的另一个挑战。在上述工作的基础上,本文进一步探索更有效的方法缓解第三方库推荐领域的长尾问题。本文提出了长尾推荐模型LTLIB,LTLIB主要包含四个模块:矩阵分解模块、项目聚类模块、第三方库分类模块以及模型学习模块。项目和第三方库的权重矩阵首先经过一类协同过滤算法生成项目特征向量矩阵和第三方库特征向量矩阵,其次利用层次聚类方法对项目进行聚类,并利用Page Rank算法得到每个聚类中项目所包含的较受欢迎项目和长尾项目。最后,将长尾项目和受欢迎项目输入进模型,判断当前第三方库是否可以被推荐。实验结果表明,本文所提出的模型LTLIB能够有效地缓解第三方库推荐领域的长尾问题。本文是基于长尾问题的进一步探索,但仍然不能够彻底推荐领域的类似问题。因此,本文的最后一个挑战就是如何能够更充分地利用第三方库领域的长尾数据进行有效的探索,提高软件开发领域资源的利用率。
基于集成学习的长尾关系抽取研究
这是一篇关于关系抽取,长尾问题,知识表示的论文, 主要内容为关系抽取是自然语言处理领域的热门研究方向之一,目的是从自然语言中识别实体间的关系,在许多应用中都有广泛的应用,如情感分析、知识图谱构建、信息检索等。然而,关系抽取中存在着许多的挑战和困难,其中一个主要的问题就是长尾问题。长尾问题表示很多关系在数据集中只出现很少的次数,相对于出现频率较高的关系,长尾关系的样本数量非常少,很难进行准确的抽取和建模。长尾问题首先来源于数据不平衡,自然语言中,常见关系会出现大量的样本,但许多特定领域中的关系或专业术语出现次数较少,导致少数数据中的稀有关系难以被抽取形成了长尾分布。为解决关系抽取中的长尾问题,本文对长尾关系抽取进行了以下两个方面的研究以及系统实现。(1)基于多粒度语义增强的长尾关系抽取。为了提高单分类器对长尾关系的能力,本文根据关系标签的层次结构,采用基于预训练模型优化的知识表示,通过在不同级别的关系之间引入具有多粒度约束的标签到句子注意力机制,来增强单分类器的标签层次依赖,进一步挖掘关系标签的语义信息,减轻了长尾问题并提高了关系抽取中长尾类的性能,而不损害头部关系性能。(2)基于集成方法的长尾关系抽取。本文引入了一种集成机制,训练多个具有多样化特征的分类器,并使用路由模块控制多个分类器之间的结果选择,以解决单分类器不足以学习长尾关系的问题,并平衡头部关系类和长尾关系类之间的性能,进一步解决关系提取数据集上的长尾问题。在大规模基准数据集NYT上,本文提出的方法不仅在长尾关系上,而且所有关系上都显示出有效性并达到了出色的性能。(3)端到端的长尾关系抽取系统实现。基于以上两点研究内容,本文采用B/S架构,使用React前端框架、Node.js后端框架、My SQL数据库作为搭建框架,使用Py Torch框架、Neo4j图谱管理工具作为业务框架,设计并实现了端到端的长尾关系抽取系统,具有登录注册、关系抽取、知识图谱展示等功能。
基于深度学习技术的软件开发第三方库以及长尾第三方库推荐研究
这是一篇关于软件开发,知识图卷积,长尾问题,深度学习网络,第三方库推荐的论文, 主要内容为软件开发第三方库作为软件开发领域重要的可复用资源,能够提高开发人员的效率。现存的第三方库数量巨大、种类繁多,搜寻合适的第三方库需要耗费开发人员很多精力。同时,现存的诸多第三方库中,存在推荐系统常见的“长尾问题”,比较受欢迎的第三方库被推荐的频次更高,那些没那么受欢迎但是和开发人员项目高度关联的第三方库却不能够被推荐或者很少被推荐。本文基于第三方库领域的推荐任务,主要研究如何向开发人员推荐适合开发项目的第三方库,同时研究如何向开发人员推荐属于长尾集合但又和开发项目关联度高的第三方库。现有的第三方库领域推荐方法往往单独从项目层面或者从第三方库(使用模式)层面进行推荐。单独从项目层面进行推荐的方法只计算项目的相似度,无法判断当前的第三方库对开发人员的项目是否合适。而基于第三方库使用模式的推荐方法通常会忽略对项目特征的考虑。本文提出了一种基于知识图谱的图卷积网络模型KG2Lib,综合考虑项目和第三方库的特征进行推荐;其次,纳入更多关于第三方库的信息来进行更细粒度的推荐。实验结果表明,在公开数据集上本文所提出的模型效果优于其他方法,可以更有效地提高第三方库推荐的准确性,也进一步缓解了第三方库推荐领域的长尾问题。但是,本论文在成功率等指标上虽然有一定提升,但是提升的幅度不够大;同时在dataset2数据集上当推荐的个数为N时,模型的成功率略低于Lib Finder,这也是我们面临的另一个挑战。在上述工作的基础上,本文进一步探索更有效的方法缓解第三方库推荐领域的长尾问题。本文提出了长尾推荐模型LTLIB,LTLIB主要包含四个模块:矩阵分解模块、项目聚类模块、第三方库分类模块以及模型学习模块。项目和第三方库的权重矩阵首先经过一类协同过滤算法生成项目特征向量矩阵和第三方库特征向量矩阵,其次利用层次聚类方法对项目进行聚类,并利用Page Rank算法得到每个聚类中项目所包含的较受欢迎项目和长尾项目。最后,将长尾项目和受欢迎项目输入进模型,判断当前第三方库是否可以被推荐。实验结果表明,本文所提出的模型LTLIB能够有效地缓解第三方库推荐领域的长尾问题。本文是基于长尾问题的进一步探索,但仍然不能够彻底推荐领域的类似问题。因此,本文的最后一个挑战就是如何能够更充分地利用第三方库领域的长尾数据进行有效的探索,提高软件开发领域资源的利用率。
基于集成学习的长尾关系抽取研究
这是一篇关于关系抽取,长尾问题,知识表示的论文, 主要内容为关系抽取是自然语言处理领域的热门研究方向之一,目的是从自然语言中识别实体间的关系,在许多应用中都有广泛的应用,如情感分析、知识图谱构建、信息检索等。然而,关系抽取中存在着许多的挑战和困难,其中一个主要的问题就是长尾问题。长尾问题表示很多关系在数据集中只出现很少的次数,相对于出现频率较高的关系,长尾关系的样本数量非常少,很难进行准确的抽取和建模。长尾问题首先来源于数据不平衡,自然语言中,常见关系会出现大量的样本,但许多特定领域中的关系或专业术语出现次数较少,导致少数数据中的稀有关系难以被抽取形成了长尾分布。为解决关系抽取中的长尾问题,本文对长尾关系抽取进行了以下两个方面的研究以及系统实现。(1)基于多粒度语义增强的长尾关系抽取。为了提高单分类器对长尾关系的能力,本文根据关系标签的层次结构,采用基于预训练模型优化的知识表示,通过在不同级别的关系之间引入具有多粒度约束的标签到句子注意力机制,来增强单分类器的标签层次依赖,进一步挖掘关系标签的语义信息,减轻了长尾问题并提高了关系抽取中长尾类的性能,而不损害头部关系性能。(2)基于集成方法的长尾关系抽取。本文引入了一种集成机制,训练多个具有多样化特征的分类器,并使用路由模块控制多个分类器之间的结果选择,以解决单分类器不足以学习长尾关系的问题,并平衡头部关系类和长尾关系类之间的性能,进一步解决关系提取数据集上的长尾问题。在大规模基准数据集NYT上,本文提出的方法不仅在长尾关系上,而且所有关系上都显示出有效性并达到了出色的性能。(3)端到端的长尾关系抽取系统实现。基于以上两点研究内容,本文采用B/S架构,使用React前端框架、Node.js后端框架、My SQL数据库作为搭建框架,使用Py Torch框架、Neo4j图谱管理工具作为业务框架,设计并实现了端到端的长尾关系抽取系统,具有登录注册、关系抽取、知识图谱展示等功能。
基于深度学习技术的软件开发第三方库以及长尾第三方库推荐研究
这是一篇关于软件开发,知识图卷积,长尾问题,深度学习网络,第三方库推荐的论文, 主要内容为软件开发第三方库作为软件开发领域重要的可复用资源,能够提高开发人员的效率。现存的第三方库数量巨大、种类繁多,搜寻合适的第三方库需要耗费开发人员很多精力。同时,现存的诸多第三方库中,存在推荐系统常见的“长尾问题”,比较受欢迎的第三方库被推荐的频次更高,那些没那么受欢迎但是和开发人员项目高度关联的第三方库却不能够被推荐或者很少被推荐。本文基于第三方库领域的推荐任务,主要研究如何向开发人员推荐适合开发项目的第三方库,同时研究如何向开发人员推荐属于长尾集合但又和开发项目关联度高的第三方库。现有的第三方库领域推荐方法往往单独从项目层面或者从第三方库(使用模式)层面进行推荐。单独从项目层面进行推荐的方法只计算项目的相似度,无法判断当前的第三方库对开发人员的项目是否合适。而基于第三方库使用模式的推荐方法通常会忽略对项目特征的考虑。本文提出了一种基于知识图谱的图卷积网络模型KG2Lib,综合考虑项目和第三方库的特征进行推荐;其次,纳入更多关于第三方库的信息来进行更细粒度的推荐。实验结果表明,在公开数据集上本文所提出的模型效果优于其他方法,可以更有效地提高第三方库推荐的准确性,也进一步缓解了第三方库推荐领域的长尾问题。但是,本论文在成功率等指标上虽然有一定提升,但是提升的幅度不够大;同时在dataset2数据集上当推荐的个数为N时,模型的成功率略低于Lib Finder,这也是我们面临的另一个挑战。在上述工作的基础上,本文进一步探索更有效的方法缓解第三方库推荐领域的长尾问题。本文提出了长尾推荐模型LTLIB,LTLIB主要包含四个模块:矩阵分解模块、项目聚类模块、第三方库分类模块以及模型学习模块。项目和第三方库的权重矩阵首先经过一类协同过滤算法生成项目特征向量矩阵和第三方库特征向量矩阵,其次利用层次聚类方法对项目进行聚类,并利用Page Rank算法得到每个聚类中项目所包含的较受欢迎项目和长尾项目。最后,将长尾项目和受欢迎项目输入进模型,判断当前第三方库是否可以被推荐。实验结果表明,本文所提出的模型LTLIB能够有效地缓解第三方库推荐领域的长尾问题。本文是基于长尾问题的进一步探索,但仍然不能够彻底推荐领域的类似问题。因此,本文的最后一个挑战就是如何能够更充分地利用第三方库领域的长尾数据进行有效的探索,提高软件开发领域资源的利用率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://m.bishedaima.com/lunwen/56161.html