基于提示学习的实体关系联合抽取和COVID19领域问答系统构建研究
这是一篇关于自然语言处理,提示学习,信息抽取,知识图谱,问答系统的论文, 主要内容为大数据时代下的互联网上产生了海量且冗杂的文本信息,提取关键信息以洞察价值变得尤为关键。同时,知识图谱和问答系统作为实现数据价值的有效工具,支撑其实现的实体识别和关系抽取任务受到了越来越多的关注。近年来出现的GPT-3等生成式预训练语言模型为信息抽取任务的做法提供了新思路。目前预训练-微调的做法会导致模型与下游任务之间存在差距并且信息抽取任务中会出现实体交叠等问题,导致抽取信息不够精确和全面。同时面对随时爆发的流行疾病,缺少一种针对疾病和药物方面的解决方案。针对上述问题,本文基于提示学习方法对信息抽取任务展开研究,设计并使用信息抽取模型参与知识图谱和问答系统的实现。1.基于提示学习的实体关系联合抽取方法研究。根据信息抽取任务抽取三元组的特点。由人工对模板进行设计,提示模板由标识符、插槽和用于连接上下文的自然语言组成,目标模板则设计为三元组形式用于引导模型生成期望输出。考虑到由人工构建的模板可能会因长度和内容不同导致模板起到的效果存在差异,通过调整关系在三元组中所处的位置设计了三种类型的提示模板。针对数据中部分实体会出现交叠的情况,分别设计了针对有交叠和无交叠情况下的目标模板。为了进一步丰富模板的提示内容,根据数据的标注信息将实体关系信息插入模板插槽中。为了加强模板在模型中的提示效果,为模板设计了对应编码层。另一方面。考虑到由人工构建的模板使模型学习效果差等问题,通过引入通配符取代提示模板中用于连接上下文的自然语言文本,进一步简化模板。同时,通过设计提示模板优化层,使模型仅对通配符部分的参数进行优化,使模型能够通过训练参数变化找到效果较好的模板形式。实验结果表明,所提出的方法通过引入提示模板缩小了预训练模型与下游任务之间的差距,同时基于模板的方法能够有效解决实体交叠问题,从而得到较好的抽取结果。2.基于COVID-19疾病和药物的知识图谱构建研究。首先,以百科名医网站的网页知识作为数据源,并通过爬虫技术完成对数据的采集。其次,使用信息抽取模型对采集数据进行知识抽取。最后,通过使用neo4j图数据库实现知识图谱的数据存储和的可视化。3.基于COVID-19疾病和药物的问答系统构建研究。首先,对系统进行需求分析,将系统自顶向下设计为应用层、处理层和数据层三层。其次,采用Django框架对系统架构设计为MVT模式。接着,对系统中应用模块的业务逻辑进行设计和实现。最后,将设计好的系统进行展示和测试。
基于关系抽取和路径推理的知识图谱补全
这是一篇关于知识图谱补全,关系抽取,关系路径推理,提示学习的论文, 主要内容为知识图谱提供了一种直观地组织、管理和利用海量知识的能力,在电商、军事、医疗等领域已经得到了广泛的应用。公安工作更多关注人、事、地、物、组织等关键要素,以及它们之间的关系。在科技强警背景下,知识图谱具有巨大的发展潜力和利用价值。但受当前知识图谱构建技术制约,大量实体之间隐含的关系没有被充分发掘,需要进行知识图谱补全。本文提出了三种知识图谱补全算法,利用外源文本数据和知识图谱实体间的关系路径对知识图谱进行补全,具体工作与创新如下:首先,针对新增外源文本数据中的知识在知识图谱中的补充利用问题,本文提出一种无监督模型,运用Prompt技术和预训练语言模型从文本数据中抽取结构化知识三元组,实现对知识图谱的补全。该模型通过对提示模板的设计,以较低的训练成本实现了对预训练语言模型的有效利用。在NYT10数据集上进行了关系抽取实验,结果表明该模型与当前最优的基于聚类的无监督关系抽取模型HiURE相比B-cubed值提升了4.2%,与基于VAE架构的无监督关系抽取模型UREVA相比B-cubed值提升了9.5%;此外还进行了迁移学习实验,在NYT10数据集上训练完毕后迁移到Wiki-80数据集上,通过少量样本的训练就取得了较好的关系抽取效果。其次,针对已有的基于关系路径推理的知识图谱补全算法无法兼顾图谱局部特征与全局特征的问题,本文提出了一种对实体间的关系路径进行层级划分并利用多层注意力机制和双向长短期记忆神经网络进行特征提取的算法。在NELL-995和FB15k-237数据集上进行链路预测实验,结果表明,该算法与已有的基于关系路径的知识图谱补全算法CNN-BiLSTM等相比,MAP值提高了1.8%,Hits@1指标提高了1.4%;在kinship数据集上,其Hits@3值达到了0.988。此外,基于关系路径的知识图谱补全方法往往局限于对目标实体之间存在的关系路径进行特征提取和关系预测,忽视了关系路径邻接实体关系。针对该问题,本文提出了一种通过把关系路径的邻接实体关系融入关系路径的生成、编码过程,再基于该关系路径信息进行知识图谱补全的算法。在多个数据集上均取得了较好的实验效果,证明其能够利用关系路径邻接实体关系信息对知识图谱进行补全。最后,设计并构建了基于关系抽取和路径推理的知识图谱补全原型系统,对论文提出的算法模型进行应用验证和效果展示。
基于小样本学习的篇章级文本情感计算系统设计与实现
这是一篇关于自然语言处理,篇章级情感分析,小样本学习,提示学习,情感特征的论文, 主要内容为在自然语言处理领域中,基于深度学习的文本情感分类有着不俗的表现。但传统深度学习方法的性能依赖于大规模人工标注数据集,而获取这些数据是费时费力的。另一方面,传统深度学习方法主要针对句子级的文本情感分析,在篇章级文本情感分析中依然存在长程依赖问题和单一主体假定问题。因此本文针对以上两个问题,以企业文本为基础,以小样本学习和篇章级文本情感分析为研究对象分别进行了研究,并且以此为基础开发了一个具有实用意义的篇章级情感计算系统。首先针对小样本学习的问题,本文对基于提示的小样本学习进行研究,通过引入seq2seq-attention结构构建自适应的提示模板,提出混合提示模型。该模型既能有效的提高构建提示模板的质量,也能充分利用现有的标注数据学习模板构建,并且迁移到其他领域。最后在公开数据集上达到88.7%的准确率超过了其他模型,表明了模型的先进性。其次针对篇章级情感分类,本文对机器学习和深度学习的特征提取方法进行研究,提出了包括主体特征,情感特征,权重特征,句间关系特征等四大特征选取方法并且介绍了其选取原因,然后在此基础上结合LSTM结构提出了一种基于句子特征的篇章级情感分析模型与一种基于句子特征的主体独立篇章级情感分析模型。最后系统基于Python平台和深度学习开源开发框架pytorch,设计了一款B/S架构的系统,并对系统进行了实现与测试,最终完成了包含数据获取、数据清洗、情感分类、分析结果可视化的篇章级情感计算系统。
融合外部知识的常识问答关键技术研究
这是一篇关于常识问答,知识图谱,预训练语言模型,图神经网络,提示学习的论文, 主要内容为当人类回答问题时,他们会利用关于空间关系、因果关系、科学事实和社会习俗等的常识知识。这些知识对人类来说微不足道,但仍然超出了当前问答系统的能力范围。与给定上下文篇章的问答任务不同,常识问答任务通常只有单独的问题而没有任何上下文语境,这就需要模型检索到与问题相关的常识知识并利用知识进行逻辑推理才能给出答案。因此如何检索到合适的常识知识以及将这些知识融入模型进行推理以解决常识问答任务成为了最近的研究热点。本文通过调研现有融合外部知识模型的优缺点,从融合结构化知识、融合文本知识和融合预训练语言模型中的隐式知识三个方面来解决常识问答任务。(1)融合结构化知识的常识问答技术研究。现有的方法使用预训练语言模型和图神经网络分别对问句上下文和知识图谱中的子图进行建模。然而这两种模式之间有限的交互可能会影响模型正确理解问句与知识之间的关系。本文提出了一种在语言模型和图神经网络之间进行细粒度信息融合和多层联合推理的模型,它不仅能对知识子图中的噪声节点进行动态剪枝,而且弥合了两种信息模态之间的差距。实验结果证明了我们的方法优于当前融合结构化知识的方法。(2)融合文本知识的常识问答技术研究。虽然常识知识图谱可以显式给出实体之间的结构性关联信息,但是我们必须要为知识图谱设计额外的结构对它进行建模,而且知识图谱的三元组形式缺乏丰富的上下文描述信息,语言模型可能很难理解实体的确切含义。因此,本文提出了一个融合多源文本知识的常识问答模型。在该模型中,通过知识到文本的转化算法,将结构化的图谱知识转化为文本,并利用词典释义为图谱实体提供上下文信息。实验证明这两种知识的引入都提高了模型在常识问答任务上的表现。(3)融合预训练语言模型中隐式知识的常识问答技术研究。先前的方法通过检索外部知识库来获取相关知识,然后在特定任务上以监督方式微调预训练语言模型。但是许多任务缺乏具有足够覆盖范围的适当知识库,而且监督微调的模型很难快速迁移到新的任务上。因此,本文提出了一种基于多阶段提示的无监督常识问答框架,使用预训练语言模型作为常识知识的来源,仅使用单个语言模型即可生成需要的常识知识以及问题对应的答案。该框架不依赖于特定的模型和任务,灵活且易于迁移到其他常识推理任务。
基于RoBERTa模型的小红书文本情感分析研究
这是一篇关于小红书文本,情感分析,RoBERTa,关键词抽取,提示学习的论文, 主要内容为小红书是目前我国最受欢迎的社交电商平台之一,用户可以在该平台上发布自己的购物心得和产品使用体验,随着用户数量的不断增长,平台上的文本数据也在快速增长。因此,针对小红书的笔记文本,本文利用自然语言处理技术深入挖掘其中正面和负面的情感表达,不仅能够让商家了解消费者对产品和服务的态度,同时也可以为消费者提供参考,具有一定的理论和现实研究意义。传统的情感分析方法在面对小红书文本表达口语化程度高、语法不规范和网络用语层出不穷的情况下,对语义特征的提取表现较差。本文在传统的情感分析方法上进行改进,提出了针对小红书文本的情感分析模型,主要工作如下:(1)构建了小红书文本数据集。通过爬虫技术获取用户发布的笔记文本,再进行文本清洗和人工标注情感标签后,最终构建了包含10747条文本的数据集。(2)针对小红书文本表达不规范,语义特征提取困难的问题,提出了基于RoBERTa-BiLSTM-Attention的情感分析模型。该模型引入基于BERT改进的RoBERTa来获取文本的向量化表示,解决传统Word2vec不能表示一词多义的问题,利用改进网络BiLSTM弥补LSTM无法利用下文信息的不足,同时与注意力机制融合,突出文本中的重要情感信息,实验结果表明该模型与其他基准模型相比分类性能更好。(3)针对目前常用的预训练模型加微调的情感分析方法存在上下游训练目标不一致,导致不能充分发挥预训练模型自身能力的问题,提出了基于RoBERTa融合关键词抽取与提示学习的情感分析模型,该模型将抽取到的关键词融入输入文本中增加文本的上下文信息,使模型更好地理解文本的情感,通过设计提示模板,利用提示学习提高下游任务对预训练语言模型中知识的利用,实验结果表明该模型具有更好的情感分析效果。(4)以提出的模型为基础,设计并实现小红书文本情感分析原型系统,该系统主要包括用户管理模块、数据处理模块和情感分析与结果展示模块。
基于记忆重演的增量关系抽取系统的设计与实现
这是一篇关于增量关系抽取,记忆重演,提示学习,增量学习的论文, 主要内容为关系抽取作为信息抽取中的重要环节,被广泛应用在知识图谱构建、问答系统等领域。它主要从非结构化的纯文本信息中提取方便人和机器处理的结构化的信息,一般由包含实体词和关系词的元组构成。传统关系抽取只关注在预定义好关系的静态数据集下模型的学习效果,而随着信息的不断增长,模型如何在动态增加的数据集中学习成为关系抽取新的挑战。由此引出增量关系抽取任务,即,模型需要抽取的关系集合会随着数据的积累而扩大,并且受限于存储空间和计算资源无法完整使用过去的训练数据。导致现有的增量关系抽取系统在工程应用中面临着两个问题:新关系的发现和模型的学习问题。随着深度学习技术的发展,采用预训练语言模型的深层语义特征普遍提升了自然语言处理任务的效果。但是在新关系发现方面,由于没有预定义的关系类型,预训练模型采用常规预训练微调范式进行学习,会引入额外的网络结构难以对文本中的关系有效识别。而在增量学习中现有的正则方法、动态网络法和记忆系统法虽然在图像分类中表现优异,但是在自然语言处理领域表现不佳。其中,基于记忆系统的增量关系抽取研究仍然存在灾难性遗忘、记忆集过拟合等问题。针对上述增量关系抽取系统存在的问题,本文提出了一种基于提示学习和上下文感知的关系类别推断方法和基于记忆重演的增量关系抽取算法,建立了可用性较强的增量关系抽取系统。本文主要工作如下:(1)提出了一种基于提示学习和上下文感知的关系类别推断方法。该方法将信息抽取建模为提示学习任务,引入手工设计的提示模板和知识增强的词映射器。并且融合了上下文语义特征对关系词进行无监督聚类推断出关系类别。在有限的人工参与和不引入额外参数的情况下与主流方法相比取得了更好的效果。(2)提出了一种基于记忆重演的增量关系抽取算法。该算法采用样本表示筛选实例,固定模型分类器调整实例表征,得到鲁棒性更高的伪样本作为记忆集。在学习新关系的同时,对记忆集添加蒸馏损失函数恢复模型对过去任务的分类能力,提升了模型在处理增量数据集的任务序列上的表现。(3)搭建了一个基于记忆重演的增量关系抽取的网站系统。该系统可以对增量关系抽取场景下用户的训练预测任务、数据集和不同的模型进行管理。系统可以对无标注数据集进行信息抽取和生成新关系集合。用户可以采用系统生成的或者自己添加的标注集完成增量关系抽取模型的训练以及后续预测工作。
基于提示学习的实体关系联合抽取和COVID19领域问答系统构建研究
这是一篇关于自然语言处理,提示学习,信息抽取,知识图谱,问答系统的论文, 主要内容为大数据时代下的互联网上产生了海量且冗杂的文本信息,提取关键信息以洞察价值变得尤为关键。同时,知识图谱和问答系统作为实现数据价值的有效工具,支撑其实现的实体识别和关系抽取任务受到了越来越多的关注。近年来出现的GPT-3等生成式预训练语言模型为信息抽取任务的做法提供了新思路。目前预训练-微调的做法会导致模型与下游任务之间存在差距并且信息抽取任务中会出现实体交叠等问题,导致抽取信息不够精确和全面。同时面对随时爆发的流行疾病,缺少一种针对疾病和药物方面的解决方案。针对上述问题,本文基于提示学习方法对信息抽取任务展开研究,设计并使用信息抽取模型参与知识图谱和问答系统的实现。1.基于提示学习的实体关系联合抽取方法研究。根据信息抽取任务抽取三元组的特点。由人工对模板进行设计,提示模板由标识符、插槽和用于连接上下文的自然语言组成,目标模板则设计为三元组形式用于引导模型生成期望输出。考虑到由人工构建的模板可能会因长度和内容不同导致模板起到的效果存在差异,通过调整关系在三元组中所处的位置设计了三种类型的提示模板。针对数据中部分实体会出现交叠的情况,分别设计了针对有交叠和无交叠情况下的目标模板。为了进一步丰富模板的提示内容,根据数据的标注信息将实体关系信息插入模板插槽中。为了加强模板在模型中的提示效果,为模板设计了对应编码层。另一方面。考虑到由人工构建的模板使模型学习效果差等问题,通过引入通配符取代提示模板中用于连接上下文的自然语言文本,进一步简化模板。同时,通过设计提示模板优化层,使模型仅对通配符部分的参数进行优化,使模型能够通过训练参数变化找到效果较好的模板形式。实验结果表明,所提出的方法通过引入提示模板缩小了预训练模型与下游任务之间的差距,同时基于模板的方法能够有效解决实体交叠问题,从而得到较好的抽取结果。2.基于COVID-19疾病和药物的知识图谱构建研究。首先,以百科名医网站的网页知识作为数据源,并通过爬虫技术完成对数据的采集。其次,使用信息抽取模型对采集数据进行知识抽取。最后,通过使用neo4j图数据库实现知识图谱的数据存储和的可视化。3.基于COVID-19疾病和药物的问答系统构建研究。首先,对系统进行需求分析,将系统自顶向下设计为应用层、处理层和数据层三层。其次,采用Django框架对系统架构设计为MVT模式。接着,对系统中应用模块的业务逻辑进行设计和实现。最后,将设计好的系统进行展示和测试。
基于知识图谱特征扩展的极短文本分类算法研究
这是一篇关于极短文本分类,特征扩展,注意力机制,提示学习的论文, 主要内容为随着网络服务的快速发展,越来越多的极短文本如新闻标题出现在互联网上,用户面临信息过载问题。短文本分类系统可以有效地帮助用户更好的进行数据的过滤。现有的短文本分类方法大致分为两种:基于自身资源和基于外部知识的方法。其中,基于外部知识的方法取得了显著的效果。但将基于外部知识的方法直接应用于极短文本时具有局限性,没有考虑到极短文本的特性,并且模型只是简单的将所有外部知识融入模型。此外,当面临只有少量训练样本的情况下,无法取得预期效果。为了解决上述问题,本文在基于外部知识的短文本分类方法的研究基础上,提出了三种新的极短文本分类算法。本文的主要创新点和研究工作如下:(1)提出一种基于关键词筛选和注意力机制的极短文本分类方法(a hybrid method via Keywords Screening and Attention Mechanisms,called KSAM),该模型能够有效的解决极短文本的分类结果由一到两个关键词所决定,并且通过知识图谱引入关键词的相关概念来进行特征扩展,有效的解决极短文本特征稀疏的问题。同时模型中注意力机制模块能够使模型更加关注对分类起到作用的关键词和概念,使数据得到高效利用。(2)提出了一种基于知识图谱和提示学习的小样本极短文本分类算法(Prompt-Learning for Short Text classification,called PLST)。现有的基于外部知识的短文本分类方法需要大量的训练数据,会耗费巨大的成本。然而近期基于提示学习的方法在小样本的情况下取得了显著的成果。考虑到极短文本的特性,我们通过知识图谱对提示学习中的verbalizer进行了扩展以提高分类效果,并且通过在多个数据集上的实验结果,证明了此方法的有效性。(3)提出了基于迭代verbalizer的提示学习极短文本流分类方法(Prompt tuning with Updated Verbalizer,called PUV)。在之前的工作中,通过知识图谱对 verbalizer的扩展是静态的,因此在极短文本数据流上存在着局限性。为了改进模型的表现,提出一种自动更新verbalizer的方法,并在现有工作的基础上,通过额外的策略对verbalizer进行扩展,在数据集上的实验结果验证了该算法的有效性。KSAM算法的提出是为了解决极短文本分类结果由一到两个关键词所决定和数据稀疏的问题。在此基础上,由于收集大量有标注的训练数据会耗费巨大的成本,提出PLST算法来解决此问题。最后由于PLST在极短文本流分类上存在着局限性,在PLST的基础上,提出了 PUV来解决极短文本流分类问题。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设导航 ,原文地址:https://m.bishedaima.com/lunwen/48773.html