基于生成式对抗网络的文本数据增强系统的设计与实现
这是一篇关于对抗生成网络,强化学习,文本生成,深度学习的论文, 主要内容为随着人工智能的高速发展,自然语言处理等计算机技术获得了极大关注,具有很强的研究潜力。文本生成在自然语言处理领域有着重要意义,高质量的文本对于对话系统、智能翻译、文学写作、知识图谱等与自然语言处理相关的任务具有重要影响作用。文本数据由于自身的离散性和语义结构自身的复杂性,容易出现文本训练数据样本数量少、质量差、样本缺失等难题。现有的文本生成技术的研究已经有了较大的进展,但是仍存在着一定的局限性。例如基于循环神经网络的方法通过对数据概率分布显式建模,利用最大似然估计进行训练优化,但是文本等复杂数据的概率近似计算复杂,并且对训练数据的概率分布过度依赖;基于卷积神经网络的方法由于参数共享特性使得需要优化的参数数目极大缩减,但网络学习单词之间长距离依赖关系的效果较差;基于生成对抗网络的方法采用判别器去度量映射分布的优劣,但是仍存在判别器回传给生成器的信号指导性不强,导致生成器训练方向不明确的问题。针对上述问题,本文提出了一种基于生成对抗网络模型的文本数据增强算法。首先,针对生成器训练中反馈指导信号不足,本文采用增加特征指导网络的方式进行改进,将从判别器提取的高阶文本特征经过转换送入生成器进行反馈指导;其次,针对文本生成过程中采样不充分、生成文本质量差的问题,本文制定相关文本语义规则,在生成时间步进行限制,提高文本生成质量。最后,本文在合成数据、COCO文本标注、中国古诗歌等数据集上进行文本生成对比实验,结果表明在各项指标上本文提出的基于生成对抗网络模型的文本数据增强算法表现优于其他对比模型。针对提出的基于生成式对抗网络的文本数据增强模型,本文采用python语言与TensorFlow框架构建和实现了适用于文本的数据增强系统,主要包括文本数据预处理模块、文本增强任务管理模块、文本数据增强模块和文本生成展示模块等。通过进行功能和性能测试,验证了本文所设计和实现的文本数据增强系统可以改善训练数据集样本少、数据质量差的问题,可有效支撑自然语言处理任务。
领域知识图谱构建方法的研究与实现
这是一篇关于知识图谱,SVM,标注语料,文本生成的论文, 主要内容为知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,提供了一种对海量数据的有效的组织和管理方式。在当前的大数据时代,各行业无时无刻都在产生着大量的数据,众多行业都需要构建自身领域的知识图谱(领域知识图谱)。然而,领域知识图谱的构建往往面临着领域相关数据缺乏、人工标注依赖大等困难。因此,如何在有限的领域数据条件下,自动创建新的标注数据,减少人工工作量是当前领域知识图谱构建迫切需要解决的关键问题。本文围绕领域知识图谱构建中的数据处理、知识抽取、知识融合、知识存储等主要环节展开工作,重点研究数据处理和知识抽取,针对现有技术的不足,提出新的方法和解决方案。本文的主要贡献有如下几个方面:1.在数据处理环节,针对筛选领域文本过程中人工工作量巨大的问题,提出一种基于局部敏感哈希的SVM分类方法,实现自动领域文本筛选。该方法采用局部敏感哈希算法对原始训练样本进行映射,进而筛选出可能的边界样本点作为SVM训练样本,显著地减少了SVM训练样本数目,提高了模型构建速度。同时,采用网格搜索算法以交叉验证的方案实现SVM参数的选择以提高文本分类精度。在公开数据集UCI Adult上对提出方法进行了性能分析,并在搜狗实验室文本分类数据集上验证了效果。2.在知识抽取环节,针对模型训练中标注语料缺乏的问题,提出一种基于Seq2Seq模型的标注语料自动生成方法,用以扩充形如“实体1-关系-实体2-句子”的四元组标注语料。该方法对大量未标注的文本采用基于保留词的回译法,生成相应同义句作为训练语料;在模型训练阶段,采用实体标签替换的方法,以使得模型学习到与实体无关的同义句生成规则;在文本生成阶段,采用基于自检索束搜索的生成策略,保证了模型的输出包含指定实体和关系。通过将生成的标注语料作为训练语料用于关系抽取任务中,验证了该方法的有效性。3.根据以上研究,设计了一个领域知识图谱构建的方案,并以金融领域知识图谱构建为例,具体设计和实现了从数据处理、知识抽取、知识融合到知识存储的图谱构建流程,并展示了金融领域知识图谱的基本功能。
基于大规模知识库的实体描述生成和应用
这是一篇关于知识图谱,实体描述,文本生成,表示学习的论文, 主要内容为知识图谱在工业应用中拥有越来越重要的地位,同时也是人工智能领域重要的基础设施。知识图谱或知识库中拥有大量的事实,主要由数目繁多的实体与它们之间的相互关系所构成。此外,知识图谱一般还会包括针对每个实体的自然语言描述文本,一般是实体的一句话简介。这样的实体描述可以直观地向用户呈现实体的概要信息,从而在工业界中有广泛的应用。本文提出了一种基于已有的大规模知识库自动生成实体描述的方法,主要使用先对知识库进行一定程度的补全,然后使用端到端神经网络模型进行文字的生成,最后演示了在面向最终用户的问答系统中应用实体描述的方法。知识库的补全涉及表示学习的方法,通过学习实体和关系的低维向量表示,实现补全部分缺失实体的效果。以往的方法中主要都是设计判别式的模型,本文提出了在较新的对抗训练框架下结合判别式模型和生成式模型的新方法,使得系统性能在现有的判别式模型基础上获得了进一步的提升。在补全了知识库之后,本文采用编码器解码器框架,提出了一个端到端的神经网络模型。编码器和解码器均为神经网络,解码的过程中还使用了关注机制来建模实体描述的每个词与知识库数据的相关性。通过这个方法即可联合学习实体描述生成中的两个重要步骤,即内容选择和表述具现化。此外,本文主要讨论了知识库上的多跳事实的重要性。为了提升句子的流畅度,这个模型可以编码知识库中的多跳事实,并提升了自动化评价指标。最后,问答系统是知识库的一个典型应用。为了演示实体描述的作用,本文展示了在问答系统中使用实体描述的一种方法。本文设计了一个针对真实场景下的问答系统,其构建方法包括模板匹配和语义解析两大类手段,分别应对不同的用户问句。实体描述可以作为一个排序特征嵌入现成的框架之中,本文设计了一个神经网络的匹配模型,用于建模用户问句和实体描述之间的相似性,从而给出用户问句对于每个实体的一个打分。这个功能最终作为一个微服务,嵌入问答系统中。
面向英文科技论文的文本自动生成系统
这是一篇关于论文写作,文本生成,预训练语言模型,Word插件的论文, 主要内容为随着现代社会对科研投入的日益增加,每年产生的论文数量越来越多,但英文论文写作对于非英文母语者是一件十分困难的事。写作者不仅需要清晰明确地表达实验过程与结果,还得正确地使用英文词汇进行论述。而近年来,自然语言生成技术发展迅速,在理论和实际应用上都取得了长足进步。因此,本文研究将成熟的自然语言生成技术应用于英文论文写作中,致力于提高写作效率。本文首先对系统的实现过程中存在问题进行分析,并介绍了解决问题的模型算法。针对论文标题生成中使用预训练模型导致的编码端和解码端不平衡问题,本文采用了适用于生成类任务的T5模型,并在其上使用论文数据进行微调;此外,对于论文摘要生成问题,本文改进了graph2text模型,并针对该模型使用的知识图结构,基于信息抽取工具Dyg IE和数据库设计了一套完善而人性化的操作流程;最后,系统使用Word2Vec词向量模型、Stanfor Core NLP词性分析算法和词相似度匹配算法实现了词粒度的词润色功能,使用LASERTAGGER序列标记模型实现句粒度的润色功能。随后对用户实际需求进行分析,将系统划分为4个核心功能模块,使用Spring Boot和微服务结构进行开发,并介绍了各模块的设计过程。系统主要分为标题生成、摘要生成、文本复述和后台管理模块,并配备了对应的数据库作为底层数据支持。系统以科技论文为基础数据设计了一系列面对论文写作的文本生成模型,能够帮助用户快速、便捷地生成论文标题、摘要和润色语句,减轻用户写作负担。系统以Word插件形式构建前端界面客户端,贴合用户实际写作场景,提供了人性化的交互方式,让用户更专心于写作中,提高工作效率。
领域知识图谱构建方法的研究与实现
这是一篇关于知识图谱,SVM,标注语料,文本生成的论文, 主要内容为知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,提供了一种对海量数据的有效的组织和管理方式。在当前的大数据时代,各行业无时无刻都在产生着大量的数据,众多行业都需要构建自身领域的知识图谱(领域知识图谱)。然而,领域知识图谱的构建往往面临着领域相关数据缺乏、人工标注依赖大等困难。因此,如何在有限的领域数据条件下,自动创建新的标注数据,减少人工工作量是当前领域知识图谱构建迫切需要解决的关键问题。本文围绕领域知识图谱构建中的数据处理、知识抽取、知识融合、知识存储等主要环节展开工作,重点研究数据处理和知识抽取,针对现有技术的不足,提出新的方法和解决方案。本文的主要贡献有如下几个方面:1.在数据处理环节,针对筛选领域文本过程中人工工作量巨大的问题,提出一种基于局部敏感哈希的SVM分类方法,实现自动领域文本筛选。该方法采用局部敏感哈希算法对原始训练样本进行映射,进而筛选出可能的边界样本点作为SVM训练样本,显著地减少了SVM训练样本数目,提高了模型构建速度。同时,采用网格搜索算法以交叉验证的方案实现SVM参数的选择以提高文本分类精度。在公开数据集UCI Adult上对提出方法进行了性能分析,并在搜狗实验室文本分类数据集上验证了效果。2.在知识抽取环节,针对模型训练中标注语料缺乏的问题,提出一种基于Seq2Seq模型的标注语料自动生成方法,用以扩充形如“实体1-关系-实体2-句子”的四元组标注语料。该方法对大量未标注的文本采用基于保留词的回译法,生成相应同义句作为训练语料;在模型训练阶段,采用实体标签替换的方法,以使得模型学习到与实体无关的同义句生成规则;在文本生成阶段,采用基于自检索束搜索的生成策略,保证了模型的输出包含指定实体和关系。通过将生成的标注语料作为训练语料用于关系抽取任务中,验证了该方法的有效性。3.根据以上研究,设计了一个领域知识图谱构建的方案,并以金融领域知识图谱构建为例,具体设计和实现了从数据处理、知识抽取、知识融合到知识存储的图谱构建流程,并展示了金融领域知识图谱的基本功能。
知识抽取方法的研究与实现
这是一篇关于知识抽取,实体关系抽取,文本生成,自然语言处理的论文, 主要内容为随着信息技术的迅速发展,非结构化文本数据在互联网上的大量涌现,如何从海量非规范化文本数据中抽取出结构化知识,成为了国内外学术界研究的热点问题。对知识抽取方法的研究旨在探索从非结构化文本数据中抽取出结构化知识的理论方法,并设计高效的知识抽取新算法。知识通常以实体以及实体间的关系构成的三元组形式来表示和存储,从而方便了知识图谱的构建、检索和使用,因此知识抽取是自然语言处理的重要任务之一。现有的知识抽取方法主要包括有监督的知识抽取方法和无监督的知识抽取方法,其中,根据任务的不同,有监督的知识抽取方法可以划分为命名实体识别、事件抽取以及实体关系抽取;无监督的知识抽取方法则没有明确的任务划分,根据其使用的技术主要分为基于规则的方法、基于远程监督的方法以及基于预训练语言模型的方法。本文在对现有知识抽取方法研究的基础上,设计了新的知识抽取方法,其主要贡献如下:(1)针对基于问答的实体关系抽取方法存在的实体冗余、实体重叠以及误差累积等问题,提出了模式判别优先的实体关系抽取方法。该方法首先判别出句子中包含的所有模式,然后利用模式构建问题指导后续头实体和尾实体的抽取,解决了实体冗余问题;在实体抽取步骤中,引入了基于子串的实体识别方法,并且融入了丰富的注意力特征,在提高实体识别准确率的同时还解决了实体重叠问题;在抽取完成之后,加入了误差过滤模块,对抽取到的实体关系三元组进行过滤,缓解了误差累积问题。(2)针对基于预训练语言模型的知识抽取方法存在的知识数量少以及知识质量低的问题,提出了基于上下文的生成式知识抽取方法。该方法首先使用现有知识库中的知识微调模型,调整模型输出分布与知识库中的知识分布相似;然后采用基于上下文的方式生成新的知识,并在解码的过程中提出改进的多元集束搜索算法提高知识的数量及质量;最后使用知识过滤模型过滤抽取到的知识来进一步提升知识的质量。(3)在知识抽取方法研究的基础上,设计并实现了融合新方法的知识抽取与发现系统,用户既可以从任意给定文本中抽取实体关系三元组,也可以为指定的实体发现与该实体有关的知识。系统还为管理员提供了模型训练以及数据管理的功能,便于针对具体的数据及应用场景对系统迁移,提高了系统的灵活性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/48193.html