基于Transformer及语义监督方法的NLP生成式任务研究
这是一篇关于自然语言处理,自动文本摘要,语义监督,神经机器翻译,关键信息融合的论文, 主要内容为自然语言处理(NLP)作为人工智能领域的重要分支,其研究的方向十分多。其中生成式任务更是当下的研究热点,因为生成式任务更具挑战性,它主要包括自动文本摘要和机器翻译两个子任务。自动文本摘要即机器从给定的文本中提取整个文本的关键内容。自动文本摘要可以极大地提升人们从海量数据中获取关键信息的效率,除此自动文本摘要还具备为短新闻文本生成标题的用途。当下基于神经网络设计的文本摘要模型都用到了多层编码器,而源文内容经过多层编码器后虽然可以挖掘到深层语义信息,但容易产生语义偏差。机器翻译任务即让机器代替人类完成源语言到目标语言的翻译工作。当下机器翻译研究使用神经机器翻译模型居多。当下多数神经机器翻译模型都是基于Transformer模型进行改进,但是这些模型都没有利用到源语言文本中的关键信息,而对关键信息的翻译是否准确直接决定了最终的翻译质量。本文为解决上述问题,主要完成了以下工作:1.首先,我们针对BERT无法适应文本摘要任务的问题,根据UNILM模型中的思路修改了掩码矩阵,从而让BERT可以完成文本摘要任务。其次,我们为了解决输入经过多层编码后出现的语义偏差问题,提出了一种基于胶囊网络的语义监督方法改善该问题。通过胶囊网络对第一层及最后一层的编码结果进行语义特征聚类,之后再对聚类后的语义特征进行距离监督,从而起到语义监督作用。最后,我们在LCSTS及CNN/Daily Mail数据集上进行了实验。2.我们提出了一种基于Transformer模型融合关键信息的神经机器翻译模型,以改善机器翻译模型对于关键词翻译存在的漏译、错译等问题。我们对当前主流的关键词提取算法进行了对比研究及筛选,最后选择了实际效果最好的Text Rank算法。关键信息的融合我们使用Multi-head attention的方式,并通过阈值控制关键信息对深层编码信息的干扰。为了验证了我们提出的方法的有效性,我们在WMT数据集的中-英和英-德两个数据集上进行了实验。3.为了验证我们所设计的模型的实际应用效果,我们设计实现了一个线上文本摘要系统。该系统基于B/S架构设计,并采用前后分离的方式进行部署实现。该系统包括用户登录注册及文本摘要等主要功能。我们还对整个系统进行了功能性测试及压力测试等。最终实际效果表明我们设计的系统简单易用,且能够提供相对准确的文本摘要服务。
基于特定领域的自然语言问句与SPARQL转换的关键技术研究
这是一篇关于神经机器翻译,SPARQL,RDF,知识库的论文, 主要内容为近年来,基于RDF的结构化查询语言SPARQL允许用户构造复杂的查询并访问知识库,提高了查询的精确性。然而SPARQL语言具有复杂的语法和语义,通常仅限于精通查询语言的语义Web专家使用,对于普通用户来说,知识库查询成为一项艰巨的任务。为了让更广泛的用户方便地访问知识库,前人已经研究了将更易使用的自然语言问句自动转化成SPARQL的方法。而近年来神经机器翻译模型也被用于将更自由的自然语言语句翻译为SPARQL查询,尽管翻译效果在各方面都有很大的提升,但依然存在词汇错译(包括集外词错译和歧义词错译等)问题。这是由于神经机器翻译系统的性能高度依赖于平行语料的规模和质量,而自然语言-SPARQL对应的平行语料高度稀缺,制约了翻译模型的性能,因此会产生错译。此外,当前基于语义解析的知识库问答系统,无法发挥出自然语言交互模式的优势。因此,为用户查询知识库中的结构化知识开发一套使用自然语言查询知识库的系统是非常有必要的。本文主要围绕词汇错译和构建基于SPARQL翻译知识库问答系统这两个方面的问题展开研究,本文的主要工作和创新点如下:(1)为了解决词汇错译问题,本文提出一种融合外部特征的SPARQL翻译方法。该方法从语义的层次上对错译问题进行建模,将单语预训练词向量和语义知识库融入到NMT系统来学习术语到本体标签的映射关系,从而改善错译问题。实验结果表明,融合外部特征的SPARQL翻译模型显著改善了自然语言转换SPARQL的准确率。此外,融合语义知识库的模型在特定领域Monument数据集上可达到目前最好的翻译准确率。(2)本文设计并实现了基于SPARQL翻译模型的知识库问答系统。首先本文通过笔者手动构建的查询模版生成了基于电影领域的自然语言-SPARQL语句平行语料。此外,结合本文第三章提出的改进算法训练了一个神经机器翻译模型,最后实现了一个基于电影领域的知识库问答系统,该系统不仅具有友好的交互界面,而且具有问句答案的知识图谱和SPARQL翻译模型输出展示。
中文文本校对关键技术研究与应用
这是一篇关于中文文本校对,语言模型,神经机器翻译的论文, 主要内容为随着微型计算机技术的发展,信息产生的速度飞速增长。传统文本工作基本上全部在计算机上进行。然而只要涉及到文本的领域,就难免存在文本错误的问题。传统人工校对的方式很难满足日益增加的文本校对需求,人们迫切的需要一种高速、可靠的自动文本校对技术。中文文本自动校对技术可以帮助人们校对各个领域中遇到的文本错误,包括政府、媒体发布的公告、新闻和学者投稿的学术论文、研究报告等文本资料,在文字识别和语音识别等其他自然语言处理任务上,也能发挥巨大的作用。综上,研究自动文本校对具有广泛的应用领域和实用价值。在深入调研了国内外文本校对相关研究的基础上,本文进行了以下三方面的研究:1.中文字词错误校对。在分析了前人研究的相关算法优缺点的基础上,提出一种基于LSTM和N-gram的k-最短路径模糊分词校对算法。该算法分为三个阶段:首先通过改进的模糊匹配算法,在词典中模糊匹配句子中的字串,获取可能的校对候选词集,构成词图;然后以Bigram概率作为词语间边的权重,求解词图的k条最短路径;最后采用Trigram和LSTM语言模型对k条句子重新排序,选择最优的一条句子作为最终校对结果。在SIGHAN2013数据集上,本算法的成绩超过了在相同数据集上测评的其它系统。2.中文语法错误校对。根据中文语法错误校对任务的特点,通过分析现有中文语法校对方法存在的问题,提出了一种基于语言模型和神经机器翻译的语法校对方法。该算法的核心是卷积序列到序列(Conv-seq2seq)模型。模型的训练过程中,通过正句-错句平行语料训练错句生成模型,人工构造错误句子,增加训练语料的规模。借鉴小语种翻译问题中效果显著的迁移学习方法,通过预训练的英语-汉语翻译模型的参数初始化语法校对模型,提升模型性能。在模型应用过程中,先将句子进行字词错误校对,再输入模型,最后将集束搜索的结果通过语言模型进行重新排序。该算法在NLPCC2018数据集上取得了超过其他校对系统的F0.5分值。3.采用轻量级web框架Flask作为主体,设计并实现了基于B/S架构的中文文本校对测试系统。系统包括知识获取模块、前端交互模块、预处理模块和自动校对模块四个部分,实现了中文文本的字词错误校对、语法错误校对、标点符号和数字校对等功能。
基于特定领域的自然语言问句与SPARQL转换的关键技术研究
这是一篇关于神经机器翻译,SPARQL,RDF,知识库的论文, 主要内容为近年来,基于RDF的结构化查询语言SPARQL允许用户构造复杂的查询并访问知识库,提高了查询的精确性。然而SPARQL语言具有复杂的语法和语义,通常仅限于精通查询语言的语义Web专家使用,对于普通用户来说,知识库查询成为一项艰巨的任务。为了让更广泛的用户方便地访问知识库,前人已经研究了将更易使用的自然语言问句自动转化成SPARQL的方法。而近年来神经机器翻译模型也被用于将更自由的自然语言语句翻译为SPARQL查询,尽管翻译效果在各方面都有很大的提升,但依然存在词汇错译(包括集外词错译和歧义词错译等)问题。这是由于神经机器翻译系统的性能高度依赖于平行语料的规模和质量,而自然语言-SPARQL对应的平行语料高度稀缺,制约了翻译模型的性能,因此会产生错译。此外,当前基于语义解析的知识库问答系统,无法发挥出自然语言交互模式的优势。因此,为用户查询知识库中的结构化知识开发一套使用自然语言查询知识库的系统是非常有必要的。本文主要围绕词汇错译和构建基于SPARQL翻译知识库问答系统这两个方面的问题展开研究,本文的主要工作和创新点如下:(1)为了解决词汇错译问题,本文提出一种融合外部特征的SPARQL翻译方法。该方法从语义的层次上对错译问题进行建模,将单语预训练词向量和语义知识库融入到NMT系统来学习术语到本体标签的映射关系,从而改善错译问题。实验结果表明,融合外部特征的SPARQL翻译模型显著改善了自然语言转换SPARQL的准确率。此外,融合语义知识库的模型在特定领域Monument数据集上可达到目前最好的翻译准确率。(2)本文设计并实现了基于SPARQL翻译模型的知识库问答系统。首先本文通过笔者手动构建的查询模版生成了基于电影领域的自然语言-SPARQL语句平行语料。此外,结合本文第三章提出的改进算法训练了一个神经机器翻译模型,最后实现了一个基于电影领域的知识库问答系统,该系统不仅具有友好的交互界面,而且具有问句答案的知识图谱和SPARQL翻译模型输出展示。
融入预训练语言模型的中-越神经机器翻译方法研究
这是一篇关于神经机器翻译,预训练语言模型,中文,越南语,注意力机制,推敲网络的论文, 主要内容为神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学习到语言信息,如何利用预训练语言模型中的语言信息以提升中文-越南语这类低资源机器翻译性能,具有深入研究的价值。本文研究使用预训练语言模型提升中文-越南语机器翻译性能方法,主要从以下几个方面开展研究:(1)基于多重注意力机制约束的中越平行句对抽取方法:对于神经机器翻译这一任务,主流做法仍是基于大量双语平行句对的监督学习,从篇章中抽取出可用于神经机器翻译模型训练的双语平行语料是训练神经机器翻译前重要的前置任务。利用中文预训练语言模型以及越南语预训练语言模型对句对中的两种语言文本分别进行编码后获得两种语言的语义信息表征向量,利用注意力机制将两种语言的表征向量进行融合后得到该句对的表征向量,对该表征向量进行计算分类,筛选后得到符合要求的句对。(2)融入BERT与词嵌入双重表征的中越机器翻译方法:针对中越神经机器翻译对源语言的编码表征能力不足问题,本文提出一种融合源语言BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立两种表征之间的联系后进行拼接操作得到双重表征向量,再经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。(3)基于预训练指导推敲生成的中越神经机器翻译方法:针对中越神经机器翻译解码译文质量不佳问题,本文提出一种基于预训练指导推敲生成的中越神经机器翻译方法。由于目标端文本在训练期间无法得知,所以本文采用推敲网络的方式设计神经机器翻译模型,为双解码器结构,第一段解码器生成粗糙译文,使用预训练语言模型约束指导第二段解码器对粗略译文的推敲优化过程,以此提高最终译文质量。(4)中越神经机器翻译原型系统:本文设计并实现了一个基于神经机器翻译技术的原型系统。该系统为B/S架构,Web客户端采用Javascript语言Vue框架搭建,服务器端采用Python语言Flask框架搭建,数据存储于Sqlite轻量级数据库,模型训练基于Python语言Fairseq框架。系统实现在线平行句对判断功能,在线机器翻译功能。
面向电商领域的无监督领域适应机器翻译研究
这是一篇关于电商领域,无监督领域适应,神经机器翻译,统计机器翻译的论文, 主要内容为跨境电子商务依托互联网技术的发展成为当前增长最快的零售渠道之一,与此同时,出口产品信息的翻译需求日益突显,面向电商领域的机器翻译研究愈发重要。但是电商领域机器翻译系统构建过程中存在两个主要的问题:电商领域公开可利用的数据集稀缺和不同地区不同语言背景的电子商务平台的产品信息描述文化风格差异较大。针对这些问题,本文首先从不同电子商务平台获取了不同语言的产品信息数据,然后基于获取的电商领域单语数据,分别从数据特征、模型优化和系统结合三个角度提出了不同的无监督领域适应方法,提升电商领域机器翻译模型的性能。(1)从数据特征的角度,本文提出基于文化风格区分的无监督领域适应电商产品信息翻译方法。通过给不同语言平台的电商数据添加对应的文化风格区分标记,在训练过程中结合当前数据的所属类别,根据数据的类别信息获取相应的文化风格特征向量,从而提高电商领域产品信息翻译的准确度。实验结果表明,本文提出的混合训练方法和文化风格区分的无监督领域适应方法明显优于各种已经存在的针对单语语料的无监督领域适应方法。(2)从模型优化的角度,本文提出基于信息传递增强的无监督领域适应电商产品信息翻译方法。目前神经机器翻译模型存在泛化能力不强的问题,具体表现为在外领域训练数据上效果较好,而在电商领域表现不佳,针对该问题,本文提出层间和子层间信息传递增强的方法,增强神经网络表示特征的捕获能力,使得神经网络能够捕获更丰富的语义信息。通过对神经机器翻译模型的优化,模型的泛化能力得到了提升,电商领域产品信息翻译的质量也得到了进一步的提高。实验结果表明本文提出的方法无论在外领域平行数据集上还是在电商领域单语数据集上均使得翻译效果得到一定的提升。(3)从系统结合的角度,本文提出基于互训练的无监督领域适应电商产品信息翻译方法。现有研究证明,当训练数据稀少或存在噪音时,统计机器翻译的效果优于神经机器翻译,结合电商平台数据的特点,统计机器翻译在电商数据上有更好的鲁棒性,因此本文提出通过互训练的方法结合统计机器翻译和神经机器翻译构建翻译系统,提升电商产品信息翻译的效果。实验结果表明将统计机器翻译和神经机器翻译相结合能够显著提升电商领域产品信息翻译的质量。
融入预训练语言模型的中-越神经机器翻译方法研究
这是一篇关于神经机器翻译,预训练语言模型,中文,越南语,注意力机制,推敲网络的论文, 主要内容为神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但在中文-越南语这类低资源机器翻译任务中,中文-越南语的双语平行语料不足,导致中文-越南语的机器翻译的性能并不理想,如何在有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大规模语料设计了预训练语言模型,从大规模的单语数据中预训练语言模型通过训练能够充分学习到语言信息,如何利用预训练语言模型中的语言信息以提升中文-越南语这类低资源机器翻译性能,具有深入研究的价值。本文研究使用预训练语言模型提升中文-越南语机器翻译性能方法,主要从以下几个方面开展研究:(1)基于多重注意力机制约束的中越平行句对抽取方法:对于神经机器翻译这一任务,主流做法仍是基于大量双语平行句对的监督学习,从篇章中抽取出可用于神经机器翻译模型训练的双语平行语料是训练神经机器翻译前重要的前置任务。利用中文预训练语言模型以及越南语预训练语言模型对句对中的两种语言文本分别进行编码后获得两种语言的语义信息表征向量,利用注意力机制将两种语言的表征向量进行融合后得到该句对的表征向量,对该表征向量进行计算分类,筛选后得到符合要求的句对。(2)融入BERT与词嵌入双重表征的中越机器翻译方法:针对中越神经机器翻译对源语言的编码表征能力不足问题,本文提出一种融合源语言BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立两种表征之间的联系后进行拼接操作得到双重表征向量,再经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。(3)基于预训练指导推敲生成的中越神经机器翻译方法:针对中越神经机器翻译解码译文质量不佳问题,本文提出一种基于预训练指导推敲生成的中越神经机器翻译方法。由于目标端文本在训练期间无法得知,所以本文采用推敲网络的方式设计神经机器翻译模型,为双解码器结构,第一段解码器生成粗糙译文,使用预训练语言模型约束指导第二段解码器对粗略译文的推敲优化过程,以此提高最终译文质量。(4)中越神经机器翻译原型系统:本文设计并实现了一个基于神经机器翻译技术的原型系统。该系统为B/S架构,Web客户端采用Javascript语言Vue框架搭建,服务器端采用Python语言Flask框架搭建,数据存储于Sqlite轻量级数据库,模型训练基于Python语言Fairseq框架。系统实现在线平行句对判断功能,在线机器翻译功能。
神经机器翻译关键技术研究与应用
这是一篇关于神经机器翻译,深度神经网络,中文词向量,机器翻译系统的论文, 主要内容为在如今经济全球化的时代,翻译服务的重要性逐渐体现。相较于人工翻译服务而言,机器翻译的速度更快,更能满足社会的需求。神经机器翻译作为一种利用大规模双语平行语料对神经网络进行训练,从而得到翻译模型的技术,已经成为机器翻译的主流方法,被广泛用于各种语言之间的翻译工作当中。本文以中英神经机器翻译为例,对神经机器翻译的关键技术进行了研究与应用。神经机器翻译通常仅通过平行语料学习翻译知识而忽略了语言本身的先验特征。除此之外,在主流的神经机器翻译模型中,只有最顶层编码器的输出得到了利用,其他的深层信息则被忽略,这也限制了翻译模型的性能。本文为解决以上问题,完成了以下工作:(1)提出了融入多粒度形态特征的中英神经机器翻译模型。中文词语由汉字组成,而汉字能够进一步划分为部件,这些组件的形态特征与词语的语义有着极为密切的联系。本文创新性地提出的基于部件n元组的中文词向量模型能够获取细粒度的形态特征。而粗粒度特征则通过BERT预训练语言模型的词嵌入层获得。在中英神经机器翻译任务中,本文的翻译模型相较于基准模型Transformer提高了0.78的BLEU-4评分。本文提出的中文词向量模型在词向量评测任务中分别取得了88.8与63的最高分,验证了模型提取中文形态特征的能力。(2)提出了基于深层编码器信息的神经机器翻译模型。为了解决在深层翻译模型中解码器仅对最顶层的编码器输出进行解码的问题,本文设计了三种方法使得深层编码器的输出信息也能被模型充分利用,分别为:平行层编码器信息的引入,多层编码器信息的引入,动态深层编码器信息的引入。本文根据三种方法分别训练得到三种基于深层编码器信息的翻译模型,并与基准模型Transformer在中英神经机器翻译任务上进行对比。实验结果表明,本文提出的模型最高比基准模型提高了0.89的BLEU-4评分,验证了本文方法的有效性。(3)基于本文创新点改进的神经机器翻译模型,设计并实现了一个神经机器翻译WEB系统。该系统基于B/S架构,实现了用户交互层,核心服务层及模型处理层,系统的用户界面简洁易用,能够提供准确的机器翻译服务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://m.bishedaima.com/lunwen/47994.html