引入多策略阴阳性信息识别的英德神经机器翻译研究
这是一篇关于机器翻译,阴阳性信息,深度学习的论文, 主要内容为目前,作为自然语言处理热门方向之一的机器翻译获得了飞速发展,近些年机器翻译基础模型的效果也都在不断提升,如Transformer模型就到达了一个很高的翻译水平。但由于神经网络模型在训练时只集中关注平行语料之间的相关信息,而不能获取句子内的潜在语法信息。所以,机器翻译对于缺乏句内潜在信息的词汇翻译处理能力差,甚至会漏翻部分词语。如英德翻译中,由于英语没有阴阳性信息,神经机器翻译模型也无法捕获英语中潜在的阴阳性信息,因此在翻译德语时对有阴阳性信息的词容易错误翻译。如果能有效的解决英译德过程中阴阳性信息缺乏的词汇翻译问题,将会进一步提升英德机器翻译模型的表现。本文提出了三种在英语中预测阴阳性信息的方法。一是利用知识图谱获取英语阴阳性信息的方法,其主要依据是通过英文句子中的人名链接到知识图谱中获得人名的性别,根据获得的人名性别给句内单词赋予相关的阴阳性。二是利用篇章信息中人称代词及指代消解结果获取阴阳性信息,在英语中人称代词是有性别区分的,且人称代词指代的人名在其前文,所以可通过人称代词及其指代消解结果获得阴阳性信息。三是通过双语平行语料训练阴阳性序列标注模型来获取阴阳性信息,在英德平行语料中德语含有阴阳性信息而英语中没有,因此可以从德语中获取阴阳性信息,通过英德对齐信息将德语阴阳性赋予给英文句子,同时利用获得的英语句子及其阴阳性序列标注来训练一个英语阴阳性序列标注模型,以自动获得英语的阴阳性序列标注。通过多个策略获得了阴阳性信息之后,再将阴阳性信息与机器翻译模型进行有效的融合。本文首先介绍了融合单来源阴阳性信息的基本方法,在其基础上提出了层级混淆方法来融合多来源的阴阳性信息,并训练了层级混淆神经机器翻译模型进行英德翻译任务。融合单来源阴阳性信息的实验结果说明,单个来源的阴阳性信息能对提升英德的翻译提供帮助。同时,层级混淆神经机器翻译模型实验相对融合单来源阴阳性信息实验的结果更佳,说明层级混淆方法能有效综合多来源的阴阳性信息,提升英德机器翻译实验的效果。
基于机器翻译的时态知识图谱嵌入蒙古语问答研究
这是一篇关于时态知识图谱,问答,机器翻译,Transformer,参数共享的论文, 主要内容为人类已有知识提供了现实世界的标准理解,引入人类已有知识是人工智能的重要研究方向之一。近年来,知识图谱作为一种结构化的人类知识,受到学术界和工业界广泛关注。与此同时,翻译作为语言问题的延伸和数字化民族文化的桥梁,一直是学者们长期研究的领域。与非结构化文本相比,结构化的知识图谱可以提供更加精准的答案,且可以依赖于其中实体的关联关系来方便地扩展答案。因此,基于知识图谱的问答已经成为各种智能问答系统的标准组件。然而,由于传统知识图谱以三元组为主,不存在时间关系限制,目前较少应用于带有时间关系的问答任务。众所周知,近几年神经网络模型参数规模急剧上升,它和训练速度的下降共同制约着机器翻译的发展,目前降低参数量提高机器翻译准确率的问题依然没有得到缓解,提高小语种如蒙英翻译BLEU值也是急需解决的问题。为了提高时态知识图谱和机器翻译的可用性,有必要先对时态评分函数和跨层参数以及正则化丢弃法等核心问题进行研究,这是导致MRR和BLEU值差距的原因。为了缓解蒙古语时态知识图谱稀缺带来的影响,论文将机器翻译领域与知识图谱问答领域相结合,充分利用实验室已有的平行语料库,训练蒙英双向机器翻译模型,再利用基于时态知识图谱嵌入的时态知识图谱问答系统做出英语回答,最后将英语答案用改进的英蒙Transformer模型翻译成蒙古语答案。论文的研究内容主要包括:(1)在神经机器翻译方面,基于课题组已有的20万句对蒙英平行语料库,采用一种改进方法的高效Transformer模型,训练蒙古语到英语和英语到蒙古语的神经网络机器翻译模型。改进方法将跨层参数共享思想和多次正则化丢弃法思想应用到机器翻译模型中,采用新的共享参数方法堆叠Transformer层,同时在正向传播过程中使用多次正则化丢弃法,从而加快模型训练速度,提升翻译模型质量。(2)在时态知识图谱嵌入方面,首先,采用Ro BERTa预训练模型对问题语句进行嵌入,并经过一个投影函数,产生实体问题嵌入和时间问题嵌入。其次,时态知识图谱嵌入模型将知识图谱中的实体和关系转化为时态知识图谱嵌入向量。(3)在时态知识图谱问答方面,首先,时态评分函数将时态知识图谱嵌入和实体问题嵌入、时间问题嵌入融合,得到实体评分函数和时间评分函数。然后,将实体评分函数和时间评分函数的得分向量进行拼接,经过Softmax层得到概率最高的答案。
基于生物医学语料的神经机器翻译系统研究
这是一篇关于机器翻译,深度学习,神经网络,注意力机制,Transformer,生物医学语料的论文, 主要内容为随着社会的发展,不同语种之间的交流越发密切。机器翻译降低了翻译过程中的人工成本,然而无论是人工翻译还是机器翻译,都对翻译结果的准确性和及时性要求极高。机器翻译在大量的翻译工作中降低了人力成本,以机器翻译模型为基础的翻译系统可以随时随地的帮助人们进行翻译工作。从统计机器翻译到基于神经网络的机器翻译,两者已展现出了较好的准确性和时效性,并在一定程度上可以替代人工翻译来解决日常生活中的翻译需求。本文在Transformer架构的基础上,添加了语义消歧工作和外部词典的辅助工作构建了一个翻译模型。该翻译模型采用基于神经网络的机器翻译中通用的序列到序列的翻译流程,抛弃传统的循环神经网络、长短期记忆网络等,采用完全由注意力机制构成的Transformer模型构建翻译框架。为了解决生物医学领域中专业词汇的翻译问题,本文使用爬虫系统获取生物医学语料后,将生物医学语料与通用语料混合作为翻译模型的训练语料。实验结果表明,基于混合语料训练的神经机器翻译模型在保证了通用语句翻译准确性的基础上,对生物医学领域的整句翻译结果以及生物医学名词翻译结果更加准确和专业。在面向生物医学语料的神经机器翻译模型的基础上,作者构建了Web服务。该翻译服务能够帮助生物医学领域的科研人员进行外语文献资料的翻译和理解工作。
基于生物医学语料的神经机器翻译系统研究
这是一篇关于机器翻译,深度学习,神经网络,注意力机制,Transformer,生物医学语料的论文, 主要内容为随着社会的发展,不同语种之间的交流越发密切。机器翻译降低了翻译过程中的人工成本,然而无论是人工翻译还是机器翻译,都对翻译结果的准确性和及时性要求极高。机器翻译在大量的翻译工作中降低了人力成本,以机器翻译模型为基础的翻译系统可以随时随地的帮助人们进行翻译工作。从统计机器翻译到基于神经网络的机器翻译,两者已展现出了较好的准确性和时效性,并在一定程度上可以替代人工翻译来解决日常生活中的翻译需求。本文在Transformer架构的基础上,添加了语义消歧工作和外部词典的辅助工作构建了一个翻译模型。该翻译模型采用基于神经网络的机器翻译中通用的序列到序列的翻译流程,抛弃传统的循环神经网络、长短期记忆网络等,采用完全由注意力机制构成的Transformer模型构建翻译框架。为了解决生物医学领域中专业词汇的翻译问题,本文使用爬虫系统获取生物医学语料后,将生物医学语料与通用语料混合作为翻译模型的训练语料。实验结果表明,基于混合语料训练的神经机器翻译模型在保证了通用语句翻译准确性的基础上,对生物医学领域的整句翻译结果以及生物医学名词翻译结果更加准确和专业。在面向生物医学语料的神经机器翻译模型的基础上,作者构建了Web服务。该翻译服务能够帮助生物医学领域的科研人员进行外语文献资料的翻译和理解工作。
基于机器翻译与知识图谱的船舶信息智能查询研究
这是一篇关于深度学习,机器翻译,知识图谱,船舶,AIS的论文, 主要内容为船舶信息查询对于整个航运产业链发挥着至关重要的作用,也是许多船舶服务平台的基础功能。然而,传统的船舶信息查询往往只是机械地比对查询词和数据库数据之间的匹配关系,将结果直接罗列给用户,并不能智能地理解用户的真正意图,提供更精准和更具关联性的知识。针对这一问题,本文深入研究了船舶信息智能查询技术,利用最新的深度学习和机器翻译方法构建AIS拼音到中文汉字的翻译模型,以解决船舶的多方式智能匹配问题,并在船舶、港口以及航线等数据的基础上构建船舶信息的中文知识图谱,最终实现船舶信息的智能查询。归纳起来,本文的工作主要包括:(1)分析船舶信息智能查询存在的主要问题,结合目前国内外机器翻译和知识图谱技术研究现状,提出可行的技术方案;(2)构建形式规范的船舶信息语料库,包括用于AIS拼音船名与中文汉字船名对应的语料库,以及船舶与港口、航线、贸易区等关联信息的知识图谱语料库;(3)构建基于Transformer与隐马尔可夫链(HMM)结合的智能船名翻译模型,实现了 AIS拼音船名到中文船名的精准翻译,解决了 AIS信息与其他船舶信息的智能匹配。在基于船讯网船舶库的语料库数据集上训练和测试,该模型最终准确率达到了98.92%,在相同数据集上明显优于基于SMT和Seq2Seq的船名翻译模型;(4)根据船舶相关信息之间的属性关联,将船舶、港口、航线、运营公司、贸易区和国家等信息实体化并连接形成知识图谱,进而构建船舶信息查询模型,实现船舶信息的智能查询,解决精准回答和高效多模态搜索问题。综上所述,本文利用最新的深度学习与机器翻译结合的方法,研究并构建AIS拼音船名到汉字船名的智能翻译模型,并进一步利用知识图谱研究和构建了船舶信息的智能查询模型,是人工智能在航运领域应用的有益尝试,不仅具有理论意义,对于提升航运信息的服务水平亦具有一定实用价值。
基于机器翻译模型的搜索推荐系统的设计与实现
这是一篇关于搜索推荐,机器翻译,相关搜索,神经网络的论文, 主要内容为搜索引擎是用户查找有用信息的重要手段,但是用户在使用搜索引擎时往往存在不能准确构造出表达其真实检索意图的搜索词的情况,导致搜索引擎不能提供精准的结果给用户。相关搜索推荐是指围绕用户输入的搜索词向其推荐文本上有一定关联关系的搜索词。移动端的相关搜索推荐是理解手机用户行为,帮助用户构建搜索词进而提高其使用手机进行信息检索效率的一种重要途径。小米手机目前的相关搜索推荐系统将过往用户搜索日志建成索引,通过检索索引得出相关搜索词,这样的做法存在时效性差,覆盖率低,意图泛化效果不理想等问题。用户历史的搜索和点击数据形成的搜索词和对应的点击文档名具有一定相关性,我们可以用神经网络的机器翻译模型去训练提炼出用户历史搜索和点击数据之间的相关性规律。因此,本文提出基于神经网络机器翻译模型来设计和实现相关搜索推荐系统,利用翻译模型将用户输入的新搜索词翻译成具有相关性的搜索词,并将其通过数据索引和检索系统推荐给用户。我们训练了神经网络机器翻译模型并将模型应用到相关搜索推荐系统中。相关搜索推荐系统包含离线数据处理模块和在线检索端模块。离线数据处理模块包含运用Spark Streaming进行每日热搜词抽取,模型翻译热搜词生成相关搜索词,基于Lucene建立索引和更新索引等功能。在线检索模块首先从索引检索出相关搜索词,然后通过Backend子模块建立Response,再通过Rank和Tunner子模块将Response排序和调优,最后将结果展现给用户。这样的设计和实现能够平衡日志数据挖掘的计算成本和索引更新频率的高要求之间的冲突,提升推荐搜索词与原搜索词的相关性,进而提高覆盖率;并且根据热门搜索词去推荐相关搜索词,也提升了推荐的搜索词的时效性;利用模型提炼出的意图泛化能力,针对用户新的搜索词,也能产生一定的意图泛化效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码货栈 ,原文地址:https://m.bishedaima.com/lunwen/47787.html