面向电商领域的无监督领域适应机器翻译研究
这是一篇关于电商领域,无监督领域适应,神经机器翻译,统计机器翻译的论文, 主要内容为跨境电子商务依托互联网技术的发展成为当前增长最快的零售渠道之一,与此同时,出口产品信息的翻译需求日益突显,面向电商领域的机器翻译研究愈发重要。但是电商领域机器翻译系统构建过程中存在两个主要的问题:电商领域公开可利用的数据集稀缺和不同地区不同语言背景的电子商务平台的产品信息描述文化风格差异较大。针对这些问题,本文首先从不同电子商务平台获取了不同语言的产品信息数据,然后基于获取的电商领域单语数据,分别从数据特征、模型优化和系统结合三个角度提出了不同的无监督领域适应方法,提升电商领域机器翻译模型的性能。(1)从数据特征的角度,本文提出基于文化风格区分的无监督领域适应电商产品信息翻译方法。通过给不同语言平台的电商数据添加对应的文化风格区分标记,在训练过程中结合当前数据的所属类别,根据数据的类别信息获取相应的文化风格特征向量,从而提高电商领域产品信息翻译的准确度。实验结果表明,本文提出的混合训练方法和文化风格区分的无监督领域适应方法明显优于各种已经存在的针对单语语料的无监督领域适应方法。(2)从模型优化的角度,本文提出基于信息传递增强的无监督领域适应电商产品信息翻译方法。目前神经机器翻译模型存在泛化能力不强的问题,具体表现为在外领域训练数据上效果较好,而在电商领域表现不佳,针对该问题,本文提出层间和子层间信息传递增强的方法,增强神经网络表示特征的捕获能力,使得神经网络能够捕获更丰富的语义信息。通过对神经机器翻译模型的优化,模型的泛化能力得到了提升,电商领域产品信息翻译的质量也得到了进一步的提高。实验结果表明本文提出的方法无论在外领域平行数据集上还是在电商领域单语数据集上均使得翻译效果得到一定的提升。(3)从系统结合的角度,本文提出基于互训练的无监督领域适应电商产品信息翻译方法。现有研究证明,当训练数据稀少或存在噪音时,统计机器翻译的效果优于神经机器翻译,结合电商平台数据的特点,统计机器翻译在电商数据上有更好的鲁棒性,因此本文提出通过互训练的方法结合统计机器翻译和神经机器翻译构建翻译系统,提升电商产品信息翻译的效果。实验结果表明将统计机器翻译和神经机器翻译相结合能够显著提升电商领域产品信息翻译的质量。
面向电商领域的双语术语自动构建与应用
这是一篇关于电商领域,双语术语,术语抽取,机器翻译的论文, 主要内容为随着互联网技术的快速发展,跨境电子商务已经成为开展国际贸易的重要渠道,由此引发的对于商品信息的机器翻译需求不断增长。由于商品信息句子中的术语携带着重要的信息,对于商品信息的全面传达至关重要,目前学术界和工业界主流的做法是基于电商双语术语词典来搭建电商领域的定制化机器翻译系统。然而,电商领域双语术语的构建完全依赖于人工翻译,存在成本高、效率低的问题。针对此问题,本文分别从抽取式和生成式两个方向提出电商领域双语术语的自动构建方法,同时将构建的双语术语应用到电商领域定制化机器翻译中,提升商品信息的翻译质量。(1)基于跨语言预训练的电商双语术语抽取本文提出用抽取式的方法来构建电商领域双语术语:在给定一个源语言术语以及一个目标语言句子的情况下,模型自动判断并抽取出相应的目标语言术语。针对电商领域术语抽取问题,本文结合电商领域融入术语信息的跨语言预训练,充分利用源语言术语和目标语言句子之间的深层语义关系来判断并抽取出目标语言术语,形成电商双语术语。同时,本文构建了电商领域面向中文-英语、英语-法语的包含多个商品类目的双语术语抽取数据集,实验结果表明,本文提出的抽取方法明显优于各种基准系统。(2)基于领域信息融合的电商双语术语生成本文提出用生成式的方法来构建电商领域双语术语:给定一个源语言术语,翻译模型直接生成其对应的目标语言术语翻译。针对电商领域术语翻译问题,本文首次将其进行定义,并划分成有监督以及无监督的电商领域术语翻译任务,分别模拟双语术语资源丰富的语向以及双语术语资源稀缺的语向,并构建了相应的数据集。在此基础上,本文提出了基于领域信息融合的电商双语术语翻译方法,充分融合新闻领域平行语料和电商领域伪平行语料中所含有的领域信息,通过迭代回译的方式,提升模型的术语翻译能力。实验结果表明,本文提出的方法无论在有监督术语翻译任务还是无监督术语翻译任务上都显著优于各种基准系统。(3)嵌入双语术语的电商领域定制化机器翻译本文将构建的电商领域双语术语应用到电商定制化机器翻译系统中,提升商品信息句子的翻译质量,以验证本文提出的双语术语自动构建方法的实际意义。为此,本文构建了电商领域面向多个语言对及多个产品类别的商品信息句子翻译测试集,通过语码转换的方式实现训练数据增强,结合指针网络以及共享词嵌入表示,同时提出两种利用双语术语的解码前处理策略,将双语术语信息嵌入电商定制化翻译模型的解码过程,从而提升商品信息句子的整体翻译质量以及其中包含的术语的翻译质量。实验结果表明,通过嵌入本文构建的双语术语,电商定制化机器翻译系统对电商产品信息句子的整体翻译效果得到大幅提高,对商品信息中包含的术语的翻译质量也得到进一步改善,验证了本文提出的电商领域双语术语自动构建方法的实际意义。
电商领域评论文本细粒度情感分析系统的设计及实现
这是一篇关于电商领域,评论文本,方面级情感分析,跨度交互模型的论文, 主要内容为电商领域细粒度情感分析主要是针对每条电商平台评论文本中各个属性,即方面的情感倾向进行分析,不再是对整条评论文本进行情感倾向分析,更贴近于用户的实际需求。本文围绕中文电商评论文本对细粒度情感分析进行研究,并在此基础上设计并实现了电商评论细粒度情感分析系统。本文所做的具体工作如下:(1)针对方面情感三元组提取任务中缺乏中文电商评论数据集的基础问题,本文从某电商平台爬取了笔记本电脑领域的5602条评论,并对评论文本进行筛选、清洗、中文分词等预处理操作,依据本文提出的标注策略以词为单位进行标注,整理并标注了824条评论文本,构建了用于方面情感三元组提取任务的中文电商评论数据集。(2)针对细粒度情感分析研究中的方面情感三元组提取任务,本文提出了一种基于跨度交互的细粒度情感分析模型CSM-ASTE。该模型主要包含句子编码模块、属性情感词分类及剪枝模块、属性情感词配对及情感预测模块三个部分,通过端到端的方式解决了细粒度情感分析的子任务。不同于以往模型只考虑单个词的关系,该模型不仅考虑单个词的关系,同时也会捕捉单词跨度之间的相互关系,提高了模型对于多词三元组提取的性能。实验结果表明,本文提出的基于跨度交互的细粒度情感分析模型与以往的Li-unified-R模型、JET模型及BMRC模型相比,F1值分别提高了23.55%、14.49%和6.35%,证明了模型的可行性及优越性。(3)本文以Python语言和Flask开发框架为主要工具,结合用户现有的真实需求,面向电商领域设计并实现了一个细粒度情感分析系统。通过这个系统,用户可以对其输入的文本进行细粒度情感分析。系统测试表明,该系统稳健可靠,有效地满足了用户对细粒度情感分析的要求。
电商领域评论文本细粒度情感分析系统的设计及实现
这是一篇关于电商领域,评论文本,方面级情感分析,跨度交互模型的论文, 主要内容为电商领域细粒度情感分析主要是针对每条电商平台评论文本中各个属性,即方面的情感倾向进行分析,不再是对整条评论文本进行情感倾向分析,更贴近于用户的实际需求。本文围绕中文电商评论文本对细粒度情感分析进行研究,并在此基础上设计并实现了电商评论细粒度情感分析系统。本文所做的具体工作如下:(1)针对方面情感三元组提取任务中缺乏中文电商评论数据集的基础问题,本文从某电商平台爬取了笔记本电脑领域的5602条评论,并对评论文本进行筛选、清洗、中文分词等预处理操作,依据本文提出的标注策略以词为单位进行标注,整理并标注了824条评论文本,构建了用于方面情感三元组提取任务的中文电商评论数据集。(2)针对细粒度情感分析研究中的方面情感三元组提取任务,本文提出了一种基于跨度交互的细粒度情感分析模型CSM-ASTE。该模型主要包含句子编码模块、属性情感词分类及剪枝模块、属性情感词配对及情感预测模块三个部分,通过端到端的方式解决了细粒度情感分析的子任务。不同于以往模型只考虑单个词的关系,该模型不仅考虑单个词的关系,同时也会捕捉单词跨度之间的相互关系,提高了模型对于多词三元组提取的性能。实验结果表明,本文提出的基于跨度交互的细粒度情感分析模型与以往的Li-unified-R模型、JET模型及BMRC模型相比,F1值分别提高了23.55%、14.49%和6.35%,证明了模型的可行性及优越性。(3)本文以Python语言和Flask开发框架为主要工具,结合用户现有的真实需求,面向电商领域设计并实现了一个细粒度情感分析系统。通过这个系统,用户可以对其输入的文本进行细粒度情感分析。系统测试表明,该系统稳健可靠,有效地满足了用户对细粒度情感分析的要求。
面向电商领域的双语术语自动构建与应用
这是一篇关于电商领域,双语术语,术语抽取,机器翻译的论文, 主要内容为随着互联网技术的快速发展,跨境电子商务已经成为开展国际贸易的重要渠道,由此引发的对于商品信息的机器翻译需求不断增长。由于商品信息句子中的术语携带着重要的信息,对于商品信息的全面传达至关重要,目前学术界和工业界主流的做法是基于电商双语术语词典来搭建电商领域的定制化机器翻译系统。然而,电商领域双语术语的构建完全依赖于人工翻译,存在成本高、效率低的问题。针对此问题,本文分别从抽取式和生成式两个方向提出电商领域双语术语的自动构建方法,同时将构建的双语术语应用到电商领域定制化机器翻译中,提升商品信息的翻译质量。(1)基于跨语言预训练的电商双语术语抽取本文提出用抽取式的方法来构建电商领域双语术语:在给定一个源语言术语以及一个目标语言句子的情况下,模型自动判断并抽取出相应的目标语言术语。针对电商领域术语抽取问题,本文结合电商领域融入术语信息的跨语言预训练,充分利用源语言术语和目标语言句子之间的深层语义关系来判断并抽取出目标语言术语,形成电商双语术语。同时,本文构建了电商领域面向中文-英语、英语-法语的包含多个商品类目的双语术语抽取数据集,实验结果表明,本文提出的抽取方法明显优于各种基准系统。(2)基于领域信息融合的电商双语术语生成本文提出用生成式的方法来构建电商领域双语术语:给定一个源语言术语,翻译模型直接生成其对应的目标语言术语翻译。针对电商领域术语翻译问题,本文首次将其进行定义,并划分成有监督以及无监督的电商领域术语翻译任务,分别模拟双语术语资源丰富的语向以及双语术语资源稀缺的语向,并构建了相应的数据集。在此基础上,本文提出了基于领域信息融合的电商双语术语翻译方法,充分融合新闻领域平行语料和电商领域伪平行语料中所含有的领域信息,通过迭代回译的方式,提升模型的术语翻译能力。实验结果表明,本文提出的方法无论在有监督术语翻译任务还是无监督术语翻译任务上都显著优于各种基准系统。(3)嵌入双语术语的电商领域定制化机器翻译本文将构建的电商领域双语术语应用到电商定制化机器翻译系统中,提升商品信息句子的翻译质量,以验证本文提出的双语术语自动构建方法的实际意义。为此,本文构建了电商领域面向多个语言对及多个产品类别的商品信息句子翻译测试集,通过语码转换的方式实现训练数据增强,结合指针网络以及共享词嵌入表示,同时提出两种利用双语术语的解码前处理策略,将双语术语信息嵌入电商定制化翻译模型的解码过程,从而提升商品信息句子的整体翻译质量以及其中包含的术语的翻译质量。实验结果表明,通过嵌入本文构建的双语术语,电商定制化机器翻译系统对电商产品信息句子的整体翻译效果得到大幅提高,对商品信息中包含的术语的翻译质量也得到进一步改善,验证了本文提出的电商领域双语术语自动构建方法的实际意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://m.bishedaima.com/lunwen/56011.html