基于知识增强的机器阅读理解研究与应用
这是一篇关于机器阅读理解,文本数据增强,外部知识引入,智能问答系统的论文, 主要内容为近年来,机器阅读理解技术是自然语言处理领域的研究热点之一。智能问答作为自然语言处理领域的重要应用也逐渐普及。随着深度学习技术的发展及高质量的阅读理解数据集的出现,机器阅读理解领域不断有新的模型被提出与改进,并且在预训练模型出现之后达到了新的阶段。该技术目前在商业界已有较为广泛的应用,如淘宝、京东等电商平台推出的电商客服,苹果公司推出的Siri等。然而现有的机器阅读理解模型存在实际工业场景中模型不够健壮、迁移性差,缺少外部知识的利用等问题,本文主要对如何提升机器阅读理解模型在实际场景的应用,提升模型的泛化性指标等问题进行了研究,主要研究内容如下:(1)针对当前阅读理解模型鲁棒性的问题,提出了一种基于GPT-2的阅读理解数据集增强方法DA-GPT2。首先基于Glove词向量寻找最优增强句,再通过GPT-2预训练模型的语言多样性进行文本生成,对原始数据集中的问题文本进行数据增强。从而在整体上扩充训练数据,最终提升模型的鲁棒性。(2)针对当前阅读理解模型对于外部知识引入不足的问题,提出了一种基于实体识别与注意力机制的外部知识引入方法NA-Net。以基于预训练模型的阅读理解任务为主体,添加额外的辅助任务:实体识别,并将辅助任务抽取的实体与外部知识向量进行基于注意力机制的交互,从而提升预训练模型引入外部知识的效果。(3)随着疫情的放开带来了旅游业的全面复苏,智能问答系统在旅游业有着广泛需求问题。本文基于Rasa开源框架设计并实现了旅游咨询智能问答系统,在问答系统功能方面,实现了基于FAQ的问答、基于知识图谱的问答与基于机器阅读理解技术的问答,并且实现了多模块答案融合。
基于限定域非结构化文本的问答系统研究与实现
这是一篇关于非结构化文本,问答系统,答案选择,答案抽取,机器阅读理解的论文, 主要内容为传统搜索引擎是用户检索信息的重要渠道,用户输入问题返回网页集合,需要用户自己快速浏览网页定位到答案的具体位置,整个过程费时费力。基于自然语言处理技术的问答系统是传统搜索引擎的重要改进方向,能够快速获取答案,节省用户时间。和基于知识图谱等结构化问答系统相比,非结构化文本数据规模庞大且较易获取。目前开放式的基于非结构化文本的问答系统技术发展还不够成熟,专业领域的问答系统较少,因此基于限定域非结构化文本的问答系统逐渐成为了研究热点。但目前的研究工作仍然有很多问题:1)问句和非结构化文本间的文档长度严重不匹配导致答案检索效率低下且准确度不高;2)在答案抽取领域,目前主流baseline模型的编码层和交互层都存在一定的问题,有较大的提升空间。因此,本文基于限定域非结构化文本的问答系统,提出了答案文档检索和答案抽取的算法优化,并在分析化学领域,融合提出的算法,设计一个基于分析化学数据的非结构化文本问答系统,在实际应用场景中验证两种算法的优化作用。主要研究内容有:(1)针对答案检索时,语料文本长度过长,导致问句很难匹配到长度合适的答案,为了解决该问题,本文提出了基于Glove词向量模型结合SVM的文本分类算法,对较长文本进行分类,选择出较为贴近真实语义的答案句文档,然后对文档进行相似度计算并排序。在TREC-QA公开数据集上进行实验相较于优化前性能提升明显;(2)针对当前主流baseline模型基于语义的编码信息交互非常困难的问题,本文使用Bi-LSTM替换LSTM的编码层,匹配特征融合层使用Attention机制改进,并引入BERT预训练向量,分别进行模型的改进实验,在公开中文机器阅读理解数据集Du Reader上和baseline模型进行测试对比,模型性能得到了提高;(3)在分析化学专业领域,本文融合提出的算法,实现一个基于分析化学领域数据的非结构化文本问答系统,验证了本文提出的两种优化算法在实际应用场景上的优化作用,实验结果表明效果得到了提升。
基于增强BERT表示和R-GCN网络的机器阅读理解研究
这是一篇关于机器阅读理解,预训练语言模型,知识图谱,图卷积神经网络,注意力机制的论文, 主要内容为机器阅读理解是使机器阅读并理解给定文章和相关的问题,预测相关问题的答案。机器阅读理解是自然语言处理领域最重要的任务之一,被认为是人工智能发展过程中最具挑战性的方向之一。随着众多大规模高质量数据集的推出和各种深度神经网络的使用,机器阅读理解得到快速发展,进步显著,答案预测准确率远超人类。近年来,预训练语言模型被创造性的提出。由于预训练语言模型的优秀表现,现有的绝大部分机器阅读理解模型,在编码阶段使用预训练语言模型编码给定的文章和文章相关的问题,在信息融合阶段使用多种注意力机制将文章信息跟其相关的问题信息进行交互处理,最后生成预测答案。但是,这种模型存在着两个方面的缺点。第一是预训练语言模型的单词表示缺乏背景知识和多粒度的特征信息,第二是在信息融合阶段仅仅使用注意力机制不能有效提取文章中的实体和相关问题中的实体之间的关系。因此,基于以上缺点,本文提出了基于增强BERT表示和R-GCN网络的机器阅读理解模型。该模型的贡献有2点:1)基于增强BERT表示模型将每个单词对应的知识图谱信息和Glo Ve单词级别的向量表示整合到BERT表示中去,给模型的输入增加了背景知识和其他粒度的特征信息2)R-GCN网络模型则采用关系图卷积神经网络(R-GCN)处理由全文实体构建的实体图,使模型能抽取文章中的实体和相关问题中的实体之间的关系信息,进一步提升模型的理解能力本文模型主要在SQu AD1.1数据集上进行实验,分别在指标EM和F1上获得了85.9%和92.6%的准确率。实验结果表明,增加输入信息改进预训练语言模型的表示和使用实体图卷积神经网络抽取实体间的关系信息相结合有效的提升了机器理解文本的能力。
基于深度学习的抽取式机器阅读理解研究
这是一篇关于深度学习,自然语言处理,机器阅读理解,注意力机制的论文, 主要内容为抽取式机器阅读理解是自然语言处理领域的热点和难点任务,它旨在让机器通过对输入文本的学习推理,自动地从给定的文本中找出某个已知问题的答案。随着深度学习的发展,它的研究方式主要分为使用“神经网络+注意力机制”的方式和在预训练语言模型上进行改进的方式。极具代表性的模型分别是BiDAF和Bert。为了解决现有模型中存在的特征提取单一、长距离依赖、一词多义等问题,本文以BiDAF和Bert模型为基础展开研究,主要研究内容如下:1.针对BiDAF模型存在的文本向量化信息丢失、长距离依赖的问题,本文提出了一种改进模型Bi MA-Net。首先,为了防止关键特征信息过早丢失,本文从模型的嵌入层入手,在BiDAF嵌入层增加了加权平均嵌入向量,从字符、词和加权平均嵌入三个粒度对文本进行向量表示。随后,为了解决模型中存在的长距离依赖问题,本文在BiDAF双向注意力机制后加入Fastformer中提出的加性自注意力机制,融合问题和文章信息,捕获序列内部的依赖关系,强化文本的语义表示以及细化注意力焦点,提高答案预测的准确率。Bi MA-Net的实验结果与BiDAF模型相比,在SQu AD1.1数据集上EM提升了6.21%,F1提升了6.59%;在SQu AD2.0数据集上EM提升了4.99%,F1提升了5.18%,证明了所提方案可以提升模型的性能。2.静态词嵌入不会随着单词在文本中的语境信息而调整向量表示,无法解决一词多义问题;且在计算注意力时,若对干扰词和关键词不加约束会降低模型预测答案的准确率。针对以上问题,本文基于Bert-Base提出了一种模型BQA-Net,该模型由四个部分组成:Bert编码层、句法注意力层、语义交互层和全连接层。其中句法注意力层利用spa Cy引入句法依存知识,使模型在计算注意力时优先关注有依存关系的词,从而降低无关词的权重,从句法方面提取关键信息;语义注意力层使用双向注意力以及融合后的自注意力机制优化文章中关键信息的权重分布。BQA-Net模型相较于基准模型Bert,在SQu AD2.0数据集上EM提升了2.67%,F1升了3.4%,证明了所提方案的有效性。
基于知识增强的机器阅读理解研究与应用
这是一篇关于机器阅读理解,文本数据增强,外部知识引入,智能问答系统的论文, 主要内容为近年来,机器阅读理解技术是自然语言处理领域的研究热点之一。智能问答作为自然语言处理领域的重要应用也逐渐普及。随着深度学习技术的发展及高质量的阅读理解数据集的出现,机器阅读理解领域不断有新的模型被提出与改进,并且在预训练模型出现之后达到了新的阶段。该技术目前在商业界已有较为广泛的应用,如淘宝、京东等电商平台推出的电商客服,苹果公司推出的Siri等。然而现有的机器阅读理解模型存在实际工业场景中模型不够健壮、迁移性差,缺少外部知识的利用等问题,本文主要对如何提升机器阅读理解模型在实际场景的应用,提升模型的泛化性指标等问题进行了研究,主要研究内容如下:(1)针对当前阅读理解模型鲁棒性的问题,提出了一种基于GPT-2的阅读理解数据集增强方法DA-GPT2。首先基于Glove词向量寻找最优增强句,再通过GPT-2预训练模型的语言多样性进行文本生成,对原始数据集中的问题文本进行数据增强。从而在整体上扩充训练数据,最终提升模型的鲁棒性。(2)针对当前阅读理解模型对于外部知识引入不足的问题,提出了一种基于实体识别与注意力机制的外部知识引入方法NA-Net。以基于预训练模型的阅读理解任务为主体,添加额外的辅助任务:实体识别,并将辅助任务抽取的实体与外部知识向量进行基于注意力机制的交互,从而提升预训练模型引入外部知识的效果。(3)随着疫情的放开带来了旅游业的全面复苏,智能问答系统在旅游业有着广泛需求问题。本文基于Rasa开源框架设计并实现了旅游咨询智能问答系统,在问答系统功能方面,实现了基于FAQ的问答、基于知识图谱的问答与基于机器阅读理解技术的问答,并且实现了多模块答案融合。
抽取式中文机器阅读理解研究
这是一篇关于问答系统,机器阅读理解,预训练语言模型,自然语言推理,深度学习的论文, 主要内容为随着人工智能理论和技术的飞速发展,机器阅读理解成为学术界和工业界研究的热点之一。机器阅读理解,是由计算机自动根据给定的文本来回答用户所提出的问题。机器阅读理解不仅能提升问答系统的准确度和丰富度,而且还可以作为衡量机器是否能理解人类语言的标准之一。机器在进行阅读理解时需要具备两个方面的能力:1)尽可能回答有答案的问题,2)尽可能识别无答案的问题。尽管机器阅读理解在近几年取得了突破性的进展,但是仍然存在一些不足,例如:1)当前方法侧重于提升通用预训练语言模型的表示能力,并没有针对机器阅读理解的特点进行优化,导致其回答问题的能力有所欠缺;2)当前方法假设给定文本中一定存在答案,无法有效地识别无答案的问题。针对以上两点不足,本文提出基于联合注意力机制的机器阅读理解模型来提升回答问题的能力,以及基于推理和验证的机器阅读理解模型来提升识别无答案问题的能力。本文主要工作如下:(1)本文提出了一个基于联合注意力机制的机器阅读理解模型(JointAtt-MRC),在预训练语言模型的网络结构后面添加信息交互层来加强模型对文本的表示能力,提高模型在机器阅读理解上的表现。该模型不仅通过双向长短期记忆网络缓解预训练语言模型对于局部依赖信息捕获能力不足的问题,而且使用联合注意力机制强化自注意力机制的权重表示。针对中文机器阅读理解数据集规模比较小、结构不统一的问题,本文采用机器翻译的方式,将英文机器阅读理解数据集SQuAD转换成中文,以此构建了一个中文机器理解数据集--Chinese-SQuAD,数据量达到11万,数据集格式与SQuAD2.0保持一致。实验结果表明,相比基于标准预训练语言模型的机器阅读理解模型,JointAtt-MRC在CJRC和Chinese-SQuAD数据集上取得了更好的表现。(2)本文提出了一个基于推理和验证的机器阅读理解模型(InferVerif-MRC),在单一机器阅读理解模型的前面与后面,添加额外的前置推理器与后置验证器,提高识别无答案问题的准确度。人在做阅读理解时,第一步通读全文,判断能否从文章中找到问题的答案;第二步精读文章,寻找问题的答案;第三步验证找出答案的合理性。一般端到端的机器阅读理解模型类似于第二步,精读文章去寻找答案。InferVerif-MRC模拟第一步和第三步,通过前置推理器(通读)和后置验证器(验证合理性)来提升模型识别无答案问题的能力。实验结果表明,相比单一的机器阅读理解模型,InferVerif-MRC在CJRC和Chinese-SQuAD数据集上取得了更好的表现。(3)本文构建了一个开放域中文机器阅读理解系统,能从大规模非结构化的文本中寻找任意领域问题的答案。系统结合信息检索与机器阅读理解技术从文档数据库和互联网中寻找问题的答案,能得到实时的、较准确的答案。基于知识图谱的问答需要大规模的知识图谱,基于检索的问答需要大量的问答对,基于生成的问答回复不准确和丰富,而基于机器阅读理解的问答系统不需要大规模结构化的文本,就能得到较为准确的答案。
基于外部知识融合编码的中文机器阅读理解研究
这是一篇关于人工智能,机器阅读理解,知识图谱,知识表示学习,知识融合的论文, 主要内容为随着信息技术和互联网的发展,文本的规模呈爆炸式发展,机器阅读理解(Machine Reading Comprehension,MRC)带来的自动化和智能化恰逢其时,在智能客服、智慧法律、智慧教育、智能检索等众多领域发挥着作用。机器阅读理解是一种利用人工智能算法使计算机理解文本语义并回答相关问题的技术,其赋予了计算机阅读和分析文本的能力。同时,在自然语言处理中,机器阅读理解是一项重要且具有挑战性的任务,往往被用于衡量计算机对自然语言的理解能力。深度学习模型的提出和大规模机器阅读理解数据集的出现使得通过深度学习的方法训练神经网路模型成为了可能。这些数据集的一般形式是给定一段文本和若干问题,要求计算机根据给定的文本解决这些问题。然而,在实际应用中,仅凭一段给定的文本往往难以得出准确的答案,一些常识性或事实性的知识能够帮助计算机更好地理解问题。故在机器阅读理解领域一个新的趋势是利用数据集之外的知识来辅助计算机完成机器阅读理解任务。本文也顺应这一趋势来研究基于外部知识融合编码的中文机器阅读理解问题。这项工作面临两方面的挑战:1)该工作的基础是具备和目标数据集相关的外部知识,而检索这些相关外部知识具有困难性。就中文领域而言,开源的知识源较少且无法直接作为相关外部知识源使用。如OwnThink和CN-DBpedia的两个知识图谱,它们虽然有庞大的数据规模,但绝大部分数据和目标数据集无关,盲目使用会带来大量噪声。2)该工作使用的深度学习模型需要以向量化的数据作为输入,这就要求对外部知识进行编码,将这些结构化的知识编码成适应深度学习模型的向量化形式。本论文为了解决上述问题进行了以下工作:首先,为了解决相关外部知识的检索问题,本文基于开源的知识图谱,构建了一个和中文阅读理解数据集CMRC2018强相关的外部知识源KSCMRC2018。为保证构建的外部知识源与目标MRC数据集的强相关性,本文从语义重要度出发定义了“相关实体”的概念,并通过实体链接技术识别出全部相关的实体词;为保证构建的外部知识源的高质量,本文从语义重要度、词汇常见度、词频等角度出发,定义了“无效实体”的概念,并设计过滤规则将这些无效实体滤除。最终,构建完成的外部知识源KSCMRC2018包含约65万条三元组数据。其次,为了解决外部知识的编码和融合问题,本文提出了一种基于知识表示向量的外部知识融合方法,并基于该方法设计实现了一个机器阅读理解模型 KR-Net(Network with Knowledge Representation Vector),提升了机器阅读理解任务的效果。同时,为了保证知识表示向量的获取,本文还基于知识表示学习的思想和双向LSTM网络结构设计了 一个翻译模型Trans-BiLSTM,用于从外部知识源KSCMRC2018中训练知识表示向量。最后,考虑到基于知识表示向量的外部知识融合方法对存储空间占用不稳定的问题,本文为提出了一种基于蕴含知识的语言模型的外部知识融合方法,并设计了“双塔式”融合模型结构来完成机器阅读理解任务。在该方法中,本文提出了一个负样本生成策略来帮助训练一个具备特定知识的语言模型Mk,并将其和通用的预训练语言模型相融合,综合得出机器阅读理解的结果,最后通过实验验证了该方法的可行性和有效性。
面向政务领域的智能问答研究与应用
这是一篇关于政务服务,智能问答,知识图谱,要素识别,意图识别,机器阅读理解的论文, 主要内容为随着大数据、人工智能等技术的快速普及和政府数字化建设的全面提速,越来越多的政务服务从传统的线下办理转变为线上办理,实现了数据多跑路,群众少跑腿。然而,随着线上办事事项的增多,政务服务网站的后台留言量也急剧增加。为缓解后台人工压力,各省份的政务服务网站相继开通了政务问答服务。现有的政务问答服务主要通过传统的关键词匹配技术和构建常见问题库来实现。其中,关键词匹配技术从数据库中通过关键词匹配出相应条目作为答案,问题覆盖范围广,但不能提供细粒度的答案;构建常见问题库能够为用户的常见问题提供细粒度的答案,但其问题覆盖范围有限。针对以上问题,本文通过研究基于领域知识图谱与深度学习的智能问答技术,提出了基于政务知识图谱的智能问答方法和基于机器阅读理解的政务问答方法,既确保了问题的覆盖范围,又能获取到细粒度的答案,提升了政务问答的效果和智能化水平。为了将以上两种智能问答方法应用于政务领域中,本文做了以下研究工作:(1)基于政务知识图谱的智能问答方法。政务服务平台中办事事项数据为半结构化数据,本文通过定义政务本体结构,可直接将其转换为结构化的知识图谱数据,由于无需实体识别和关系抽取步骤,减少了错误积累,保证了图谱的质量。之后本文基于政务知识图谱提出了检索排序式的知识图谱问答方法,主要分为实体提及词识别和问句意图识别两部分。实体提及词识别需要将实体提及词精准地识别出来,以便更好地链接到知识库中的相关实体,本文设计了Mac BERT-Bi LSTM-CRF模型实现了实体提及词的识别。意图识别问题需要识别出问句的意图确定最终答案,为了更好地区分意图之间的差异,本文使用基于预训练模型和孪生网络的Sentence-BERT模型进行问句意图识别。(2)基于机器阅读理解的政务智能问答方法。政府部门发布的采购公告和招标公告为非结构化数据,针对该类数据,本文设计了一种基于Chinese BERTBi LSTM模型的机器阅读理解方法实现政务问答。另外,政府不同部门的采购公告和招标公告存在着差异化,一部分部门发布的采购公告和招标公告行文不规范,对该部分数据进行了数据清洗。同时,针对人工标注数据较少的问题,使用一种结合自训练的数据增强方法扩充了数据。(3)政务智能问答系统设计与实现。本文对政务问答的需求进行深入分析,结合基于政务知识图谱的智能问答方法和基于机器阅读理解的政务问答方法构建政务领域的问答系统。在实现过程中,对系统的功能性和非功能性进行了全面测试。测试结果表明,所开发的系统能够有效地满足设计要求。通过在政务问答系统中引入智能问答技术,促进了政务问答领域的智能化发展,对实现公共服务高效化具有重要意义。
基于知识增强的机器阅读理解研究与应用
这是一篇关于机器阅读理解,文本数据增强,外部知识引入,智能问答系统的论文, 主要内容为近年来,机器阅读理解技术是自然语言处理领域的研究热点之一。智能问答作为自然语言处理领域的重要应用也逐渐普及。随着深度学习技术的发展及高质量的阅读理解数据集的出现,机器阅读理解领域不断有新的模型被提出与改进,并且在预训练模型出现之后达到了新的阶段。该技术目前在商业界已有较为广泛的应用,如淘宝、京东等电商平台推出的电商客服,苹果公司推出的Siri等。然而现有的机器阅读理解模型存在实际工业场景中模型不够健壮、迁移性差,缺少外部知识的利用等问题,本文主要对如何提升机器阅读理解模型在实际场景的应用,提升模型的泛化性指标等问题进行了研究,主要研究内容如下:(1)针对当前阅读理解模型鲁棒性的问题,提出了一种基于GPT-2的阅读理解数据集增强方法DA-GPT2。首先基于Glove词向量寻找最优增强句,再通过GPT-2预训练模型的语言多样性进行文本生成,对原始数据集中的问题文本进行数据增强。从而在整体上扩充训练数据,最终提升模型的鲁棒性。(2)针对当前阅读理解模型对于外部知识引入不足的问题,提出了一种基于实体识别与注意力机制的外部知识引入方法NA-Net。以基于预训练模型的阅读理解任务为主体,添加额外的辅助任务:实体识别,并将辅助任务抽取的实体与外部知识向量进行基于注意力机制的交互,从而提升预训练模型引入外部知识的效果。(3)随着疫情的放开带来了旅游业的全面复苏,智能问答系统在旅游业有着广泛需求问题。本文基于Rasa开源框架设计并实现了旅游咨询智能问答系统,在问答系统功能方面,实现了基于FAQ的问答、基于知识图谱的问答与基于机器阅读理解技术的问答,并且实现了多模块答案融合。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://m.bishedaima.com/lunwen/47785.html