5篇关于外部知识的计算机毕业论文

今天分享的是关于外部知识的5篇计算机毕业论文范文, 如果你的论文涉及到外部知识等主题,本文能够帮助到你

面向用户生成内容的命名实体识别研究

这是一篇关于命名实体识别,用户生成内容,外部知识,预训练模型的论文, 主要内容为随着互联网的快速发展,社交媒体上充满了大量的用户数据信息,如何更好地对这些信息进行有效挖掘、利用、监督管理,受到越来越多研究学者的关注。命名实体识别任务是自然语言处理任务中的一个基础性工作,对后续研究工作的顺利开展起到了关键性作用,因此面向用户生成内容的命名实体识别有着非常重要的意义。本文采用外部知识方法对用户生成内容进行命名实体识别,主要研究内容分为以下两个部分:1.由于用户生成内容文本数据具有噪音和非规范化特点,并且文本数据中实体的数量较少,这使得神经网络在训练时实体语义信息匮乏,导致了命名实体识别的准确率不高。为了提高识别效果,本文在Bi-LSTM-CNNs-CRF模型基础上设计一种改进的方法,即基于外部知识增强的神经序列标注模型(Knowledge-enhanced Neural Sequence Labelling Model,KNSLM)。通过在神经网络模型中构建外部知识层,引入外部信息帮助模型识别更多的实体,并且设计了外部实体知识获取方法及其融合方法。该方法在用户生成内容数据集上进行对比实验,实验结果表明,当实体数量为20000个实体向量融入KNSLM模型时,其识别的精确率、召回率、F1值均有所提高。同时也验证了随着外部实体数量的增加,KNSLM模型的识别效果也会提高。2.由于命名实体识别方法大部分都是采用LSTM等循环神经网络,但是该网络所消耗的时间较长,对处理长距离依赖问题效果不好。Transformer算法相比较于LSTM更能显示出特征提取的高效性,并且基于Transformer算法的预训练模型更好适用于下游任务,但是预训练模型很少考虑到外部知识信息。为了将知识图谱信息融合到预训练模型中去,本文设计了一种外部知识融合方法,最后将融合知识的预训练模型运用在面向用户生成内容的命名实体识别任务中。实验结果表明,相比较于没有融合知识的预训练模型,命名实体识别的效果有一定提高。

面向用户生成内容的命名实体识别研究

基于电子病历的医疗事件及时序关系识别技术研究

这是一篇关于医疗事件识别,事件时序关系识别,数据增强,外部知识,联合识别的论文, 主要内容为电子病历中的医疗事件及其时序关系在药物辅助研发、在线智能问诊、医疗知识图谱构建等各种智慧医疗应用中具有重要的价值,使得相关技术研究成为当前自然语言处理与医疗信息化交叉领域中的热点问题。针对基于电子病历的医疗事件与事件时序关系识别问题,现有研究已经提出了不少方法。然而,病历数据中存在大量晦涩的专业术语,所包含的医疗事件及时序关系在不同类别之间不平衡,人工标注的医疗事件时序关系训练语料稀疏现象严重,这导致面向电子病历的医疗事件与事件时序关系识别任务依然需要继续深入研究,以进一步提升识别性能。鉴于此,本文聚焦电子病历中的医疗事件与事件时序关系识别问题开展研究,主要研究工作总结如下:(1)针对电子病历中存在大量晦涩的专业术语以及人工标注的病历语料数据稀疏的问题,提出一种基于数据增强的多粒度信息融合模型。该模型利用综合行为能力测试工具Check List生成多样化数据以提高模型的泛化能力,并采用预训练语言模型Bio BERT和自适应Transformer编码器TENER对医疗领域信息进行了多粒度融合,来提升模型对专业术语的理解能力。实验结果表明,该模型在i2b2数据集上的F1值、跨度F1值和类别准确率分别达到了80.26%、90.33%和93.00%。(2)针对医疗事件识别任务中“Occurrence(发生)”类别的事件比其他类别的事件难预测的问题,提出一种融入外部知识的图注意力识别模型。该模型在卷积神经网络和Bio BERT编码的基础上创新性地把词性信息与自注意力机制相结合,并利用图卷积神经网络融入句子的句法知识,强化了模型捕获单词词性和句法信息的能力。实验结果表明,本文的模型将医疗事件识别任务中“Occurrence(发生)”类别事件的F1值提升了2.78%。(3)针对医疗事件时序关系识别任务中时序关系三元组重叠的问题,提出一种基于分层标记框架的联合识别模型。该模型将时序关系建模为句子中的头事件映射到尾事件的函数,巧妙地处理重叠的关系三元组。此外,通过共享相同的上下文表示和事件边界信息,发挥医疗事件识别和事件时序关系识别两个任务之间的协同效应。该模型在i2b2数据集的同类型任务上都取得了不错的结果,F1值分别达到了73.28%和77.26%,并且利于重叠关系三元组的识别。

面向开放域问答的篇章检索和答案选择技术研究

这是一篇关于开放域问答,稠密检索,答案选择,外部知识的论文, 主要内容为近年来,开放域问答系统在学界和业界都获得了越来越多的关注。开放域问答作为自然语言处理中极重要的任务,其目的是为用户的问题提供简洁的答案,被认为是新一代搜索引擎的核心技术。基于文本的开放域问答是一种重要的实现形式,主要可以分为篇章检索、答案抽取和答案选择三个步骤。本文围绕基于文本的开放域问答中的篇章检索和答案选择进行研究,以提高开放域问答系统的整体性能。本文的内容是对篇章检索和答案选择进行优化。首先,本文针对篇章检索阶段,提出了基于多语义编码的篇章检索。本文通过对Du Reader数据集中的篇章进行分析,发现一个篇章中通常包含多个语义片段,而目前的大多数研究均将篇章编码成单一向量,这会造成篇章语义的混淆和丢失。本文通过语义聚类的方式获得篇章的多个向量表示,并提出针对性的辅助任务和伪数据生成方法来监督模型生成更好的多语义表示。实验结果显示,本文提出的方法相比于各基线方法有着明显的提升。针对答案选择阶段,本文尝试从利用更多信息的角度来提升模型的性能。本文通过观察篇章检索阶段召回的篇章,以及答案抽取阶段抽取出的候选答案,发现不同的候选答案之间并非毫无关联。事实上,由于召回的文档是相关的,候选答案之间存在着相互支持和驳斥的信息。于是,本文提出基于候选答案交叉验证的答案选择,通过注意力机制从候选答案收集支持和驳斥信息,帮助模型更好地对候选答案的正确性进行判断。实验结果显示,引入这种信息后的模型,相比于基线模型在两个数据集上有不同程度的提升。同时,本文也注意到,部分的候选答案缺乏与问题之间的语义联系。为了缓解问题和候选答案之间的这种语义联系弱的问题,本文提出了融合外部知识的答案选择,将知识图谱作为外部知识,从中抽取出能够将问题和候选答案联系起来的知识。并且,本文提出一个知识融合与更新模块,将抽取出来的知识融合进预训练语言模型的表示中。实验表明,融合外部知识的模型在两个数据集上均取得了明显的提升。