7个研究背景和意义示例,教你写计算机外部知识论文

今天分享的是关于外部知识的7篇计算机毕业论文范文, 如果你的论文涉及到外部知识等主题,本文能够帮助到你 基于外部知识的药物间关系抽取研究 这是一篇关于药物间关系抽取

今天分享的是关于外部知识的7篇计算机毕业论文范文, 如果你的论文涉及到外部知识等主题,本文能够帮助到你

基于外部知识的药物间关系抽取研究

这是一篇关于药物间关系抽取,外部知识,知识图谱,预训练语言模型,注意力机制的论文, 主要内容为药物间相互作用(Drug-drug Interactions,DDIs)是指患者服用多种药物,药物的作用可能被其他药物增强或减弱,或发生严重的药物不良反应(Adverse drug reactions,ADRs),是生物医学领域一个重要的研究方向。近年来,基于深度学习的药物关系抽取模型取代了基于特征的机器学习方法,成为生物医学关系抽取的主流模型。相较于支持向量机(Support vector machine,SVM)等传统的机器学习方法,深度神经网络不需要过多的人工特征,并且有着较好的泛化性能。生物医学实体往往有着十分复杂的名字,神经网络不能够很好的理解其语义。针对此问题,本文提出一种将药物的描述文档作为外部知识,结合深度神经网络进行药物间关系抽取的模型。该方法以预训练语言模型BioBERT作为输入层,并通过改进BioBERT的输出,增强了BioBERT的泛化性能,再将BioBERT词向量送入双向门控递归单元层(Bidirectional gated recurrent unit,BiGRU)来获得句子的向量表示。对于外部知识处理部分,该方法对药物描述文档进行编码,得到文档的向量表示作为药物描述信息。通过利用包括药物描述信息在内的三种药物实体信息构造了三种实体注意力,最后通过softmax分类器得到最终的分类结果。该模型在DDIExtraction 2013语料上达到了80.9%的F值。知识图谱是另一种可利用的外部知识,由于它是一种结构化数据,因而不能直接利用到神经网络之中。另外,用于自然语言处理的神经网络模型的输出为包含语义信息的向量,而知识图谱的结构化数据大多不包含语义信息,因此如何有效地结合这两种不同含义的信息以最大化知识图谱的作用也是研究难点之一。针对此问题,本文提出一种融合外部知识的神经网络模型来对药物知识图谱进行有效地利用。该方法首先通过CompeEx模型将药物知识图谱中的药物实体转换为向量,并用二分类神经网络模型对药物知识向量进行预训练,使其更加贴合DDIs抽取任务,再将训练得到的药物知识向量和抽取DDIs的神经网络的输出层的输出进行拼接,最后通过softmax分类器得到分类结果。该模型在DDIExtraction 2013语料上达到了81.2%的F值。综上,本文提出了两种药物相关的外部知识构建方法,并针对外部知识的特点设计了两种利用外部知识的神经网络模型,此外还提出一种改进预训练语言模型的方法,提高了预训练语言模型的泛化性能。在DDIExtraction 2013数据集上的实验证明了所提出模型的有效性。

面向中医领域知识图谱构建的实体关系抽取方法研究

这是一篇关于实体关系抽取,预训练语言模型,外部知识,中医领域知识图谱的论文, 主要内容为中医药是中华文明瑰宝,在全民健康中发挥着重要作用,十八大后,习近平总书记高度重视中医药发展与应用,强调要“坚持中西医并重,传承发展中医药事业”。在中医领域建设知识图谱,从海量非结构化的中医科技文献中抽取结构化的“临床研究”知识体,补充中医临床研究知识库,支撑中医领域语义搜索、智能问答、决策支持等知识服务,有助于挖掘与利用中医药知识。构建知识图谱需要结构化的信息作为数据基础,从非结构化的科技文献文本中提取出有价值的结构化三元组,可以通过实体关系抽取实现。然而,目前国内外对实体关系抽取的现有主流研究,从研究内容上看大多集中于泛领域识别模型的研究,相对缺少对垂直领域知识特征与关联形式进行深入的研究。面向中医领域知识图谱的构建,主要研究集中在对中医医案资源、古籍等的深度分析方面,缺乏对科技文献的关系抽取研究。针对上述问题,本研究通过深度分析中医相关文献和领域知识库特征,设计领域实体关系表示模型,针对领域数据特征构建实体关系抽取模型,利用深度学习的方法,探索中医领域科技文献实体关系三元组的智能识别方法,为领域知识图谱构建提供数据基础。围绕上述目标,主要研究内容包括以下三个部分:(1)根据中医科技文献的特点和中医领域知识图谱的应用场景,充分利用现有中医领域数据库,在中国中医科学院中医药信息研究所的专家老师的指导下,构建了包含6类实体、7类关系的中医科技文献数据模式。(2)本研究挑选了11本具有一定权威性和可靠性的中医科技期刊,根据中医科技文献数据模式,对其中部分文章全文进行数据标注,得到具有6880条数据的中医科技文献实体关系抽取数据集。该数据集具有多标签和实体重叠两大特征。此外,本研究结合现有资源和外部资源构建了外部实体库,实体库中实体数量为78165。(3)设计基于预训练模型的中医科技文献实体关系抽取模型并进行实验验证。为解决领域数据集的重叠与多标签问题,本研究设计的实体关系抽取模型具有级联结构,即分为关系分类与实体识别两个子任务。在本文研究中,关系分类任务实质上是多标签分类任务,在关系分类任务中本文通过AC多模式匹配算法融入外部实体库的信息,得到BERT-EI模型的F1-micro为93.41%,相较于未融入外部信息的模型有0.67%提升。本研究中实体识别任务的本质是序列标注任务,在实体识别任务中加入关系分类任务得到的关系结果,不仅实现了两个模型的级联,解决了本文数据中的重叠问题,更为实体识别任务提供了外部信息,指导模型更好的进行序列标注。在实体识别任务中,本研究使用了消融实验的思路,验证了各个模块对于整个实体识别系统的作用,融入关系类型模块对于F1-micro指标有15.0295%的提升,最优模型结合了BERT、BiLSTM和CRF并融入了关系类型,该模型F1-micro为93.5796%。本文提出了面向中医领域知识图谱构建的实体关系抽取的解决方案。该方案以实际需求为准则,充分考虑领域研究现状,提供了一个较高质量的中医领域科技文献实体关系抽取数据集,设计了基于深度学习与融合外部知识的实体关系抽取方法,并验证了该方法的可行性和有效性。本文包含图39个,表20个。

面向用户生成内容的命名实体识别研究

这是一篇关于命名实体识别,用户生成内容,外部知识,预训练模型的论文, 主要内容为随着互联网的快速发展,社交媒体上充满了大量的用户数据信息,如何更好地对这些信息进行有效挖掘、利用、监督管理,受到越来越多研究学者的关注。命名实体识别任务是自然语言处理任务中的一个基础性工作,对后续研究工作的顺利开展起到了关键性作用,因此面向用户生成内容的命名实体识别有着非常重要的意义。本文采用外部知识方法对用户生成内容进行命名实体识别,主要研究内容分为以下两个部分:1.由于用户生成内容文本数据具有噪音和非规范化特点,并且文本数据中实体的数量较少,这使得神经网络在训练时实体语义信息匮乏,导致了命名实体识别的准确率不高。为了提高识别效果,本文在Bi-LSTM-CNNs-CRF模型基础上设计一种改进的方法,即基于外部知识增强的神经序列标注模型(Knowledge-enhanced Neural Sequence Labelling Model,KNSLM)。通过在神经网络模型中构建外部知识层,引入外部信息帮助模型识别更多的实体,并且设计了外部实体知识获取方法及其融合方法。该方法在用户生成内容数据集上进行对比实验,实验结果表明,当实体数量为20000个实体向量融入KNSLM模型时,其识别的精确率、召回率、F1值均有所提高。同时也验证了随着外部实体数量的增加,KNSLM模型的识别效果也会提高。2.由于命名实体识别方法大部分都是采用LSTM等循环神经网络,但是该网络所消耗的时间较长,对处理长距离依赖问题效果不好。Transformer算法相比较于LSTM更能显示出特征提取的高效性,并且基于Transformer算法的预训练模型更好适用于下游任务,但是预训练模型很少考虑到外部知识信息。为了将知识图谱信息融合到预训练模型中去,本文设计了一种外部知识融合方法,最后将融合知识的预训练模型运用在面向用户生成内容的命名实体识别任务中。实验结果表明,相比较于没有融合知识的预训练模型,命名实体识别的效果有一定提高。

基于电子病历的医疗事件及时序关系识别技术研究

这是一篇关于医疗事件识别,事件时序关系识别,数据增强,外部知识,联合识别的论文, 主要内容为电子病历中的医疗事件及其时序关系在药物辅助研发、在线智能问诊、医疗知识图谱构建等各种智慧医疗应用中具有重要的价值,使得相关技术研究成为当前自然语言处理与医疗信息化交叉领域中的热点问题。针对基于电子病历的医疗事件与事件时序关系识别问题,现有研究已经提出了不少方法。然而,病历数据中存在大量晦涩的专业术语,所包含的医疗事件及时序关系在不同类别之间不平衡,人工标注的医疗事件时序关系训练语料稀疏现象严重,这导致面向电子病历的医疗事件与事件时序关系识别任务依然需要继续深入研究,以进一步提升识别性能。鉴于此,本文聚焦电子病历中的医疗事件与事件时序关系识别问题开展研究,主要研究工作总结如下:(1)针对电子病历中存在大量晦涩的专业术语以及人工标注的病历语料数据稀疏的问题,提出一种基于数据增强的多粒度信息融合模型。该模型利用综合行为能力测试工具Check List生成多样化数据以提高模型的泛化能力,并采用预训练语言模型Bio BERT和自适应Transformer编码器TENER对医疗领域信息进行了多粒度融合,来提升模型对专业术语的理解能力。实验结果表明,该模型在i2b2数据集上的F1值、跨度F1值和类别准确率分别达到了80.26%、90.33%和93.00%。(2)针对医疗事件识别任务中“Occurrence(发生)”类别的事件比其他类别的事件难预测的问题,提出一种融入外部知识的图注意力识别模型。该模型在卷积神经网络和Bio BERT编码的基础上创新性地把词性信息与自注意力机制相结合,并利用图卷积神经网络融入句子的句法知识,强化了模型捕获单词词性和句法信息的能力。实验结果表明,本文的模型将医疗事件识别任务中“Occurrence(发生)”类别事件的F1值提升了2.78%。(3)针对医疗事件时序关系识别任务中时序关系三元组重叠的问题,提出一种基于分层标记框架的联合识别模型。该模型将时序关系建模为句子中的头事件映射到尾事件的函数,巧妙地处理重叠的关系三元组。此外,通过共享相同的上下文表示和事件边界信息,发挥医疗事件识别和事件时序关系识别两个任务之间的协同效应。该模型在i2b2数据集的同类型任务上都取得了不错的结果,F1值分别达到了73.28%和77.26%,并且利于重叠关系三元组的识别。

面向用户生成内容的命名实体识别研究

这是一篇关于命名实体识别,用户生成内容,外部知识,预训练模型的论文, 主要内容为随着互联网的快速发展,社交媒体上充满了大量的用户数据信息,如何更好地对这些信息进行有效挖掘、利用、监督管理,受到越来越多研究学者的关注。命名实体识别任务是自然语言处理任务中的一个基础性工作,对后续研究工作的顺利开展起到了关键性作用,因此面向用户生成内容的命名实体识别有着非常重要的意义。本文采用外部知识方法对用户生成内容进行命名实体识别,主要研究内容分为以下两个部分:1.由于用户生成内容文本数据具有噪音和非规范化特点,并且文本数据中实体的数量较少,这使得神经网络在训练时实体语义信息匮乏,导致了命名实体识别的准确率不高。为了提高识别效果,本文在Bi-LSTM-CNNs-CRF模型基础上设计一种改进的方法,即基于外部知识增强的神经序列标注模型(Knowledge-enhanced Neural Sequence Labelling Model,KNSLM)。通过在神经网络模型中构建外部知识层,引入外部信息帮助模型识别更多的实体,并且设计了外部实体知识获取方法及其融合方法。该方法在用户生成内容数据集上进行对比实验,实验结果表明,当实体数量为20000个实体向量融入KNSLM模型时,其识别的精确率、召回率、F1值均有所提高。同时也验证了随着外部实体数量的增加,KNSLM模型的识别效果也会提高。2.由于命名实体识别方法大部分都是采用LSTM等循环神经网络,但是该网络所消耗的时间较长,对处理长距离依赖问题效果不好。Transformer算法相比较于LSTM更能显示出特征提取的高效性,并且基于Transformer算法的预训练模型更好适用于下游任务,但是预训练模型很少考虑到外部知识信息。为了将知识图谱信息融合到预训练模型中去,本文设计了一种外部知识融合方法,最后将融合知识的预训练模型运用在面向用户生成内容的命名实体识别任务中。实验结果表明,相比较于没有融合知识的预训练模型,命名实体识别的效果有一定提高。

基于电子病历的医疗事件及时序关系识别技术研究

这是一篇关于医疗事件识别,事件时序关系识别,数据增强,外部知识,联合识别的论文, 主要内容为电子病历中的医疗事件及其时序关系在药物辅助研发、在线智能问诊、医疗知识图谱构建等各种智慧医疗应用中具有重要的价值,使得相关技术研究成为当前自然语言处理与医疗信息化交叉领域中的热点问题。针对基于电子病历的医疗事件与事件时序关系识别问题,现有研究已经提出了不少方法。然而,病历数据中存在大量晦涩的专业术语,所包含的医疗事件及时序关系在不同类别之间不平衡,人工标注的医疗事件时序关系训练语料稀疏现象严重,这导致面向电子病历的医疗事件与事件时序关系识别任务依然需要继续深入研究,以进一步提升识别性能。鉴于此,本文聚焦电子病历中的医疗事件与事件时序关系识别问题开展研究,主要研究工作总结如下:(1)针对电子病历中存在大量晦涩的专业术语以及人工标注的病历语料数据稀疏的问题,提出一种基于数据增强的多粒度信息融合模型。该模型利用综合行为能力测试工具Check List生成多样化数据以提高模型的泛化能力,并采用预训练语言模型Bio BERT和自适应Transformer编码器TENER对医疗领域信息进行了多粒度融合,来提升模型对专业术语的理解能力。实验结果表明,该模型在i2b2数据集上的F1值、跨度F1值和类别准确率分别达到了80.26%、90.33%和93.00%。(2)针对医疗事件识别任务中“Occurrence(发生)”类别的事件比其他类别的事件难预测的问题,提出一种融入外部知识的图注意力识别模型。该模型在卷积神经网络和Bio BERT编码的基础上创新性地把词性信息与自注意力机制相结合,并利用图卷积神经网络融入句子的句法知识,强化了模型捕获单词词性和句法信息的能力。实验结果表明,本文的模型将医疗事件识别任务中“Occurrence(发生)”类别事件的F1值提升了2.78%。(3)针对医疗事件时序关系识别任务中时序关系三元组重叠的问题,提出一种基于分层标记框架的联合识别模型。该模型将时序关系建模为句子中的头事件映射到尾事件的函数,巧妙地处理重叠的关系三元组。此外,通过共享相同的上下文表示和事件边界信息,发挥医疗事件识别和事件时序关系识别两个任务之间的协同效应。该模型在i2b2数据集的同类型任务上都取得了不错的结果,F1值分别达到了73.28%和77.26%,并且利于重叠关系三元组的识别。

面向用户生成内容的命名实体识别研究

这是一篇关于命名实体识别,用户生成内容,外部知识,预训练模型的论文, 主要内容为随着互联网的快速发展,社交媒体上充满了大量的用户数据信息,如何更好地对这些信息进行有效挖掘、利用、监督管理,受到越来越多研究学者的关注。命名实体识别任务是自然语言处理任务中的一个基础性工作,对后续研究工作的顺利开展起到了关键性作用,因此面向用户生成内容的命名实体识别有着非常重要的意义。本文采用外部知识方法对用户生成内容进行命名实体识别,主要研究内容分为以下两个部分:1.由于用户生成内容文本数据具有噪音和非规范化特点,并且文本数据中实体的数量较少,这使得神经网络在训练时实体语义信息匮乏,导致了命名实体识别的准确率不高。为了提高识别效果,本文在Bi-LSTM-CNNs-CRF模型基础上设计一种改进的方法,即基于外部知识增强的神经序列标注模型(Knowledge-enhanced Neural Sequence Labelling Model,KNSLM)。通过在神经网络模型中构建外部知识层,引入外部信息帮助模型识别更多的实体,并且设计了外部实体知识获取方法及其融合方法。该方法在用户生成内容数据集上进行对比实验,实验结果表明,当实体数量为20000个实体向量融入KNSLM模型时,其识别的精确率、召回率、F1值均有所提高。同时也验证了随着外部实体数量的增加,KNSLM模型的识别效果也会提高。2.由于命名实体识别方法大部分都是采用LSTM等循环神经网络,但是该网络所消耗的时间较长,对处理长距离依赖问题效果不好。Transformer算法相比较于LSTM更能显示出特征提取的高效性,并且基于Transformer算法的预训练模型更好适用于下游任务,但是预训练模型很少考虑到外部知识信息。为了将知识图谱信息融合到预训练模型中去,本文设计了一种外部知识融合方法,最后将融合知识的预训练模型运用在面向用户生成内容的命名实体识别任务中。实验结果表明,相比较于没有融合知识的预训练模型,命名实体识别的效果有一定提高。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://m.bishedaima.com/lunwen/52486.html

相关推荐

发表回复

登录后才能评论