面向医学知识图谱构建的实体关系抽取研究
这是一篇关于知识图谱,医学文本,关系抽取,BERT,融合知识的论文, 主要内容为随着医疗信息化的不断发展,蕴含着丰富医学知识的各类医学文本的数量激增,对高效地利用文本中有价值的信息造成困难。知识图谱因能够对海量结构化文本知识进行表示,实现知识的快速查询而被广泛使用。同时医学知识图谱作为驱动智慧医疗服务与应用的关键基石,有助于临床辅助决策、智能导诊等应用的发展。医学文本中大部分是结构并不明确的为半结构化和非结构化文本,无法直接存入医学知识图谱。关系抽取因能够实现医学文本的语义结构显式化,成为医学知识图谱构建的关键技术,因此本文针对不同类型文本进行了实体关系抽取研究,所做的主要工作有:(1)针对医疗领域中的半结构化文本,以构建药品知识图谱为目标,采用BERT-Bi LSTM-CRF模型进行了关系抽取研究。该模型通过BERT语言模型获得输入文本序列的深层次语义表示,并输入至Bi LSTM层进行进一步的语义编码;通过CRF层处理输出标签之间的依赖关系,获得文本的最优标注序列,实验结果中F1值分别达到94.9%和95.7%;其次基于药品文本中已有的半结构化信息构建了药品与多种实体间的结构化关系;最后为了解决多源药品知识的局限性和表示方式的差异性,分别从模式层和数据层两个层面构建了中文药品知识图谱(Chinese Medicine Knowledge Graph,CMKG)。(2)针对医疗领域中的非结构化文本,提出了一种融合外部医学知识的多头关系抽取模型Ro KE-PN-Mhead。模型在嵌入层使用Ro BERTa预训练模型对输入文本进行编码,并融入外部医学知识以增强文本的语义信息。同时将嵌入层向量输入指针网络进行实体识别,并根据抽取出的实体向量采用多头选择机制进行实体关系抽取。在医学数据集CMe IE上的实验结果表明,相比其他深度学习模型,Ro KE-PN-Mhead模型在进行医学关系抽取时能取得更好的效果,F1值达到59.14%。以及在通用领域数据集Du IE 2.0上验证了去除外部医学知识后模型进行关系抽取的有效性和可拓展性,F1值达到70.55%。
基于改进序列标注模型的医学文本命名实体识别
这是一篇关于医学文本,命名体识别,多粒度文本,注意力机制,问答系统的论文, 主要内容为随着神经网络模型的发展,神经网络与传统序列标注模型的组合逐渐替代了传统的基于隐马尔科夫或条件随机场的序列标注模型,成为命名实体识别领域的主流方向。医学文本来自于医学专业书籍,是构建医学知识图谱的重要资料。而医学文本命名实体识别对医学知识图谱的构建起着重要的作用,基于此背景,本文针对医学领域的文本的命名实体识别展开研究。首先,本文构建了多粒度文本特征融合的医学文本命名实体识别模型。因为多粒度文本特征可以解决未登录词问题并丰富词语的表征,所以,本文以结合BiLSTM(Bi-directional Long Short-Term Memory)和 CRF(Conditional Random Field)的命名实体识别模型为基础,融合字符、亚词、词级别的特征,并分别比较了上下文无关的GloVe(Global Vectors)词向量和上下文相关的BERT(Bidirectional Encoder Representation from Transformers)词向量在命名实体识别上的效果。实验表明上下文相关的词向量和多粒度文本特征融合可以提升命名实体识别的效果。其次,针对长序列建模问题,本文构建了基于多头注意力机制的医学文本命名实体识别模型。由于LSTM(Long Short-Term Memory)在建模长序列时容易丢失序列内容的长期依赖关系,所以本文使用基于多头注意力机制的Transformer编码器结构替代BiLSTM进行序列建模。实验表明Transformer编码器结构可以提升命名实体识别的效果。最后,本文研究了在添加额外信息的条件下的医学文本命名实体识别问题。本研究在原始的命名实体识别问题的基础上,结合医学领域文本的特点,分别添加疾病名称和实体类型这两种额外信息,最终将问题转化为文本阅读理解问题,并构建基于问答系统的医学文本命名实体识别模型。实验表明,添加额外信息可以提升命名实体识别的效果,且实体类型信息的加入方案对命名实体识别的效果提升最大。
面向中文医学文本的知识抽取技术研究
这是一篇关于医学文本,命名实体识别,实体关系抽取,深度学习,知识图谱的论文, 主要内容为大数据时代下,信息技术的快速发展和广泛应用,推动着医学行业朝着医学信息化的方向探索发展,并成为了一种主流趋势。随着医学信息化的推进,医学领域已经积累了海量的非结构化文本数据,这其中包含着大量有价值的知识。如何从海量的非结构化医学文本中挖掘出有效的知识并加以存储和利用,对医学信息化的发展具有重大意义,也是目前自然语言处理领域的研究热点。知识图谱作为一种具有高效的知识表达方式的语义网络,可以对知识进行有效的存储、管理、扩展和应用。知识抽取作为知识图谱构建过程中的核心任务,其抽取效果的好坏对知识图谱的质量、扩展、应用等具有直接的影响。因此,本文主要研究面向中文医学文本的知识抽取技术,并基于此构建一个医学领域的知识图谱,主要工作包括以下几个方面:1.提出了一种基于注意力机制的BGRU-CRF中文医学命名实体识别模型BGRU-att-CRF。该模型首先将输入的医学文本语句中的每个字都转换成字向量,然后利用BGRU网络获取医学文本语句中丰富的上下文信息,接着利用注意力机制选择关联性更高、依赖性更强的上下文语义信息,最后通过CRF得到医学实体标签序列的全局最优解,完成对医学实体的识别。通过与多种基准模型进行整体性能和细粒度性能的对比实验,验证了该模型在中文医学命名实体识别任务上的有效性。2.提出了一种基于神经网络和自注意力机制的中文医学实体关系抽取模型BLSTM-MCatt-CNN。该模型首先利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征,然后利用CNN捕获医学文本语句的局部短语特征,并结合多通道自注意力机制捕获医学文本语句的全局信息,对医学文本的语义特征进行深入挖掘。本文通过参数调优实验确定了BLSTM-MCatt-CNN模型的最佳参数组合,最后将模型与多种基准模型进行了整体性能的对比实验,验证了该模型在中文医学实体关系抽取任务上的有效性。3.基于上述医学命名实体识别和医学实体关系抽取工作,采用自顶向下的方式构建以疾病为中心的医学领域知识图谱,整个构建的过程包括模式层定义、知识抽取、知识融合和知识存储。并基于此,设计实现了一个医学知识问答系统,不仅可以验证知识图谱的实用性,也可以为患者了解相关疾病的知识提供一定的帮助。
面向领域知识图谱的信息抽取方法及其在医学文本中的应用
这是一篇关于领域知识图谱,医学文本,命名实体识别,实体关系抽取,深度学习的论文, 主要内容为大数据时代下,信息技术的快速发展与广泛应用,推动着医学行业朝着医学信息化的方向探索发展,并成为了一种主流趋势。在医学领域中,蕴含有效信息的非结构化文本数据源源不断的产生,尤其是糖尿病这种常见的慢性疾病,每天产生的数据量更是数以万计。如何从这些海量医学文本中提取出有效信息并加以存储管理对医学信息化的发展具有重大意义。知识图谱作为一种具备语义表达、检索和推理等能力的知识管理与应用的基础设施,能够有效地解决这一问题。信息抽取作为构建知识图谱的核心部分,其抽取效果的好坏直接影响到知识图谱是否具备高质量、可扩展更新的特性。因此,本文主要研究医学领域的信息抽取方法,并将其应用于知识图谱的构建与应用中。首先,本文设计了一种基于多特征融合的深度学习医学命名实体识别方法。针对中文医学文本数据,在经典的Bi LSTM-CRF命名实体识别模型基础上,以字符为识别粒度,融合字符本身、部首、拼音、笔画及上下文短语等多种特征,其中短语特征借助多尺度CNN学习得到。该方法不仅能避免中文分词带来的传递误差,还能弥补短语信息的缺失,能够有效提升医学命名实体的识别效果。其次,提出了一种基于深度学习的有监督医学实体关系抽取方法。该方法通过滑动窗口技术将数据转换成多维层次序列,采用Conv LSTM实现上下文的信息建模与多轮学习,利用层级注意力池化机制汇总上下文语义信息并捕获与语义关系密切关联的文本片段和短语。该方法不仅能够提升实体关系的整体分类效果,也能缓解因样本不均衡与多实例共存导致的错误分类问题。最后,基于上述医学命名实体识别和实体关系抽取工作,采用自顶向下的方式构建以糖尿病为例的领域知识图谱,整个构建过程包含模式层定义、数据获取、信息抽取、知识融合与知识存储五部分。并基于此,设计实现了一个糖尿病知识问答系统,不仅可以验证知识图谱的实用性,也能为糖尿病患者了解糖尿病本身的知识与糖尿病的日常管理提供一定的帮助。
面向领域知识图谱的信息抽取方法及其在医学文本中的应用
这是一篇关于领域知识图谱,医学文本,命名实体识别,实体关系抽取,深度学习的论文, 主要内容为大数据时代下,信息技术的快速发展与广泛应用,推动着医学行业朝着医学信息化的方向探索发展,并成为了一种主流趋势。在医学领域中,蕴含有效信息的非结构化文本数据源源不断的产生,尤其是糖尿病这种常见的慢性疾病,每天产生的数据量更是数以万计。如何从这些海量医学文本中提取出有效信息并加以存储管理对医学信息化的发展具有重大意义。知识图谱作为一种具备语义表达、检索和推理等能力的知识管理与应用的基础设施,能够有效地解决这一问题。信息抽取作为构建知识图谱的核心部分,其抽取效果的好坏直接影响到知识图谱是否具备高质量、可扩展更新的特性。因此,本文主要研究医学领域的信息抽取方法,并将其应用于知识图谱的构建与应用中。首先,本文设计了一种基于多特征融合的深度学习医学命名实体识别方法。针对中文医学文本数据,在经典的Bi LSTM-CRF命名实体识别模型基础上,以字符为识别粒度,融合字符本身、部首、拼音、笔画及上下文短语等多种特征,其中短语特征借助多尺度CNN学习得到。该方法不仅能避免中文分词带来的传递误差,还能弥补短语信息的缺失,能够有效提升医学命名实体的识别效果。其次,提出了一种基于深度学习的有监督医学实体关系抽取方法。该方法通过滑动窗口技术将数据转换成多维层次序列,采用Conv LSTM实现上下文的信息建模与多轮学习,利用层级注意力池化机制汇总上下文语义信息并捕获与语义关系密切关联的文本片段和短语。该方法不仅能够提升实体关系的整体分类效果,也能缓解因样本不均衡与多实例共存导致的错误分类问题。最后,基于上述医学命名实体识别和实体关系抽取工作,采用自顶向下的方式构建以糖尿病为例的领域知识图谱,整个构建过程包含模式层定义、数据获取、信息抽取、知识融合与知识存储五部分。并基于此,设计实现了一个糖尿病知识问答系统,不仅可以验证知识图谱的实用性,也能为糖尿病患者了解糖尿病本身的知识与糖尿病的日常管理提供一定的帮助。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://m.bishedaima.com/lunwen/56309.html