面向中文电子病历的医疗信息抽取方法研究
这是一篇关于中文电子病历,医疗信息抽取,医疗实体识别,医疗实体关系抽取的论文, 主要内容为面向电子病历的医疗信息抽取技术研究作为自然语言处理领域的研究热点,一直备受学术界的关注,其主要任务中包括医疗实体识别和医疗实体关系抽取。虽然近些年相关研究提出的抽取方法性能在不断提升,但是仍然面临着一些亟需解决的问题:(1)公开可用医疗语料匮乏。基于机器学习的方法在模型训练过程中对数据集规模依赖严重,然而现存的数据集不足且构建成本巨大;(2)模型学习句子语义信息的能力较弱。医疗实体关系抽取范围从句内扩展到句间,导致现有模型由于无法学习到长距离上下文依赖而不能直接使用;(3)以往研究方法多是将医疗实体识别和实体关系抽取作为独立问题进行解决,忽略了两个任务之间的协同影响。本文将针对以上问题,利用语言模型、图神经网络和多任务学习等方法对医疗信息抽取任务进行研究,主要贡献总结如下:第一,针对中文电子病历的实体识别任务,提出了一种多级表征抽取学习模型。该模型基于大规模预训练语言模型BERT和多头注意力机制,有效地提升了词嵌入质量,减少了模型对训练数据集规模的依赖。在中文电子病历实体识别语料(CEMRs)、中国知识图谱和语义计算会议评测比赛公布数据集(CCKS 2018)上的实验结果表明,本文所提出的多级表征抽取学习模型即使采用简单的分类算法,在医疗实体识别任务中的性能与以往方法相比也有较大提升。第二,针对中文电子病历的实体关系抽取任务,提出了一种注意力指导图卷积神经网络的模型。该模型基于图卷积神经网络和注意力机制,灵活地将句法依存树中的相关信息融合到实体节点中,采用“软剪枝”策略抽取非局部句法信息。在中文电子病历关系抽取语料(CEMRs-RE)和中国健康信息处理会议评测(CHIP2020)比赛中公布的中文医学信息抽取数据集(CMe IE)上进行实验,结果表明本文提出的模型在医疗实体关系抽取任务中的效果提升显著。第三,针对中文电子病历的实体识别和实体关系联合抽取任务,提出了一种新分解策略模型。该模型编码层基于双向长短期记忆网络,采用“先抽取再标注”的思维模式,将联合抽取任务巧妙地转化为序列标注任务。为了共同解决两个序列标注子问题,本文还设计了一个多跨度解码算法。在CEMRs和CEMRs-RE数据集上与以往最优的联合模型进行了大量对比实验,实验结果充分证明了新分解策略应用于多任务学习中的有效性。
基于语义表示模型的电子病历信息抽取技术研究与应用
这是一篇关于中文电子病历,命名实体识别,关系抽取,动态词向量,注意力机制的论文, 主要内容为电子病历是医疗产业向信息化、智能化发展的重要组成部分。因为电子病历包含大量临床医学知识,其信息抽取成为构建医疗系统知识图谱的关键一步,其中实体识别和关系抽取是电子病历信息抽取中的重要部分。本文主要研究基于语义表示模型的中文电子病历实体识别和关系抽取方法。首先,本研究结合现有语料库构建方法及标准,对6671份经去隐私处理的中文电子病历进行了人工标注,构建了一定规模的中文电子病历关系抽取及命名实体识别语料库。其次,实现了基于分类的关系抽取方法,通过将关系抽取任务切分为命名实体识别和关系分类两个子任务,将输入层改为基于语义模型训练的动态词向量分别优化了Bi-LSTM CRF模型和CNN模型,并分析了实验结果。针对分类过程中丢失长距离关系依赖的情况,在池化层引入了注意力机制。改进后的命名实体识别和关系分类的F值分别达到92.84%和89.5%。将实体识别和关系抽取当作两个独立的任务串联进行信息抽取会导致一系列问题,例如没有考虑到两个子任务之间的相关性,导致关系抽取任务的结果严重依赖于实体抽取的结果,易产生大量冗余的实体,并且造成误差累积。因此本文针对基于联合抽取的端到端关系抽取模型进行了研究。该方法通过不同的数据标注策略,将关系抽取任务转化为序列标注任务。本文首先实现了LSTM-LSTM-Bias模型,为丰富输入层的语义表示,引入了基于语义模型训练的动态词向量,改进后的关系抽取模型的F值达到82.7%。最后,基于上述研究,本文设计并实现了支持大数据处理的中文电子病历信息抽取系统。系统分为存储端、接口层和服务端三个模块,采用MVC的架构设计。在存储端,存储体系采用了三级缓存的结构,其中包括Hbase分布式开源数据库,远程字典服务结合My SQL数据库和基于Hadoop分布式文件系统,同时进一步优化了HBase。在接口层,为实现大规模数据的更新、增删和查询工作,在RESTful的基础上形成了两种类型的网页服务,能够进行远程实时的信息调用和抽取。而服务端能够在Hadoop的基础上处理大数据并抽取信息,借助该系统能够及时高效的抽取电子病历数据信息。在自然语言处理模块中,使用了大规模非电子病历医学文本对语义表示模型进行了预训练,在其基础上通过迁移学习训练了基于语义表示模型的端到端联合抽取模型,并结合模型融合技术和相似度去重技术,在电子病历的实体识别和关系抽取方面取得了较好的效果。
基于中文电子病历的肿瘤知识图谱构建研究——以消化系统肿瘤为例
这是一篇关于中文电子病历,知识图谱,消化系统肿瘤,图谱绘制,图谱评估的论文, 主要内容为近年来,全球恶性肿瘤发病率和死亡率持续升高,如何利用已有的诊疗经验进行归纳总结,挖掘潜在的、有效的诊疗关系,以加强恶性肿瘤防治工作,成为医务工作者迫切需要解决的问题。随着我国医药卫生信息化的发展,各大医院已经积累了丰富的中文肿瘤电子病历。电子病历中蕴含着丰富的医学事实,然而其非结构化的文本结构,包含大量的医学专业术语、缩略语等特点,给大数据环境下电子病历的组织和利用带来极大的挑战。知识图谱作为人工智能的重要组成部分,具有强大的信息处理和知识组织能力,为该问题的解决提供了新途径。针对中文电子病历肿瘤知识图谱构建需求,本研究结合肿瘤疾病和中文肿瘤电子病历的结构、语言特点,提出一套完整的基于中文电子病历的肿瘤知识图谱构建框架,为肿瘤知识图谱构建提供思路。论文以消化系统肿瘤为例,设计并构建了消化系统肿瘤知识图谱,采用定量评估和专家评估相结合的方式,对消化系统肿瘤知识图谱进行了质量评估。具体来说,本研究的主要工作包括以下四部分:(1)系统梳理了国内外知识图谱研究现状,借鉴已有研究思路和相关技术,总结现有研究的局限性,包括:①在数据源上,较少使用医院实际临床文本数据;②多关注于数据层面,对图谱模式构建研究不足;③在语义关系上,定义的语义关系较为简单,无法准确表达疾病诊疗过程中医疗事实之间的复杂关联关系;④在自然语言处理工具上,缺乏高效的中文医学文本自然语言处理工具。(2)提出一套完整的基于中文电子病历的肿瘤知识图谱构建框架。详细分析了肿瘤疾病和中文肿瘤电子病历的结构、语言特点,在定义肿瘤知识图谱设计原则、明确设计思路的基础上,针对现有研究的不足,聚焦于肿瘤知识图谱模式构建研究不足和缺乏语义考虑的问题,结合肿瘤疾病和中文肿瘤电子病历的特点,提出一套完整的基于中文电子病历的肿瘤知识图谱构建框架。(3)构建了一个包含丰富语义关系的消化系统肿瘤知识图谱。为验证基于中文电子病历的肿瘤知识图谱构建框架的可行性和科学性,本研究采用实证研究的方法,以消化系统肿瘤为例,构建了消化系统肿瘤知识图谱。首先,结合消化系统肿瘤疾病特点,如消化系统肿瘤的病理分期和组织学分型标准,利用斯坦福大学提出的模式构建“七步法”,通过参考i2b2 2010,复用SNOMEDCT、NCI叙词表、ICD-10、消化系统肿瘤WHO分类等资源,构建了包含7类实体和15种语义关系的消化系统肿瘤知识图谱模式;然后,结合肿瘤电子病历中包含大量的习惯用语、具有固定的文法和句法、肿瘤疾病相同类型的实体成对出现等特点,引入实体组的概念,分别采用基于规则和BiLSTM-CRF模型相结合的方式及BiGRU-Attention模型对消化系统肿瘤电子病历进行命名实体识别和语义关系抽取;最后,采用分层、分批实体对齐的策略实现图谱数据对齐,并将数据存储在Neo4j图形数据库中,完成对基于中文电子病历的消化系统肿瘤知识图谱构建。(4)开展了消化系统肿瘤知识图谱质量评估。采用定量评估和专家评估相结合的方式,从数据层、模式层和应用层三个方面对消化系统肿瘤知识图谱进行质量评估。评估结果表明,本研究构建的消化系统肿瘤知识图谱数据较为全面、可靠,图谱模式结构合理,能够全面、清晰地展示电子病历文本内容,便于用户进行语义搜索,研究构建的基于中文电子病历的肿瘤知识图谱构建框架具有一定的科学性和实用性。
基于深度学习的中文电子病历命名实体识别研究
这是一篇关于深度学习,中文电子病历,命名实体识别,自然语言处理的论文, 主要内容为医学命名实体识别(Medical Name Entity Recognition,MNER)是指识别医疗文本中具有特殊含义的医疗实体,是医学领域信息检索、关系抽取、知识图谱、机器翻译等任务的重要组件。随着智慧医疗信息技术的快速发展,医学领域实体识别研究已经逐渐成为跨学科研究的重点。如何从海量病历文本中准确、迅速的识别出具有研究意义的医疗实体于当下国内医疗信息化发展具有重要意义。本课题对中文电子病历命名实体识别问题进行研究,旨在充分利用海量中文电子病历资源,并从中获取具有重要价值的医学信息,从而推动临床医学领域的研究、生产及实践工作。具体研究内容包括以下几个部分:(1)针对中文电子病历中汉字“一词多义”而导致的精度不足问题,提出基于BERT的中文电子病历命名实体识别模型BERT-Bi LSTM-CRF。引入了BERT语言预训练模型,此模型可以有效解决中文电子病历存在的汉字“一词多义”问题;同时由于中文电子病历存在实体嵌套、实体类型复杂的现象,引入Bi LSTM-CRF提取上下文语义信息并获取实体标签之间的关系,实现精确识别。实验表明所提模型对中文电子病历中的命名实体具有良好的识别效果。(2)针对中文电子病历存在的词边界难点,提出了一种基于汉字、词汇两种粒度融合编码并结合注意力机制的模型。在上文BERT-Bi LSTM-CRF模型的基础上,将使用正向最大匹配算法(FMM)分割获取的词向量与BERT生成的字向量融合,解决使用分词工具分词带来的噪声问题,同时将融合向量输入模型以获取词汇信息。此外,由于计算机软硬件限制,本文使用的BERT采用固定参数的方式进行模型训练,为了弥补由于固定参数带来的识别精度缺失,在模型中引入多头注意力(Multi-Head Attention)机制,解析实体间的结构。实验结果表明,所提模型性能优于使用单一字编码方式。(3)针对预训练模型及Bi LSTM神经网络结构存在的参数众多、计算效率低的问题,提出基于SGRU的中文电子病历命名实体识别的深度学习加速方法。搭建了ALBERT-SGRU-CRF模型,使用SGRU实现特征提取的并行计算,此外,模型使用了轻量级BERT及GRU网络,极大地降低了模型总体参数量。经分组对比实验表明,所提模型较传统模型具有明显的性能提升,并能有效提高模型计算效率。
基于深度学习的中文电子病历命名实体识别研究
这是一篇关于命名实体识别,词向量,BERT模型,图注意力网络,中文电子病历的论文, 主要内容为目的:在智能技术爆炸的背景下,信息化技术与医疗产业紧密结合,大部分的卫生机构已经基本实现了信息化管理,累积了海量的病历信息,这些数据记录了患者就诊-痊愈的全过程,蕴含丰富的医疗活动和医学知识。若将电子病历信息用于构建类似于智能辅助诊断系统、智能医疗服务平台的医疗应用能促进医疗行业进一步发展。命名实体识别技术是实现临床文本有效运用的首要步骤,目前已有大量的命名实体识别算法被设计出来,根据抽取方式、标注方式和维度表示三个角度构造出多种方法,这些方法为命名实体识别的研究提供思路和经验,但是它们也存在一些不足。比如抽取过程出错会累积误差,序列标注会出现计算速度慢、实体重叠的问题,单一维度的方法会缺少语义信息、出现未登录词的缺点。此外,医疗行业的特殊性使得公开的医学数据集相对较少,并且中文独特的组词造句方式让中文文本难以通过分词系统简单的分词,所以中文电子病历不仅有中文词语边界模糊、词形特征不明显和一词多义的弊端,而且电子病历中有大量的医学专业术语和特殊表达的问题。因而,研究中文电子病历命名实体识别对推动医疗行业的发展具有重要的研究意义和现实意义。于是本文针对中文电子病历进行命名实体识别探究。方法:深度学习算法自动提取特征的能力避免了人工误差的问题,本文基于深度学习对中文电子病历的命名实体识别提出两种方法。首先,构建小型医学数据库。由于公开的数据集少,各个数据集的数据格式不同,为了后续的实验顺利开展,将c EHRNER、c Med QANER、YIDU-S4K和CHIP2020数据集转换为统一的文本格式。其次,针对中文词边界模糊、分词分割容易出错、字符语义信息量少、一词多义等问题,本文从维度表示的角度出发,依据融合字词特征的双维度提出增强词信息和上下文特征的模型,通过加权统计的词集和BERT模型两个模块提取特征向量,增强词信息嵌入,避免发生分词错误并解决一词多义的问题。在编码层添加图注意力网络,利用图注意力评估相邻字符的重要程度,增强模型学习文本上下文关系的能力,确保将文本数据中的语义语法特征保留下来,提高网络模型的学习效果。最后,针对医学专业术语多,表达方式特殊化的问题,本文依据序列标注提出基于预训练的网络模型。凭借预训练模型类似迁移学习的能力和强大的文本表征能力,通过预先学习语料知识提升模型性能。其中收集了医学百科、医学回答和电子病历等社区网站数据,在经过数据清洗后输入以BERT为框架的基础模型中,迫使模型学习医学知识,然后将训练好的新模型搭配双向长短期记忆神经网络。在这整个网络架构中,新模型作为词嵌入层,动态生成与医学相关的文本特征,并在双向长短期记忆神经网络存储记忆上下文序列的共同作用下完成医学实体识别。结果:增强词信息和上下文特征的命名实体识别方法在c EHRNER、c Med QANER和YIDU-S4K三个数据集的评价指标F1分别获得了85.57%、83.97%、83.52%,相较与BERT模型c Med QANER数据集在测试集上提升了0.85%,相较于MC-BERT医学模型提升了0.51%。在基于医学的预训练模型的方法中,YIDU-S4K和CHIP2020数据集上的评价指标F1分别获得了87.62%和85.63%,标准的BERT模型在这一网络上分别获得了77.08%,79.54%,相较之下,本文的研究模型分别提升了10.5%和6.09%。YIDU-S4K数据集相较于上一章的方法,提升了4.1%,相较于学术评测[1]中的最佳F1值85.62%提升了2%。此外,在将医学语言模型用于第一个实体识别方法时,c EHRNER、c Med QANER和YIDU-S4K分别获得了1.43%、0.79%、0.76%的提升,说明医学语言模型具有良好的性能。结论:本文提出的两个实体识别方法,一个着眼于保留文本特征,一个着眼于学习医学领域知识,实验结果验证了它们的鲁棒性和有效性,为中文电子病历命名实体识别研究提供一份力量,但这些模型中存在处理速度慢、词集的词向量表示更适用于通用领域等问题,在未来将针对这些问题继续研究,同时将中文电子病历命名实体识别落地,构建医疗知识图谱,设计智能医疗服务系统,让医疗应用真正到落实到现实生活中也是未来的研究方向和研究目标。
面向中文电子病历的医疗信息抽取方法研究
这是一篇关于中文电子病历,医疗信息抽取,医疗实体识别,医疗实体关系抽取的论文, 主要内容为面向电子病历的医疗信息抽取技术研究作为自然语言处理领域的研究热点,一直备受学术界的关注,其主要任务中包括医疗实体识别和医疗实体关系抽取。虽然近些年相关研究提出的抽取方法性能在不断提升,但是仍然面临着一些亟需解决的问题:(1)公开可用医疗语料匮乏。基于机器学习的方法在模型训练过程中对数据集规模依赖严重,然而现存的数据集不足且构建成本巨大;(2)模型学习句子语义信息的能力较弱。医疗实体关系抽取范围从句内扩展到句间,导致现有模型由于无法学习到长距离上下文依赖而不能直接使用;(3)以往研究方法多是将医疗实体识别和实体关系抽取作为独立问题进行解决,忽略了两个任务之间的协同影响。本文将针对以上问题,利用语言模型、图神经网络和多任务学习等方法对医疗信息抽取任务进行研究,主要贡献总结如下:第一,针对中文电子病历的实体识别任务,提出了一种多级表征抽取学习模型。该模型基于大规模预训练语言模型BERT和多头注意力机制,有效地提升了词嵌入质量,减少了模型对训练数据集规模的依赖。在中文电子病历实体识别语料(CEMRs)、中国知识图谱和语义计算会议评测比赛公布数据集(CCKS 2018)上的实验结果表明,本文所提出的多级表征抽取学习模型即使采用简单的分类算法,在医疗实体识别任务中的性能与以往方法相比也有较大提升。第二,针对中文电子病历的实体关系抽取任务,提出了一种注意力指导图卷积神经网络的模型。该模型基于图卷积神经网络和注意力机制,灵活地将句法依存树中的相关信息融合到实体节点中,采用“软剪枝”策略抽取非局部句法信息。在中文电子病历关系抽取语料(CEMRs-RE)和中国健康信息处理会议评测(CHIP2020)比赛中公布的中文医学信息抽取数据集(CMe IE)上进行实验,结果表明本文提出的模型在医疗实体关系抽取任务中的效果提升显著。第三,针对中文电子病历的实体识别和实体关系联合抽取任务,提出了一种新分解策略模型。该模型编码层基于双向长短期记忆网络,采用“先抽取再标注”的思维模式,将联合抽取任务巧妙地转化为序列标注任务。为了共同解决两个序列标注子问题,本文还设计了一个多跨度解码算法。在CEMRs和CEMRs-RE数据集上与以往最优的联合模型进行了大量对比实验,实验结果充分证明了新分解策略应用于多任务学习中的有效性。
面向中文电子病历的命名实体识别及因果关系抽取研究
这是一篇关于中文电子病历,命名实体识别,层叠条件随机场,因果关系抽取,部首信息的论文, 主要内容为电子病历作为一种宝贵的数据资源,包含了大量、准确且详细的患者信息。对中文电子病历进行命名实体识别,并抽取出各实体之间的因果关系,可为构建医学知识库、临床决策辅助系统等提供理论支撑。现有的方法无法捕获中文电子病历文本中嵌套实体的语义信息,导致命名实体识别和因果关系抽取的准确率低。为解决这一问题,本文通过深入挖掘嵌套实体语义信息,并利用语义与部首高度相关这一特点,进行了面向中文电子病历的命名实体识别及因果关系抽取研究,提高命名实体识别和因果关系抽取的准确率。具体研究内容如下:(1)针对中文电子病历中存在大量嵌套实体,导致命名实体识别准确率较低的问题,提出基于改进CCRFs的中文电子病历命名实体识别模型。首先,利用BERT模型构建电子病历文本特征集,获取丰富的语义信息;然后,利用BiLSTM获取局部特征并使用注意力机制赋予与实体词相关的特征更高权重;最后,使用CCRFs处理筛选后的特征,避免长距离依赖带来的误差,得到命名实体识别结果。实验结果表明,本文所提模型在CCKS 2017、CCKS 2018数据集的F1值分别为92.00%和89.31%,与现有模型相比效果显著。(2)在此基础上,针对命名实体语义与部首高度相关,且现有的因果关系抽取模型捕获的语义有限,存在抽取准确率较低的问题,基于所提命名实体识别模型,提出融合部首信息的中文电子病历因果关系抽取模型。首先,使用新华字典数据集获取命名实体的部首;利用Word2Vec对部首进行增量训练,捕获部首的特征,使用BERT模型获取字符特征;最后,将这两种独立的特征拼接作为因果关系模型的输入向量,抽取各实体之间的因果关系。在Q&A2019、Yi Du-S4K、CHIP2020数据集上,F1值分别为82.1%、81.69%、77.99%。实验结果表明,本文所提出的模型可以有效地进行命名实体识别并对实体进行因果关系抽取,为构建医疗知识图谱、在线诊疗平台等提供了理论和技术支撑。图[28]表[15]参[82]
中文电子病历的新词发现及实体识别研究
这是一篇关于中文电子病历,自然语言处理,新词发现,命名实体识别的论文, 主要内容为新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识别技术可以准确地识别出各类命名实体,是构建知识图谱最重要的技术之一。中文电子病历是医务人员对患者整个就诊过程的专业化记录,由于文本中包含着大量真实的临床医学知识而受到了科研工作者的关注,使用自然语言处理的技术充分挖掘出这些知识,将极大地推动医疗信息化的建设。本文的研究工作如下:(1)提出了一种改进的新词发现方法。该方法首先基于N-gram进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现。在得到候选词组后,结合网格搜索获取最优的特征阈值组合。在四个不同领域的语料上,将改进的新词发现方法与使用通用工具进行预分词的方法作对比,实验结果验证了本文的方法具备良好的领域适应性。尤其是电子病历语料,前10%的新词准确率达到了85.9%,其效果大幅超过所对比的方法。(2)针对中文电子病历的命名实体识别问题,提出了一种改进的方法。该方法首先使用无监督的新词发现方法构建领域词典,改善领域内中文分词的精度,然后采用BI-LSTM-CRF框架进行命名实体识别。在电子病历语料上进行实验,添加医学领域词典后,F1值提升了1.46%。(3)针对电子病历的高质量标注文本缺失的问题,提出了一种结合BERT模型进行命名实体识别的方法。该方法使用BERT模型对文本进行向量化,使用BI-LSTMCRF框架作为微调的方式进行实体识别。同时在实验部分,分别对比了不同训练方式的语言模型、不同的微调方式以及是否进一步预训练对实体识别效果的影响。实验结果显示,在实验语料上使用BERT作为语言模型,并使用BI-LSTM-CRF的微调方式,得到的效果最好,其F1值达到了83.39%,而进一步预训练使得实体识别的F1值提升约0.54%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码助手 ,原文地址:https://m.bishedaima.com/lunwen/49204.html