基于ALBERT的医疗问答系统设计与实现
这是一篇关于医疗实体识别,意图识别,知识图谱,语义相似度测量,问答系统的论文, 主要内容为随着互联网的普及和人们对于自身保健意识的增强,越来越多的人通过网络来获取医疗信息。而当前搜索引擎上的信息良莠不齐,存在着大量的无关信息;在线问诊平台虽然权威性较高,但是存在着反馈不及时的问题。因此,本文构建的基于知识图谱的医疗问答系统,是具有现实意义的。该医疗问答系统对于输入的问题,首先进行意图的分类和关键实体的提取,然后根据用户的问询意图在知识图谱上查询后返回最准确的结果。具体研究包括:(1)基于ALBERT(A Lite BERT)的问句语义解析。本文将问句语义解析划分为实体识别和意图识别两个子任务,分别完成问句中实体关键词的识别和问句意图的分类。针对医疗文本的命名实体识别,本文引入了预训练模型ALBERT,给模型一个较为完备的初始化参数,结合BiLSTM(Bidirectional Long Short-Term Memory)模型提取上下文特征信息,采用CRF(Conditional Random Field)模型引入标签约束为实体类别正确分类,实现了用于医疗实体识别的ALBERT-BiLSTM-CRF模型。该模型在MED数据集和CCKS病历数据集下的F1值分别为80.8%和89.2%,效果显著高于实体识别领域经典模型。针对医疗问句的意图识别,本文引入ALBERT预训练模型提高对语言整体的理解准确性,再通过TextCNN(Text Convolutional Neural Network)对语义特征进行卷积、池化后输出问句意图分类,实现了用于问句意图分类的ALBERT-TextCNN模型。该模型在本文的意图识别数据集MQA下的F1值为87.6%,效果相较文本分类领域经典模型有所提升。(2)基于知识图谱的答案检索方法设计。本文基于答案检索过程出现的两种导致检索结果不精确的情况,研究了基于否定词的实体预处理和基于语义相似度测量的同义词、近义词匹配方法,并将其应用于答案检索的过程当中,取得了更为精确的检索结果。同时,按照数据采集、Schema构建、数据存储等流程构建出了一个包含实体约4万个、实体关系约25万条的医疗知识图谱,为问答系统提供知识基础。(3)医疗问答系统实现与测试。本文基于Django框架对各个算法模块进行集成,通过Echars和Layui框架可视化界面,构建了具有实体识别、实体搜索、关系搜索、医疗问答等功能的智能医疗问答系统。该系统可以针对用户的问询意图、问题实体提供准确的答案,为用户提供良好的问答体验,具有较高实用价值。
面向中文电子病历的医疗实体识别及事件抽取研究
这是一篇关于医疗实体识别,预训练语言模型,深度学习,医疗事件抽取,伪标签置信选择的论文, 主要内容为随着医学的发展和医疗数据的不断增长,如何从大量非结构化的中文电子病历中抽取出相应的医疗知识成为目前研究的热点。医疗实体识别和事件抽取作为结构化医疗文本的重要技术,可以识别并抽取电子病历中的实体及事件,为下一步构建医疗知识图谱和支持医学智能化决策打下基础。本文主要研究了医疗实体识别和事件抽取技术,主要研究成果包括:(1)提出一种基于BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型的医疗实体识别方法,其中BERT建模电子病历上下文语义,迭代膨胀卷积神经网络(IDCNN)对局部医疗实体信息进行更准确的卷积编码,多头注意力(MHA)多次计算文本中每个字符和所有字符的注意力概率来增加关联字符的权重,CRF解码最优的医疗文本序列。实验结果表明,所提出方法在CCKS2019医疗实体识别数据集上取得较好的抽取效果。(2)提出一种基于深度学习多模型融合的医疗实体识别方法。该方法中首先提出一种基于变异系数的加权投票算法,用于构建基于BERT、IDCNN和图注意力网络(GAT)的融合模型,其中BERT可以获得电子病历上下文相关的语义表示,IDCNN可以高效地抽取电子病历语义信息,GAT通过构建三种字词图来充分利用词语的边界和语义信息,并提出一种基于历史信息的实体纠错算法用于优化融合结果。实验结果表明,所提出方法的精确率、召回率和F1值分别达到89.56%、82.77%和86.03%。(3)提出一种基于伪标签置信选择的半监督医疗事件抽取方法。该方法构建基于Transformer编码器、Bi LSTM和注意力机制的医疗事件联合抽取模型,并提出一种用于选择高置信度数据的伪标签置信选择算法。通过计算伪标签一致概率来选择高置信度的伪标签数据,将其用于扩充数据来更新医疗事件联合抽取模型,使用更新的模型对电子病历中肿瘤原发部位、病灶大小和转移部位事件进行抽取,并使用多数投票优化最终的抽取结果。实验结果表明,所提出方法在CCKS2020医疗事件抽取数据集上取得了优异的性能。
基于跨句关系抽取的医疗知识图谱构建与应用
这是一篇关于医疗实体识别,关系抽取,知识图谱,医疗知识问答的论文, 主要内容为近年来,互联网领域呈现爆炸式的发展,每天都有成千上万的网页数据在不断更新,在每个网页文本中通常蕴藏着数以百计的知识等待着人们去发现挖掘。为了能够有效地将这些信息利用起来,国内外科研人员对此做了大量研究工作。其中,知识图谱构建就是其中最重要和热门的研究方向之一。本文就如何实现完备的医疗知识图谱以及基于该医疗知识图谱实现医疗知识问答等工作展开了分析和研究。本文的主要创新和改进有以下几点:(1)本文发现并利用互联网网页文档中存在的医疗分类层级目录特征,使得医疗本体的构建更加准确高效;(2)本文通过自行设计的爬取算法获得了大量互联网医疗文本数据,并对其进行一系列处理得到一个全新的跨句关系抽取标注数据集;(3)本文在医疗知识图谱构建过程中创新性地引入跨句关系抽取方法。本文分析研究了如何实现完备的医疗知识图谱以及基于该医疗知识图谱实现医疗知识问答,通过对面向医疗领域的知识图谱构建研究,实现了对互联网中存在的大量医疗知识数据的提取和应用。首先本文通过Scrapy和Jsoup Api从39健康网、丁香园等网站爬取了大量非结构化医疗文本数据。其次,通过对这些数据分析并结合医疗分层级目录信息,完成了医疗本体建模。接着,通过实体抽取和关系分类的方法从这些非结构化文本数据中提取出医疗知识,通过BERT-Bi LSTM-CRF模型进行完成了实体抽取工作,通过GA-LSTM模型完成了跨句实体间的关系分类工作,并根据上述抽取得到的三元组知识构建并完善层次分明的了医疗知识图谱。最后,通过利用Neo4j图数据库对医疗知识进行相应地存储,并基于该医疗知识图谱设计并实现了诸如医疗实体抽取、医疗实体查询、医疗关系抽取、医疗关系查询、医疗知识问答、医疗知识抽取导入等多个功能,实现了对医疗知识图谱的直观展示与便捷利用。
基于跨句关系抽取的医疗知识图谱构建与应用
这是一篇关于医疗实体识别,关系抽取,知识图谱,医疗知识问答的论文, 主要内容为近年来,互联网领域呈现爆炸式的发展,每天都有成千上万的网页数据在不断更新,在每个网页文本中通常蕴藏着数以百计的知识等待着人们去发现挖掘。为了能够有效地将这些信息利用起来,国内外科研人员对此做了大量研究工作。其中,知识图谱构建就是其中最重要和热门的研究方向之一。本文就如何实现完备的医疗知识图谱以及基于该医疗知识图谱实现医疗知识问答等工作展开了分析和研究。本文的主要创新和改进有以下几点:(1)本文发现并利用互联网网页文档中存在的医疗分类层级目录特征,使得医疗本体的构建更加准确高效;(2)本文通过自行设计的爬取算法获得了大量互联网医疗文本数据,并对其进行一系列处理得到一个全新的跨句关系抽取标注数据集;(3)本文在医疗知识图谱构建过程中创新性地引入跨句关系抽取方法。本文分析研究了如何实现完备的医疗知识图谱以及基于该医疗知识图谱实现医疗知识问答,通过对面向医疗领域的知识图谱构建研究,实现了对互联网中存在的大量医疗知识数据的提取和应用。首先本文通过Scrapy和Jsoup Api从39健康网、丁香园等网站爬取了大量非结构化医疗文本数据。其次,通过对这些数据分析并结合医疗分层级目录信息,完成了医疗本体建模。接着,通过实体抽取和关系分类的方法从这些非结构化文本数据中提取出医疗知识,通过BERT-Bi LSTM-CRF模型进行完成了实体抽取工作,通过GA-LSTM模型完成了跨句实体间的关系分类工作,并根据上述抽取得到的三元组知识构建并完善层次分明的了医疗知识图谱。最后,通过利用Neo4j图数据库对医疗知识进行相应地存储,并基于该医疗知识图谱设计并实现了诸如医疗实体抽取、医疗实体查询、医疗关系抽取、医疗关系查询、医疗知识问答、医疗知识抽取导入等多个功能,实现了对医疗知识图谱的直观展示与便捷利用。
面向中文电子病历的医疗信息抽取方法研究
这是一篇关于中文电子病历,医疗信息抽取,医疗实体识别,医疗实体关系抽取的论文, 主要内容为面向电子病历的医疗信息抽取技术研究作为自然语言处理领域的研究热点,一直备受学术界的关注,其主要任务中包括医疗实体识别和医疗实体关系抽取。虽然近些年相关研究提出的抽取方法性能在不断提升,但是仍然面临着一些亟需解决的问题:(1)公开可用医疗语料匮乏。基于机器学习的方法在模型训练过程中对数据集规模依赖严重,然而现存的数据集不足且构建成本巨大;(2)模型学习句子语义信息的能力较弱。医疗实体关系抽取范围从句内扩展到句间,导致现有模型由于无法学习到长距离上下文依赖而不能直接使用;(3)以往研究方法多是将医疗实体识别和实体关系抽取作为独立问题进行解决,忽略了两个任务之间的协同影响。本文将针对以上问题,利用语言模型、图神经网络和多任务学习等方法对医疗信息抽取任务进行研究,主要贡献总结如下:第一,针对中文电子病历的实体识别任务,提出了一种多级表征抽取学习模型。该模型基于大规模预训练语言模型BERT和多头注意力机制,有效地提升了词嵌入质量,减少了模型对训练数据集规模的依赖。在中文电子病历实体识别语料(CEMRs)、中国知识图谱和语义计算会议评测比赛公布数据集(CCKS 2018)上的实验结果表明,本文所提出的多级表征抽取学习模型即使采用简单的分类算法,在医疗实体识别任务中的性能与以往方法相比也有较大提升。第二,针对中文电子病历的实体关系抽取任务,提出了一种注意力指导图卷积神经网络的模型。该模型基于图卷积神经网络和注意力机制,灵活地将句法依存树中的相关信息融合到实体节点中,采用“软剪枝”策略抽取非局部句法信息。在中文电子病历关系抽取语料(CEMRs-RE)和中国健康信息处理会议评测(CHIP2020)比赛中公布的中文医学信息抽取数据集(CMe IE)上进行实验,结果表明本文提出的模型在医疗实体关系抽取任务中的效果提升显著。第三,针对中文电子病历的实体识别和实体关系联合抽取任务,提出了一种新分解策略模型。该模型编码层基于双向长短期记忆网络,采用“先抽取再标注”的思维模式,将联合抽取任务巧妙地转化为序列标注任务。为了共同解决两个序列标注子问题,本文还设计了一个多跨度解码算法。在CEMRs和CEMRs-RE数据集上与以往最优的联合模型进行了大量对比实验,实验结果充分证明了新分解策略应用于多任务学习中的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工坊 ,原文地址:https://m.bishedaima.com/lunwen/56229.html