基于深度学习的生物医学命名实体识别研究
这是一篇关于命名实体识别,生物医学,预训练语言模型,多头注意力机制,全局指针的论文, 主要内容为生物医学命名实体识别是文本挖掘的基础任务之一,旨在从生物医学文本中提取出特定类型的生物医学实体信息,进而为领域知识图谱、临床决策支持系统构建等工作提供支持。目前已有诸多基于深度学习的命名实体识别模型,但由于生物医学实体存在一词多义、实体边界不清、实体嵌套等问题,导致现有的识别模型识别效果不佳、复杂度过高等。本文对命名实体识别领域的发展进行了介绍,并分别针对非嵌套和嵌套命名实体识别任务的主流方法,特别是生物医学领域的相关工作进行了分析总结。基于以上研究,本文提出了两个基于深度学习的生物医学命名实体识别模型。(1)针对非嵌套实体识别中存在的单词歧义、模型复杂度过高问题,提出了基于ALBERT和多头注意力机制的生物医学命名实体识别模型(Biomedical Named Entity Recognition with ALBERT and Multi-head Attention Mechanism,ABMHA),该模型采用ALBERT和多头注意力以多角度获取生物医学字符之间的相关性。此外,该模型引入了RAdam优化器,进一步提升了模型的收敛速度和泛化能力,在CCKS2019数据集上达到了85.63%的F1值,相比基线模型提高了4.36%。(2)针对嵌套实体识别中存在的局部依赖问题,提出了基于Ro BERTa和全局指针的嵌套生物医学命名实体识别模型(Nested Biomedical Named Entity Recognition Based on Ro BERTa and Global Pointer,Ro BGP),该模型能够在生物医学词汇层面捕捉丰富的语义信息,并双向捕获长距离的语义依赖关系,同时引入全局指针网络有效识别嵌套实体,并在公开数据集CMe EE上验证了模型的有效性。
基于深度学习的生物医学命名实体识别研究
这是一篇关于命名实体识别,生物医学,预训练语言模型,多头注意力机制,全局指针的论文, 主要内容为生物医学命名实体识别是文本挖掘的基础任务之一,旨在从生物医学文本中提取出特定类型的生物医学实体信息,进而为领域知识图谱、临床决策支持系统构建等工作提供支持。目前已有诸多基于深度学习的命名实体识别模型,但由于生物医学实体存在一词多义、实体边界不清、实体嵌套等问题,导致现有的识别模型识别效果不佳、复杂度过高等。本文对命名实体识别领域的发展进行了介绍,并分别针对非嵌套和嵌套命名实体识别任务的主流方法,特别是生物医学领域的相关工作进行了分析总结。基于以上研究,本文提出了两个基于深度学习的生物医学命名实体识别模型。(1)针对非嵌套实体识别中存在的单词歧义、模型复杂度过高问题,提出了基于ALBERT和多头注意力机制的生物医学命名实体识别模型(Biomedical Named Entity Recognition with ALBERT and Multi-head Attention Mechanism,ABMHA),该模型采用ALBERT和多头注意力以多角度获取生物医学字符之间的相关性。此外,该模型引入了RAdam优化器,进一步提升了模型的收敛速度和泛化能力,在CCKS2019数据集上达到了85.63%的F1值,相比基线模型提高了4.36%。(2)针对嵌套实体识别中存在的局部依赖问题,提出了基于Ro BERTa和全局指针的嵌套生物医学命名实体识别模型(Nested Biomedical Named Entity Recognition Based on Ro BERTa and Global Pointer,Ro BGP),该模型能够在生物医学词汇层面捕捉丰富的语义信息,并双向捕获长距离的语义依赖关系,同时引入全局指针网络有效识别嵌套实体,并在公开数据集CMe EE上验证了模型的有效性。
结合先验知识及注意力机制的生物医学实体识别和关系抽取
这是一篇关于生物医学,命名实体识别,关系抽取,先验知识,注意力机制的论文, 主要内容为生物医学的实体识别和关系抽取是从文本数据中识别特定的实体,并对实体间的关系进行判断。电子病历记录了病人详细的诊疗经过,对其进行命名实体识别,可以从中提取患病部位,发病症状,治疗药物等重要信息;再通过关系抽取判断实体之间的关系,可以用于更多医学应用,例如通过药物关系抽取可以预防多种药物同时使产生的不良药物反应等。因此研究生物医学命名实体识别和关系抽取对构建生物医学领域知识图谱,帮助医生进行病例研究分析,促进智慧医疗建设等有重要意义。命名实体识别可以分为实体类别识别和边界识别。相比英文电子病历的命名实体识别,中文电子病历的实体识别更加困难。由于中文词语之间没有间隔,在实体的边界识别上极易产生错误。针对这个问题,本文提出了结合实体先验知识和自注意力机制的实体识别方法,以Bi LSTM-CRF作为基础模型,将区分实体和非实体的词性标签作为模型的先验知识,对实体边界进行初步区分;再通过自注意力机制提高同个实体内的字符关联权重,进一步提升模型对实体边界的识别能力。本文在中文电子病历命名实体识别任务上进行实验,相比基准模型,F1值提高了12.75%,并且在实体边界识别问题上有明显的改进。药物关系提取是对药物之间的关系进行判断,药物关系抽取存在负样例较多,正样例较少,难以提取类别特征的问题。针对这个问题,本文提出了基于预训练BERT的药物关系抽取模型,结合类别先验知识和注意力机制,提高模型提取类别特征的能力。本文方法的主要创新点:(1)针对负样例较多的问题,本文提出了基于规则和模板的负样例过滤方法,将正负样本比例从原来的1:5.92降低为1:2.68。(2)为了提高不同类别样例的区分度,本文基于卡方检验和文档频率获取每个类别的关键词作为模型的先验知识,并在模型中通过关键词与药物对的位置编码来增加样例的差异性。(3)本文模型还通过注意力机制学习关键词与句子中其他词的分布信息,通过关键词与其他词的共现信息来提高模型分类效果。在公开药物相互关系DDI数据集上的实验结果表明,本文方法能够有效提高关系抽取效果,并取得了在该数据集上的SOTA结果。
基于生物医学文献数据的分布式爬虫项目设计与实现
这是一篇关于生物医学,PubMeb,Scrapy-Redis,爬虫,分布式的论文, 主要内容为随着互联网的快速发展,人们对于海量数据的发掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计,2011年全球产生的数据量高达1.82ZB。与此同时,由于蛋白质测序技术、基因测序技术的突破更一步促进了生命科学领域数据的飞速增长。生命科学领域的数据已经达到了惊人的地步,相关医学文献的数据资源也随之暴涨。但是,医学研究者和医疗工作者对于医疗文献的利用有缺陷,无法发挥文献最大价值,因此,对于医疗文献数据的爬虫和分析具有非常重要的价值。本文先研究了网络爬虫的基本原理,网络爬虫的分类和网页分析算法。对于反爬虫,分布式爬虫框架Scrapy和动态网页抓取技术进行了介绍,由此提出了 Scrapy-Redis-Selenium+PhantomJS的分布式爬虫框架来实现对于PubMeb网站的爬虫系统。系统主要实现相关主题文献的标题和摘要的数据提取。最后为了方便于用户使用,提出用Qt开发框架来实现爬虫系统的UI界面,使得用户能够更加方便的操作使用爬虫。最后,对本文进行了总结,提出了进一步优化的方向。总之,本文的主要在于设计实现基于生物医学数据的分布式爬虫,该系统开发过程容易,扩展方便。系统设计和实现解决了以往爬虫对动态网页支持的问题,同时信息采集速度得到了提高。为PubMeb网页的分布式爬虫提供了技术手段,能够更好的获取相关医学文献数据。
结合先验知识及注意力机制的生物医学实体识别和关系抽取
这是一篇关于生物医学,命名实体识别,关系抽取,先验知识,注意力机制的论文, 主要内容为生物医学的实体识别和关系抽取是从文本数据中识别特定的实体,并对实体间的关系进行判断。电子病历记录了病人详细的诊疗经过,对其进行命名实体识别,可以从中提取患病部位,发病症状,治疗药物等重要信息;再通过关系抽取判断实体之间的关系,可以用于更多医学应用,例如通过药物关系抽取可以预防多种药物同时使产生的不良药物反应等。因此研究生物医学命名实体识别和关系抽取对构建生物医学领域知识图谱,帮助医生进行病例研究分析,促进智慧医疗建设等有重要意义。命名实体识别可以分为实体类别识别和边界识别。相比英文电子病历的命名实体识别,中文电子病历的实体识别更加困难。由于中文词语之间没有间隔,在实体的边界识别上极易产生错误。针对这个问题,本文提出了结合实体先验知识和自注意力机制的实体识别方法,以Bi LSTM-CRF作为基础模型,将区分实体和非实体的词性标签作为模型的先验知识,对实体边界进行初步区分;再通过自注意力机制提高同个实体内的字符关联权重,进一步提升模型对实体边界的识别能力。本文在中文电子病历命名实体识别任务上进行实验,相比基准模型,F1值提高了12.75%,并且在实体边界识别问题上有明显的改进。药物关系提取是对药物之间的关系进行判断,药物关系抽取存在负样例较多,正样例较少,难以提取类别特征的问题。针对这个问题,本文提出了基于预训练BERT的药物关系抽取模型,结合类别先验知识和注意力机制,提高模型提取类别特征的能力。本文方法的主要创新点:(1)针对负样例较多的问题,本文提出了基于规则和模板的负样例过滤方法,将正负样本比例从原来的1:5.92降低为1:2.68。(2)为了提高不同类别样例的区分度,本文基于卡方检验和文档频率获取每个类别的关键词作为模型的先验知识,并在模型中通过关键词与药物对的位置编码来增加样例的差异性。(3)本文模型还通过注意力机制学习关键词与句子中其他词的分布信息,通过关键词与其他词的共现信息来提高模型分类效果。在公开药物相互关系DDI数据集上的实验结果表明,本文方法能够有效提高关系抽取效果,并取得了在该数据集上的SOTA结果。
结合先验知识及注意力机制的生物医学实体识别和关系抽取
这是一篇关于生物医学,命名实体识别,关系抽取,先验知识,注意力机制的论文, 主要内容为生物医学的实体识别和关系抽取是从文本数据中识别特定的实体,并对实体间的关系进行判断。电子病历记录了病人详细的诊疗经过,对其进行命名实体识别,可以从中提取患病部位,发病症状,治疗药物等重要信息;再通过关系抽取判断实体之间的关系,可以用于更多医学应用,例如通过药物关系抽取可以预防多种药物同时使产生的不良药物反应等。因此研究生物医学命名实体识别和关系抽取对构建生物医学领域知识图谱,帮助医生进行病例研究分析,促进智慧医疗建设等有重要意义。命名实体识别可以分为实体类别识别和边界识别。相比英文电子病历的命名实体识别,中文电子病历的实体识别更加困难。由于中文词语之间没有间隔,在实体的边界识别上极易产生错误。针对这个问题,本文提出了结合实体先验知识和自注意力机制的实体识别方法,以Bi LSTM-CRF作为基础模型,将区分实体和非实体的词性标签作为模型的先验知识,对实体边界进行初步区分;再通过自注意力机制提高同个实体内的字符关联权重,进一步提升模型对实体边界的识别能力。本文在中文电子病历命名实体识别任务上进行实验,相比基准模型,F1值提高了12.75%,并且在实体边界识别问题上有明显的改进。药物关系提取是对药物之间的关系进行判断,药物关系抽取存在负样例较多,正样例较少,难以提取类别特征的问题。针对这个问题,本文提出了基于预训练BERT的药物关系抽取模型,结合类别先验知识和注意力机制,提高模型提取类别特征的能力。本文方法的主要创新点:(1)针对负样例较多的问题,本文提出了基于规则和模板的负样例过滤方法,将正负样本比例从原来的1:5.92降低为1:2.68。(2)为了提高不同类别样例的区分度,本文基于卡方检验和文档频率获取每个类别的关键词作为模型的先验知识,并在模型中通过关键词与药物对的位置编码来增加样例的差异性。(3)本文模型还通过注意力机制学习关键词与句子中其他词的分布信息,通过关键词与其他词的共现信息来提高模型分类效果。在公开药物相互关系DDI数据集上的实验结果表明,本文方法能够有效提高关系抽取效果,并取得了在该数据集上的SOTA结果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工厂 ,原文地址:https://m.bishedaima.com/lunwen/56151.html