中文电子病历的新词发现及实体识别研究
这是一篇关于中文电子病历,自然语言处理,新词发现,命名实体识别的论文, 主要内容为新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识别技术可以准确地识别出各类命名实体,是构建知识图谱最重要的技术之一。中文电子病历是医务人员对患者整个就诊过程的专业化记录,由于文本中包含着大量真实的临床医学知识而受到了科研工作者的关注,使用自然语言处理的技术充分挖掘出这些知识,将极大地推动医疗信息化的建设。本文的研究工作如下:(1)提出了一种改进的新词发现方法。该方法首先基于N-gram进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现。在得到候选词组后,结合网格搜索获取最优的特征阈值组合。在四个不同领域的语料上,将改进的新词发现方法与使用通用工具进行预分词的方法作对比,实验结果验证了本文的方法具备良好的领域适应性。尤其是电子病历语料,前10%的新词准确率达到了85.9%,其效果大幅超过所对比的方法。(2)针对中文电子病历的命名实体识别问题,提出了一种改进的方法。该方法首先使用无监督的新词发现方法构建领域词典,改善领域内中文分词的精度,然后采用BI-LSTM-CRF框架进行命名实体识别。在电子病历语料上进行实验,添加医学领域词典后,F1值提升了1.46%。(3)针对电子病历的高质量标注文本缺失的问题,提出了一种结合BERT模型进行命名实体识别的方法。该方法使用BERT模型对文本进行向量化,使用BI-LSTMCRF框架作为微调的方式进行实体识别。同时在实验部分,分别对比了不同训练方式的语言模型、不同的微调方式以及是否进一步预训练对实体识别效果的影响。实验结果显示,在实验语料上使用BERT作为语言模型,并使用BI-LSTM-CRF的微调方式,得到的效果最好,其F1值达到了83.39%,而进一步预训练使得实体识别的F1值提升约0.54%。
中文电子病历的新词发现及实体识别研究
这是一篇关于中文电子病历,自然语言处理,新词发现,命名实体识别的论文, 主要内容为新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识别技术可以准确地识别出各类命名实体,是构建知识图谱最重要的技术之一。中文电子病历是医务人员对患者整个就诊过程的专业化记录,由于文本中包含着大量真实的临床医学知识而受到了科研工作者的关注,使用自然语言处理的技术充分挖掘出这些知识,将极大地推动医疗信息化的建设。本文的研究工作如下:(1)提出了一种改进的新词发现方法。该方法首先基于N-gram进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现。在得到候选词组后,结合网格搜索获取最优的特征阈值组合。在四个不同领域的语料上,将改进的新词发现方法与使用通用工具进行预分词的方法作对比,实验结果验证了本文的方法具备良好的领域适应性。尤其是电子病历语料,前10%的新词准确率达到了85.9%,其效果大幅超过所对比的方法。(2)针对中文电子病历的命名实体识别问题,提出了一种改进的方法。该方法首先使用无监督的新词发现方法构建领域词典,改善领域内中文分词的精度,然后采用BI-LSTM-CRF框架进行命名实体识别。在电子病历语料上进行实验,添加医学领域词典后,F1值提升了1.46%。(3)针对电子病历的高质量标注文本缺失的问题,提出了一种结合BERT模型进行命名实体识别的方法。该方法使用BERT模型对文本进行向量化,使用BI-LSTMCRF框架作为微调的方式进行实体识别。同时在实验部分,分别对比了不同训练方式的语言模型、不同的微调方式以及是否进一步预训练对实体识别效果的影响。实验结果显示,在实验语料上使用BERT作为语言模型,并使用BI-LSTM-CRF的微调方式,得到的效果最好,其F1值达到了83.39%,而进一步预训练使得实体识别的F1值提升约0.54%。
中文新词发现算法改进及其在微博舆情分析中的应用
这是一篇关于新词发现,微博舆情,TopWORDS,机器学习,Logistic回归,特征提取的论文, 主要内容为随着互联网和移动通信设备的普及,越来越多的公民在微博平台上发表自己对公共事件、社会问题等的态度、看法、情绪,形成大量微博舆情文本。微博舆情内容往往涉及多领域,各个领域的专业词汇层出不穷,产生大量新词,另外随着时间推移,公民的用语习惯的变化也会产生各种网络流行新词。除了上述两种新词外还有其他类型的新词,在文本挖掘中这些词都是没有在词典中收录的未登录词,统称为新词。利用计算机技术自动正确识别新词是微博舆情分析工作的重要一环,其直接决定了中文分词的好坏,间接影响了文本挖掘模型的分析结果。因此,本文主要针对微博舆情语料提出新词识别算法,具体研究内容如下:本文首先提出了基于Top WORDS的新词特征提取及识别算法。现有新词发现研究中基于规则的新词发现方法可移植性较差,多领域适应性弱,常见的N-gram算法遍历时间长,产生垃圾字串较多,因此本文采用Top WORDS算法提取候选词来解决上述这些问题。相应地,为识别Top WORDS算法获取的候选词中的新词,本文提出标准化多字点互信息(NMPMI)衡量词内部凝结度,以及加权左右邻接熵(WBE)衡量词语边界自由度,与其他传统特征统计一起形成候选特征集,综合衡量候选词的成词度。最后通过设定特征阈值筛选新词。实例证明改进后的特征统计量能够更准确地衡量候选词成词度,故该算法较传统算法整体性能有较大提升,且有较好的领域适应性。在有标准分词对照的情况下,可以合理确定阈值参数,使算法达到较高的新词识别精确率。本文进一步提出了基于机器学习的新词发现对中文分词的改进算法。该算法基于上述算法获取候选特征集,然后结合Jieba分词工具和Logistic回归方法迭代地筛选新词,最终得到新词词集,进而改进中文分词。综合来看,提出的新词发现算法对新词识别的覆盖率较好,能够在精确率相对高的条件下尽可能多地提取新词,且算法能够真正做到无监督学习,更加适合于大规模微博新词发现的研究。本文最后利用上述提出的方法对微博舆情进行实例分析,对改进分词的微博语料做词云图可视化分析,建立LDA主题模型讨论研究时间段内的舆情主题。得出结论:2021年春节虽然受到新冠肺炎疫情的一定影响,但在国家严格把控防疫环节、公民自觉主动抗疫的条件下,春节依然年味十足,舆情导向良好。
面向科技咨询的产业链智能构建及迭代平台的研究与实现
这是一篇关于科技咨询,产业链智能构建,新词发现,层次关系抽取,产业链存储和更新的论文, 主要内容为在科技咨询应用场景下,产业链依据产业整体发展情况,构建产业知识图谱,洞察重点产业运行态势,厘清产业链上下游企业动向,为政府和企业等各阶层客户的产业决策提供科学依据。而面向科技咨询的产业链智能构建及迭代平台则是科技咨询决策服务中所需要借助的产业链构建辅助工具。虽然国内外研究人员在产业链构建方面都进行了大量研究并取得了一定成效,但面对产业链智能构建与迭代更新的需求,目前大多数据产业分析平台仍然存在着以下问题与挑战:1)科技咨询资源中蕴含的产业链标签数据量庞大且更新迭代快,现有的开源产业分析工具难以支持产业词库智能更新的能力,无法满足科技咨询场景中产业动态变化、演进过程等需求;2)科技咨询场景下产业关系错综复杂,人工分析产业层次关系费时费力、精准度低,缺乏专门针对产业链的层次关系智能抽取服务;3)目前在产业链构建方面的数据组织管理方式各不相同,难以组织管理,缺乏通用的开发方法,不利于提高工程化开发效率,给科技咨询场景产业链构建工作带来巨大挑战。针对以上问题与挑战,本论文重点围绕面向科技咨询的产业链新词挖掘、产业链层次关系抽取、产业链数据资源管理进行研究与分析,完成了面向科技咨询的产业链智能构建和迭代平台的设计与实现,主要研究内容有以下四项:1)设计并实现一种面向科技咨询的产业新词挖掘方法,基于统计和无监督的设计思想,输出高质量的产业新词词库,及时捕捉产业的动态发展情况,确认产业链更新任务的产业实体。2)设计并实现一种面向科技咨询的产业链层次关系抽取方法,针对科技咨询场景下产业关系错综复杂的问题,提出一套产业链层次关系自动化抽取方法,进一步确定产业实体在产业链上下游的层级位置。3)设计并实现一种面向科技咨询的产业链数据资源管理方案,针对产业链构建过程中面临多源、异构、主观性较强、数据表示不规范统一、跨域融合困难等问题,设计一种统一的产业链数据资源存储组织模式。同时,针对产业数据随时间维度的频繁变化导致的渲染时间过长、计算资源占用率高等问题,提出了一种数据处理与产业链更新优化策略。4)设计并实现一种面向科技咨询的产业链智能构建和迭代平台,提供具备产业链新词智能挖掘、产业关系智能抽取、图谱编辑、可视化分析等能力的产业链平台。同时,将产业链构建能力与科技咨询场景相结合,构建面向科技咨询大数据的产业大脑应用示范平台。最后,本平台应用于国家重点研发计划课题“科技咨询数据资源体系研究与资源建设”中,为课题中产业数据应用与服务部分提供技术支撑,验证了本文提出方法的有效性与平台的实际应用价值。
中文新词发现算法改进及其在微博舆情分析中的应用
这是一篇关于新词发现,微博舆情,TopWORDS,机器学习,Logistic回归,特征提取的论文, 主要内容为随着互联网和移动通信设备的普及,越来越多的公民在微博平台上发表自己对公共事件、社会问题等的态度、看法、情绪,形成大量微博舆情文本。微博舆情内容往往涉及多领域,各个领域的专业词汇层出不穷,产生大量新词,另外随着时间推移,公民的用语习惯的变化也会产生各种网络流行新词。除了上述两种新词外还有其他类型的新词,在文本挖掘中这些词都是没有在词典中收录的未登录词,统称为新词。利用计算机技术自动正确识别新词是微博舆情分析工作的重要一环,其直接决定了中文分词的好坏,间接影响了文本挖掘模型的分析结果。因此,本文主要针对微博舆情语料提出新词识别算法,具体研究内容如下:本文首先提出了基于Top WORDS的新词特征提取及识别算法。现有新词发现研究中基于规则的新词发现方法可移植性较差,多领域适应性弱,常见的N-gram算法遍历时间长,产生垃圾字串较多,因此本文采用Top WORDS算法提取候选词来解决上述这些问题。相应地,为识别Top WORDS算法获取的候选词中的新词,本文提出标准化多字点互信息(NMPMI)衡量词内部凝结度,以及加权左右邻接熵(WBE)衡量词语边界自由度,与其他传统特征统计一起形成候选特征集,综合衡量候选词的成词度。最后通过设定特征阈值筛选新词。实例证明改进后的特征统计量能够更准确地衡量候选词成词度,故该算法较传统算法整体性能有较大提升,且有较好的领域适应性。在有标准分词对照的情况下,可以合理确定阈值参数,使算法达到较高的新词识别精确率。本文进一步提出了基于机器学习的新词发现对中文分词的改进算法。该算法基于上述算法获取候选特征集,然后结合Jieba分词工具和Logistic回归方法迭代地筛选新词,最终得到新词词集,进而改进中文分词。综合来看,提出的新词发现算法对新词识别的覆盖率较好,能够在精确率相对高的条件下尽可能多地提取新词,且算法能够真正做到无监督学习,更加适合于大规模微博新词发现的研究。本文最后利用上述提出的方法对微博舆情进行实例分析,对改进分词的微博语料做词云图可视化分析,建立LDA主题模型讨论研究时间段内的舆情主题。得出结论:2021年春节虽然受到新冠肺炎疫情的一定影响,但在国家严格把控防疫环节、公民自觉主动抗疫的条件下,春节依然年味十足,舆情导向良好。
面向科技咨询的产业链智能构建及迭代平台的研究与实现
这是一篇关于科技咨询,产业链智能构建,新词发现,层次关系抽取,产业链存储和更新的论文, 主要内容为在科技咨询应用场景下,产业链依据产业整体发展情况,构建产业知识图谱,洞察重点产业运行态势,厘清产业链上下游企业动向,为政府和企业等各阶层客户的产业决策提供科学依据。而面向科技咨询的产业链智能构建及迭代平台则是科技咨询决策服务中所需要借助的产业链构建辅助工具。虽然国内外研究人员在产业链构建方面都进行了大量研究并取得了一定成效,但面对产业链智能构建与迭代更新的需求,目前大多数据产业分析平台仍然存在着以下问题与挑战:1)科技咨询资源中蕴含的产业链标签数据量庞大且更新迭代快,现有的开源产业分析工具难以支持产业词库智能更新的能力,无法满足科技咨询场景中产业动态变化、演进过程等需求;2)科技咨询场景下产业关系错综复杂,人工分析产业层次关系费时费力、精准度低,缺乏专门针对产业链的层次关系智能抽取服务;3)目前在产业链构建方面的数据组织管理方式各不相同,难以组织管理,缺乏通用的开发方法,不利于提高工程化开发效率,给科技咨询场景产业链构建工作带来巨大挑战。针对以上问题与挑战,本论文重点围绕面向科技咨询的产业链新词挖掘、产业链层次关系抽取、产业链数据资源管理进行研究与分析,完成了面向科技咨询的产业链智能构建和迭代平台的设计与实现,主要研究内容有以下四项:1)设计并实现一种面向科技咨询的产业新词挖掘方法,基于统计和无监督的设计思想,输出高质量的产业新词词库,及时捕捉产业的动态发展情况,确认产业链更新任务的产业实体。2)设计并实现一种面向科技咨询的产业链层次关系抽取方法,针对科技咨询场景下产业关系错综复杂的问题,提出一套产业链层次关系自动化抽取方法,进一步确定产业实体在产业链上下游的层级位置。3)设计并实现一种面向科技咨询的产业链数据资源管理方案,针对产业链构建过程中面临多源、异构、主观性较强、数据表示不规范统一、跨域融合困难等问题,设计一种统一的产业链数据资源存储组织模式。同时,针对产业数据随时间维度的频繁变化导致的渲染时间过长、计算资源占用率高等问题,提出了一种数据处理与产业链更新优化策略。4)设计并实现一种面向科技咨询的产业链智能构建和迭代平台,提供具备产业链新词智能挖掘、产业关系智能抽取、图谱编辑、可视化分析等能力的产业链平台。同时,将产业链构建能力与科技咨询场景相结合,构建面向科技咨询大数据的产业大脑应用示范平台。最后,本平台应用于国家重点研发计划课题“科技咨询数据资源体系研究与资源建设”中,为课题中产业数据应用与服务部分提供技术支撑,验证了本文提出方法的有效性与平台的实际应用价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://m.bishedaima.com/lunwen/55536.html