面向城市综合管廊的知识图谱构建与灾害信息传播研究
这是一篇关于城市综合管廊,联合抽取,关系注意力网络,社会传感器,信息传播的论文, 主要内容为城市地下综合管廊是一种公共市政基础设施,它能够解决城市精细化建设管理中的难题,例如“马路拉链”和“空中蛛网”。不过在维护运营阶段,综合管廊存在许多安全风险且来源诸多,城市地下综合管廊发生应急事件时基于知识图谱的危险故障源的可视化分析可以极大提高应急管理人员的决策能力。与此同时,城市地下综合管廊突发灾害事件通常难以预测并且破坏力极强,基于综合管廊灾害隐蔽性、复杂性、连锁性的特点,如何实现高效准确的灾害信息传播是社会安全的重要课题。合理的信息传播模型可以提高事件传输效率和传输准确率,能够有效地帮助人们躲避灾害,帮助决策者快速做出应对措施。针对综合管廊领域知识图谱的构建和灾害信息传播,本文的研究工作主要有:(1)面向现有的语义信息不足和实体关系重叠问题,提出了一种端到端的关系特定的注意网络模型RAJE(Joint extraction model based on relational attention mechanism)进行综合管廊领域知识图谱的知识抽取。RAJE集成了主动学习、数据增强、BERT(Bidirectional Encoder Representations from Transformers)、基于特定关系的注意力网络和序列标注方案,可同时提取所有的实体和关系。通过实验验证了该模型对于解决嵌套实体和嵌套关系问题的有效性。首先基于主动学习的待采样标注方法筛选出更具价值的训练数据,对于已标注的数据集进行数据增强,接着使用端到端的联合抽取方法进行实体关系联合抽取任务。联合抽取方法包含了BERT模型获取句子表示,并利用特定于关系注意力网络来捕获基于关系的句子,然后对句子表示进行序列标注以获得实体对。最后使用收集的综合管廊危险故障工程数据集和公共数据集对所提出的模型进行评估。(2)实现基于Neo4j的知识存储和可视化。利用Neo4j图数据库的知识存储和可视化功能,将从知识抽取中得到的三元组信息存储在数据库中,依据综合管廊领域实体节点与关系类型边的设定构建出完整的危险故障源知识图谱,通过查询可以快速、准确定位到危险故障源及相关节点信息。并通过案例验证了知识图谱在综合管廊领域应用的有效性。(3)提出基于社会传感器灾害事件的信息传播模型。当综合管廊灾害事件发生时需要快速将灾害信息传播出去。本文基于人类个体固有的自治属性,提出了一种社会传感器(Social sensor networks SSNs)信息传播模型,主要研究了个体特征、社会特征和群体信息传播模式对社会传感器网络的影响。具体而言,首先基于人类自主性的固有社会和心理属性来构建人类传感器模型。然后,通过考虑不同的传输媒介和人类交互偏好,提出了一对一、一对多、点对点等多种信息传播模型。基于Net Logo平台模拟了灾害事件中的信息传播环境。应用评价矩阵验证了社会传感器信息传播模型的性能。
面向医学大数据的实体关系联合抽取方法研究
这是一篇关于深度学习,电子病历,知识图谱,联合抽取,数据增强的论文, 主要内容为命名实体识别和关系提取是自然语言处理领域的重要任务,旨在从文本数据中提取由实体及实体之间的语义关系组成的关系三元组,这些三元组可以用来构建知识图谱、智能问答系统等信息化智能应用。在医学领域中,电子病历作为患者信息的载体,记载了入院记录、出院记录等大量半结构化和非结构化的文本信息,传统的技术难以从电子病历中提取有效的关系三元组。现有的传统抽取模型方法是采用流水线的方式进行,首先通过实体识别模型,得到文本数据中的实体内容,接着将其作为输入进行关系抽取。传统抽取模型采用两个模型进行训练,在操作流程上更灵活,更便捷,但是,其存在着错误累积、割裂关系、冗余信息等缺点。因此,为克服传统方法的弊端,实体关系联合抽取模型被提出,不仅充分的考虑了实体与关系之间的联系性,还提升了对重叠三元组提取的性能。本文的主要工作和成果如下:(1)针对中文医学数据集中存在的长文本和重叠三元组的问题,本文提出了基于交谈注意力机制和条件层归一化的联合抽取模型。该模型使用了Ro BERTa预训练模型提取中文句子的语义信息。之后,利用条件层归一化方法来学习实体与关系之间的相关性。随后,使用交谈注意力机制加强了句子中注意力之间的交互。基于交谈注意力机制和条件层归一化的联合抽取模型在解决重叠三元组提取上性能良好。(2)针对真实的电子病历中存在的标注数据缺乏和语义复杂的问题,本文提出一种新颖的基于医学知识库的数据增强方法(MEDA)。该方法使用开源的知识搭建了脑血管病的医学知识库,并通过处理了脑血管病患者的电子病历和现有的医学数据集来构建Bit Emr数据集。随后,采用联合抽取模型,并设计了自训练方法将Bit Emr数据集用MEDA方法扩增后进行学习,实验证明了联合抽取模型使用该方法后有较好的普适性,能够直接应用在电子病历的信息抽取场景中。(3)本文设计了面向脑血管病的智能医学系统,该系统基于Vue和Flask框架,包含了电子病历展示、知识图谱检索、联合抽取系统、人工标注工具等多个功能,将理论研究真实的落地到医学领域场景之中。
格萨尔事件抽取方法研究
这是一篇关于格萨尔,事件抽取,触发词抽取,联合抽取,事件图谱的论文, 主要内容为《格萨尔王传》是世界历史上一部规模最为宏大的英雄史诗,其描述了格萨尔王征战八方、降妖伏魔的传说故事,同时也是世界非物质文化遗产之一,它所承载的藏族文化是中华文明的重要组成部分。格萨尔文化资源的数字化保护需要领域知识的支撑,构建格萨尔事件知识图谱不仅有利于格萨尔文化资源的长久存储,也有利于格萨尔中华民族优良传统文化在信息时代的传承和发扬,而构建事件知识图谱最核心的任务就是事件抽取。本文以格萨尔史诗事件抽取方法为研究主题,在构建格萨尔语料集的基础上,利用深度学习技术,研究并提出了针对不同抽取方式的格萨尔事件抽取方法,并通过实验验证了所提方法的有效性,同时构建了格萨尔事件图谱。本文的主要工作包括以下几个方面:第一,研究了事件触发词的抽取。针对传统模型卷积神经网络CNN(Convolution Neural Network)和长短期记忆网络LSTM(Long Short-term Memory)在格萨尔事件文本上泛化能力弱且语义特征提取能力不足的问题,提出了Albert-ARNN事件检测模型。该模型在基于预训练语言模型的基础上,引入了带有注意力机制的Bi LSTM网络模型来实现格萨尔事件检测任务,提升了事件检测效率。第二,研究了事件触发词对于事件检测任务效率的影响。针对格萨尔语料中存在的不同事件句具有相同触发词,但由于论元角色的不同而导致的事件类型不同这一问题,提出了融入实体类别特征的基于双重注意力机制的超图事件检测模型Hyper GAT。该模型引入超图结构对文本进行建模,同时提出在原始文本特征的基础上,融入实体类别特征,辅助事件检测,减少了仅仅依靠触发词信息对事件进行分类的歧义性,提升了触发词抽取的效果。第三,研究了事件触发词与论元的联合抽取方法。针对流水线式抽取方法中存在的误差传播和任务割裂问题,本文采用联合学习的事件抽取方法,实现触发词和论元之间的信息共享。在基于预训练语言模型BERT的基础上,采用特征融合策略,将文本的全局特征和局部特征进行结合,构建了联合抽取模型BTCNN,提高了事件触发词与论元抽取的效果。第四,构建了格萨尔事件图谱。针对自动化抽取的事件触发词、论元、论元类型、事件类型等要素,结合人工自定义的事件关系,将这些数据存储到Neo4j图形数据库,实现了格萨尔事件图谱的构建。在图谱的基础上,使用D3.js库设计了知识图谱的可视化,主要提供了实体查询、关系查询以及实体-关系混合查询功能。
基于知识图谱的医疗领域问答系统的研究与实现
这是一篇关于知识图谱,实体识别,联合抽取,意图分类,问答系统的论文, 主要内容为互联网已成为人们获取信息的首选,但传统的检索方式通常返回一些杂乱无章的网页链接,需要人为去筛选,同时随着大量专业领域信息的涌入,用户辨别有效信息的挑战性也逐步增加。交互问答通过问句解析来分析用户问题,返回准确直观的答案,这种更为高效和智能的查询方法,满足现代社会人们对信息精确高效的获取需求。本文以医疗领域为应用场景,提出了识别医疗嵌套实体的RBLGP模型和识别问句意图的RBLSA模型,并在此基础上完成医疗知识图谱的构建和问答系统的搭建。本文的主要工作有:(1)医疗领域知识图谱的构建。针对医疗领域实体抽取任务中存在的嵌套实体问题,提出了基于Ro BERTa-wwm+Bi LSTM+Global Pointer的实体识别模型RBLGP。模型引入Ro BERTa-wwm预训练模型和Bi LSTM网络来提取文本特征,采用全局指针Global Pointer完成标记任务来提高对实体的识别准确性,同时识别的效率也明显提升。在此基础上设计了针对非结构化数据的实体关系联合抽取的模型RBLGPL,模型基于GPLinker来解决联合抽取的实体关系嵌套问题。最后,通过知识融合多源数据在Neo4j图数据库进行存储来完成医疗知识图谱的构建。(2)问答系统算法研究。针对传统的问句意图分类法不够准确的问题提出了基于Ro BERTa-wwm+Bi LSTM+Self-Attention的模型RBLSA,模型用Ro BERTa-wwm做词向量嵌入,Bi LSTM网络学习问句之间的语义信息,通过Self-Attention权重计算实现句子间的融合,增强了模型的学习能力,获得更好的分类结果。基于问句解析的结果设计了答案查询方法,返回符合用户意图的内容。(3)基于医疗领域知识图谱问答系统的实现。通过对医疗问答系统的需求分析,基于本文改进的识别算法和问句解析算法,以医疗知识图谱作为问答系统的知识库,设计并实现了医疗知识问答系统。系统包括医疗问答、查询可视化和识别等功能,并对系统的性能等做了相关测试。最后实现的问答系统与用户交互良好,满足多方需求,实用性高。
基于深度学习的实体关系联合抽取方法研究与系统实现
这是一篇关于联合抽取,注意力机制,依存句法分析,数字图书馆的论文, 主要内容为实体关系联合抽取旨在从非结构化的文本中自动抽取结构化的三元组,对实现知识图谱构建、语义问答具有重要意义。然而,现有的联合抽取模型主要解决实体重叠和关系重叠问题,忽略了实体识别带来的误差传播,导致对错误的实体对进行关系抽取,降低实体关系抽取的精度。此外,现有的模型忽视了文本中词的词性特征和依存关系特征的重要性。针对上述问题,本文提出了词性注意力机制和融合先验知识的实体关系分类器,提高了实体关系抽取的精度。本文的主要研究工作如下:(1)为解决实体识别引起的误差传播,基于句子中词的词性和依存关系特征,提出词性注意力机制。首先,在词表征中融入词性信息,对预训练语言模型得到的词表征进行优化。然后,在实体分类器和关系分类器中增加词性、依存关系和实体长度等先验知识。在公开数据集上的实验结果表明,融合词性等先验知识的实体关系分类器能显著提高分类精度,与词性注意力机制模块协同合作可以提高模型的实体关系抽取精度。(2)为解决联合抽取模型中存在的实体重叠和关系重叠问题,本文采用片段标注策略,基于预训练模型得到的词表征,设计实体和关系分类器。在实体分类器中,通过枚举所有的候选实体片段解决实体嵌套问题。在关系分类器中,通过枚举所有的候选实体对,预测实体对之间的关系,解决实体重叠和关系重叠的问题。(3)设计并实现了大学数字图书馆系统。将文本三元组抽取方法应用于大学课本的实体关系抽取,实现自动化抽取三元组。基于得到的三元组实现知识图谱构建、知识检索、关系检索和语义问答等功能,解决了实际教育场景下课程内容多、知识点关系复杂的问题,提高学习者的学习效率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码驿站 ,原文地址:https://m.bishedaima.com/lunwen/47894.html