微博话题人物关系知识图谱构建研究
这是一篇关于微博话题,知识图谱,人物关系抽取,频繁项集,KNN的论文, 主要内容为微博数据中含有大量的人物关系(例如,朋友关系,夫妻关系),然而微博数据量大、冗余数据多的特点使得人们难以了解这些复杂的人物关系。为了解决这个问题,本文提出了一种微博话题人物关系知识图谱的构建方法,帮助人们了解微博环境下的人物关系。首先从微博话题提取相关的人名,然后利用微博平台中关于这些人名的冗余信息,抽取人物关系三元组,最后构建该微博话题下的人物关系知识图谱。本文的主要研究内容如以下几个方面:(1)关系特征词的提取。为了尽可能全面的提取关系特征词,本文从三个方面对关系特征词进行提取:基于依存句法的关系特征词提取,基于相对位置信息的关系特征词提取,以及基于主题的关系特征词提取,最后对这些关系特征词整合去重,构建关系特征词组。(2)关系特征词组的优化和知识图谱的构建。为了提高人物关系抽取的效果,本文对关系特征词组进行了优化,首先建立滑动窗口,通过频繁项集挖掘算法对关系特征词组进行扩展,然后不断移动滑动窗口,比较前后两个滑动窗口下关系特征词组的总特征权重,完成关系特征词组的优化。本文研究了微博话题人物关系知识图谱的构建方法,先从微博话题中获取待抽取人物关系的人名对,再通过微博平台获取该人名对的相关信息,利用改进KNN方法提取人物关系三元组,最后用Neo4j图数据库构建人物关系知识图谱。实验结果表明,本文提出的微博话题人物关系知识图谱构建方法能够有效的表示微博话题中的人物关系。本文创新地采用滑动窗口的方法对关系特征词组进行扩展和优化,提高了人物关系抽取的效果。通过获取微博话题中的人名,利用这些人名在微博平台中的冗余信息,构建该话题的人物关系知识图谱。本文的研究不仅能帮助用户快速地了解微博话题中的人物关系,同时,本文提出的方法也可以给微博平台下的商业营销和大规模知识库的构建提供一定的理论基础。图[16]表[8]参[59]。
基于远程监督的维吾尔文人物关系抽取研究与实现
这是一篇关于人物关系抽取,远程监督,深度学习,注意力机制的论文, 主要内容为在互联网飞速发展的时代背景下,从海量数据中检索到有价值的信息绝非易事。信息抽取技术在如今得到了快速地发展,关系抽取是信息抽取的一个重要子任务,具有非常重要的研究意义与广阔的应用前景,是近些年来自然语言处理领域的研究热点。目前,面向中英文的人物关系抽取研究已有一定的发展并取得较好的成果,而维吾尔文的人物关系抽取因为起步较晚,且资源匮乏,还需进一步研究。本文使用远程监督方法构建维吾尔文数据集,为降低噪声对人物关系抽取的影响,采用双层自注意力机制的模型,以提升人物关系抽取效果,最后构建了人物关系搜索系统。本文的主要工作和创新点如下:(1)针对维吾尔文人物关系抽取标注数据集匮乏的问题,本文采取远程监督的方法,将自由文本与知识库匹配对齐来生成标注数据集。首先收集天山网、人民网等网站的维文自由文本;其次爬取大量维基百科的词条数据,整理并生成关系三元组作为知识库,以此作为监督来源;最后将自由文本与知识库进行匹配对齐来获得相应的关系标签,自动生成丰富的维吾尔文标注数据集,用于进行接下来的人物关系抽取实验。(2)针对远程监督方法会带来大量噪声以及特征选择不全面的问题,提出基于双层自注意力机制的DTSSA模型来进行维吾尔文人物关系抽取。该模型采用多实例学习方法,通过双向递归神经网络Bi LSTM结合双层自注意力机制进行关系抽取,将单词级和句子级的注意力机制由传统一维向量表示改进为二维结构化矩阵表示。一方面,使用Bi LSTM可以更好地学习双向的上下文语义特征;另一方面,改进的二维单词级自注意力机制可以关注一个句子实例更多方面的特征,二维句子级自注意力机制可以更好的选择有效实例,降低了噪声实例影响。在维吾尔文人物关系抽取标注数据集上进行实验,结果表明基于双层自注意力机制的DTSSA模型在P@N准确率和F1度量方面均有提升,证明模型的有效性。(3)根据以上理论研究,设计实现了一个基于B/S架构的维吾尔文人物关系搜索系统,将人物关系以图谱的形式进行可视化的直观展示,并依靠系统开放给用户的增改功能,可以进一步丰富现有知识库,从而提高数据集质量。
多源人物属性融合方法研究
这是一篇关于知识图谱,人物关系抽取,实体对齐,属性对齐,注意力机制的论文, 主要内容为近年来,人物知识图谱在智能问答、人物关系分析、搜索引擎等场景得到了极大的应用,覆盖了金融、互联网、医疗、政务等领域。结构化数据诸如维基百科、百度百科及其他行业数据库是构建人物知识图谱的优选数据源。然而与结构化数据相比,互联网还存储了更多的非结构数据源,同样包含丰富的人物属性信息。如何从非结构化数据源中准确提取人物信息用于构建人物知识图谱是当前人物知识图谱构建领域的热点研究问题。为此本文在对现有的相关研究进行深入分析的基础上,提出了基于依存树剪枝的图卷积网络人物属性抽取模型、基于嵌入表达的知识图谱实体对齐模型以及基于属性类型的属性对齐模型,实现了从非结构化数据源中准确提取用户属性并构建知识图谱的过程。具体的研究如下:1)针对现有基于依存树的关系抽取模型存在依存树修剪过度导致关键信息被裁减的问题,本文提出了基于依存树剪枝的图卷积网络关系抽取模型。该模型先以实体和最短依存路径为中心对依存树剪枝后得到剪枝依存树的邻接矩阵,随后将句子的词向量和邻接矩阵作为图卷积网络的输入得到每个词汇的隐式表达,然后采用基于实体类型嵌入和位置的注意力机制得到句子的表达,最后进行关系分类。实验表明了该模型在Sem Eval数据集和人物属性数据集上能够取得良好的效果。本文从剪枝子树延伸和否定词两个角度说明依存树剪枝方法能有效提升关系抽取效果,同时从实体类型统计结果解释了基于实体类型嵌入的注意力机制能有效区分实体类型并替代命名实体识别。2)属性三元组是知识图谱的重要组成,但现在实体对齐方法大多未利用该信息。针对该问题,本文提出了基于嵌入表达的知识图谱实体对齐模型。该模型使用字符嵌入与属性类型嵌入拼接的属性值嵌入引入属性值信息,同时在结构嵌入中使用图注意力网络引入知识图谱的结构信息从而得到增强的实体嵌入。实验表明了该模型在跨语言实体对齐数据集和同语言实体对齐数据集上都有良好的效果。3)针对属性对齐问题,本文提出了基于属性类型的属性对齐方法。该方法从属性名和属性值两个方面计算属性相似度,属性名相似度计算通过增加计算词向量相似度来引入语义信息,属性值相似度根据三种不同的属性类别采用对应的方法计算属性值相似度。实验表明模型在属性对齐方面取得了良好的成绩,精确度达到了98%。通过对比实验发现语义和属性值信息能减少错误的对齐属性对的数量,提升属性对齐的精确度。
基于BiGRU的中文人物关系抽取研究
这是一篇关于命名实体识别,人物关系抽取,深度学习,神经网络的论文, 主要内容为信息抽取技术能够从无结构的文本数据中抽取出有价值的信息,其结果能够用于知识问答、知识图谱构建等诸多领域。命名实体识别和人物关系抽取作为信息抽取技术的重要组成部分,具有非常重要的研究意义和应用前景。本文改进了一种基于Bi GRU的命名实体识别模型,将其用于关系抽取的数据集构建中,然后在Bi GRU-ATT模型的基础上增加关系词注意力层进行人物关系抽取工作。具体的研究内容如下:(1)改进了基于Bi GRU的命名实体识别模型。针对传统的循环神经网络无法解决文本的长距离上下文信息问题,本文使用ALBert-Bi GRU-CRF模型进行中文命名实体识别,既解决了RNN模型的长距离依赖问题,又可以获取文本的上下文信息。经过实验对比,验证了本文模型识别命名实体的准确率和召回率与目前流行的模型效果相当,但是训练速度在不同的epoch和Batch_size下有较大提升。(2)对人物关系数据集进行抽取和预处理。针对中文人物关系语料库匮乏的问题,本文首先抽取了近20万条百度百科中的人物关系信息,然后总结人物关系的类别并对数据集进行分类整合,最后通过本文改进的命名实体识别算法对人物关系数据集进行多人物实体的数据剔除,最终获得质量较高的人物关系抽取数据集。(3)改进了基于Bi GRU-ATT的人物关系抽取模型。首先根据文本中存在的关系词能够代表人物对之间关系的特点,构建关系词典并计算关系词的权重,使得模型对含有关系词的文本赋较高权重,对不含关系词的文本赋较小权重,着重学习权重较高文本的语义。然后通过Bi GRU层对文本的上下文信息进行特征提取,最后使用注意力机制对文本的特征进行加权增强。本文所用模型在F1值上相较于Bi GRU-ATT模型提升了9%。
基于远程监督的维吾尔文人物关系抽取研究与实现
这是一篇关于人物关系抽取,远程监督,深度学习,注意力机制的论文, 主要内容为在互联网飞速发展的时代背景下,从海量数据中检索到有价值的信息绝非易事。信息抽取技术在如今得到了快速地发展,关系抽取是信息抽取的一个重要子任务,具有非常重要的研究意义与广阔的应用前景,是近些年来自然语言处理领域的研究热点。目前,面向中英文的人物关系抽取研究已有一定的发展并取得较好的成果,而维吾尔文的人物关系抽取因为起步较晚,且资源匮乏,还需进一步研究。本文使用远程监督方法构建维吾尔文数据集,为降低噪声对人物关系抽取的影响,采用双层自注意力机制的模型,以提升人物关系抽取效果,最后构建了人物关系搜索系统。本文的主要工作和创新点如下:(1)针对维吾尔文人物关系抽取标注数据集匮乏的问题,本文采取远程监督的方法,将自由文本与知识库匹配对齐来生成标注数据集。首先收集天山网、人民网等网站的维文自由文本;其次爬取大量维基百科的词条数据,整理并生成关系三元组作为知识库,以此作为监督来源;最后将自由文本与知识库进行匹配对齐来获得相应的关系标签,自动生成丰富的维吾尔文标注数据集,用于进行接下来的人物关系抽取实验。(2)针对远程监督方法会带来大量噪声以及特征选择不全面的问题,提出基于双层自注意力机制的DTSSA模型来进行维吾尔文人物关系抽取。该模型采用多实例学习方法,通过双向递归神经网络Bi LSTM结合双层自注意力机制进行关系抽取,将单词级和句子级的注意力机制由传统一维向量表示改进为二维结构化矩阵表示。一方面,使用Bi LSTM可以更好地学习双向的上下文语义特征;另一方面,改进的二维单词级自注意力机制可以关注一个句子实例更多方面的特征,二维句子级自注意力机制可以更好的选择有效实例,降低了噪声实例影响。在维吾尔文人物关系抽取标注数据集上进行实验,结果表明基于双层自注意力机制的DTSSA模型在P@N准确率和F1度量方面均有提升,证明模型的有效性。(3)根据以上理论研究,设计实现了一个基于B/S架构的维吾尔文人物关系搜索系统,将人物关系以图谱的形式进行可视化的直观展示,并依靠系统开放给用户的增改功能,可以进一步丰富现有知识库,从而提高数据集质量。
面向中文文学作品的人物关系抽取与分类
这是一篇关于中文文学作品,人物关系抽取,人名特征,关系指示特征,BERT的论文, 主要内容为飞速发展的互联网中潜藏着隐秘的网络攻击,为用户、企业、政府的数据和隐私安全带来不容忽视的威胁,如何从海量的安全情报数据中挖掘出实体之间的关系对于构建网络安全知识图谱具有重要作用,该问题目前已成为网络安全领域的研究热点。实体关系抽取属于信息抽取领域的研究课题之一,其任务是把自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。其中,人物关系抽取属于实体关系抽取的细粒度任务,对于构建人物关系知识图谱、辅助人物关系推理问答等下游任务十分重要。人物关系抽取的文本可以是句子、段落或是一个完整的故事,以往的研究多针对来自新闻或百科的英文短句语料,缺少篇幅庞大、人物关系复杂的中文文学作品场景。长篇小说是文学作品的主要代表文体之一,其人物关系复杂、跌宕起伏的剧情演变与罪犯陈述内容相似,因此,我们可以将针对长篇小说的人物关系提取技术应用于刑警执法领域,通过构建案件人物关系网辅助案件调查,实现执法智能化。基于以上内容,本研究将针对中文文学作品进行人物关系抽取,主要工作如下:(1)针对缺乏中文文学作品人物关系分类数据集的问题,本研究采集中文长篇小说《平凡的世界》作为文本数据,通过分句分词、人名识别、语句选择、匹配标签等步骤构建中文文学作品人物关系分类数据集。(2)由于文学作品文本中存在不能体现人物关系的噪声句,因此,受生成对抗网络的启发,本研究引入对抗性学习框架来训练句子级的噪声分类器,从而去除数据集中的噪声。(3)设计融合多特征的人物关系分类模型MF-CRC:将BERT预训练语言模型编码后的向量送入Bi LSTM模型以深度获取样本句的语义特征表示;通过贝叶斯分类算法识别样本句中的人物性别,并结合两个目标人物是否同姓得到样本句的人名特征;引入关系指示词表,通过语义相似度匹配得到样本句的关系指示特征。最后,拼接三种特征进行人物关系分类模型的训练。(4)基于本研究构建的数据集和提出的模型,本文设计了多种对比实验和消融实验。实验结果显示本文所提模型的性能表现最好,多角度地体现出了模型设计的有效性。此外,将上述人物关系抽取的结果通过本研究设计的RSP算法进行关系适用性处理,最后实现面向中文文学作品的人物关系抽取系统,输出人物关系可视化图谱。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/lunwen/56169.html