面向知识图谱构建的知识融合问题研究
这是一篇关于知识图谱构建,知识融合,实体对齐,实体链接的论文, 主要内容为随着互联网的迅速普及,如何有效地组织、利用以及挖掘数据背后隐含的知识成为一种新的挑战。知识图谱描述了客观世界所存在的实体及语义关联等,并以图结构直观地呈现,为用户提供了结构化的知识,逐渐获得了学术界和工业界的普遍关注,因此如何构建一个知识图谱成为学者们研究的热点。同时多源异构的知识之间往往会存在重复、语义歧义多样、质量参差不齐等问题,要想构建一个高质量的知识图谱,知识融合是不可或缺的关键环节。实体对齐和实体链接作为知识融合任务的两个重要子任务,现有的方法仍存在明显不足,主要表现在现有的实体对齐方法无法完全利用属性三元组包含的信息,以及现有的实体链接方法忽视了知识图谱的结构信息导致链接准确度不高,因此值得进一步研究与改进。本文将知识图谱应用于影视领域,深入研究多层次影视知识图谱构建过程中所涉及的知识融合关键技术,重点研究了知识融合环节的两个重要子任务实体对齐和实体链接,本文主要研究内容如下:(1)针对现有实体对齐方法的不足,本文提出了一种实体对齐模型—Nov EA模型。首先本模型充分利用了知识图谱中的属性三元组和关系三元组,然后依据知识图谱的领域特征对属性进行优先级排序,最后从结构和属性两个角度,利用二元回归模型对实体之间的相似度进行度量,动态地调节关系和属性之间的权重,进一步提升了实体对齐的效果。实验证明,相较于其他同任务模型,本文提出的Nov EA模型的对齐准确度有显著的提升。(2)针对现有实体链接方法的不足,本文提出了一种基于多维粒度的知识图谱实体链接模型。该模型在传统实体链接方法的基础上,重点关注了知识图谱中候选实体的邻域信息。在本方法的排序模块中,从实体名称、实体描述和图谱实体节点邻域等多个维度将待链接实体与候选实体进行相似性计算,选出最匹配的候选实体。实验证明,本文提出的多维粒度实体链接模型准确度优于其他同任务模型。(3)将本文的知识融合方法应用于影视领域,构建了多层次影视知识图谱。首先基于影片实体、影人实体、机构实体三类不同层面的实体层次分别构建相应的单层次知识图谱。其次,由于不同实体层次之间存在关联性,本文将不同实体层次构建的单层次知识图谱进行了整合,构建了内容全面、结构立体的高质量多层次影视知识图谱。最后实现了碎片化影视知识的收集,同时构成了体系化的知识。
糖尿病知识图谱的构建及应用研究
这是一篇关于糖尿病,知识图谱,知识融合,命名实体识别,问答系统的论文, 主要内容为随着我国经济和居民消费水平的提高,民众的生活模式和饮食结构发生了转变,使得糖尿病人群数量增多,且患病人群年轻化倾向突出。因此,本文研究重点是探索如何通过互联网平台,利用数字化技术,帮助糖尿病用户更加轻松、高效地获取糖尿病防治知识,进一步推动“互联网+”医疗模式的发展,提高我国糖尿病管理水平,改善人民健康状况。由于传统搜索引擎常返回冗余信息,用户需要耗费大量时间和精力去筛选。而问答系统注重理解用户意图,能根据用户的问题直接反馈答案。知识图谱则通过整合多源数据,提供结构化知识库,帮助问答系统更好地理解用户查询并提供准确答案。因此,本文研究并实现了一种基于知识图谱的糖尿病问答系统。为了增强系统的问句解析能力,本文采用了基于深度学习的命名实体识别模型。经过测试,该系统验证了知识图谱在糖尿病问答系统中的应用。本文主要工作如下:(1)糖尿病领域知识图谱的构建。从医药网站爬取糖尿病相关数据,清洗后进行知识抽取,与瑞金医院糖尿病数据集进行多源数据知识融合,以提高知识图谱的完整性和准确性。再将知识融合后的数据存入Neo4j图数据库,完成糖尿病领域知识图谱的构建。(2)命名实体识别算法的研究。首先从各大医药网站爬取糖尿病问答数据作为模型训练的数据集,并对数据集进行分词和实体标注,然后研究并构建一种在BERT预训练模型基础上嵌入BiLSTM-CRF模型的深度学习方法,用于命名实体识别任务。再通过与其他两种模型的对比实验,验证该模型的效果。(3)基于知识图谱的糖尿病问答系统的搭建。在前两项研究工作的基础上,设计并实现了该问答系统有关糖尿病知识图谱展示、疾病关系检索、知识问答等功能。对自动问答系统的主要实现步骤逐一进行阐述,并展示其运行效果,最后对问答系统做整体的功能测试。本文实现的问答系统经过测试,回答糖尿病相关提问的准确率达到80%以上,可以帮助用户足不出户、轻松有效地获取糖尿病相关知识,简洁明了的系统界面设计、易于使用的输入方式给用户提供良好的体验。
档案知识图谱构建技术研究
这是一篇关于知识图谱,档案信息化,实体识别,关系提取,知识融合的论文, 主要内容为随着计算机信息技术的发展,档案数据的类型由单一的结构化数据变得多样化,档案数据规模也显著增长。本文针对档案知识图谱构建技术进行研究,旨在通过改变档案数据的存储方式和档案资源的使用方式,为档案数字信息化提供一种新的思路。论文依据档案概念模型理论标准,提出采用七步法构建档案本体,分析了档案知识图谱的专业领域范围,同时定义了档案实体类型和实体之间的层级关系。在完成档案本体构建分析之后,论文对档案实体识别模块进行了架构设计,并提出了两种档案实体识别算法来实现档案实体知识的抽取。然后通过实验对两种档案实体识别算法进行了质量评估,得出结论基于LSTM网络的实体识别算法相比基于规则匹配的实体识别算法具有更高的正确率。在完成实体识别工作之后,论文提出采用基于实体词性的关系抽取算法和基于依存句法分析的关系抽取算法对档案实体之间的关系进行抽取。最后通过实验对两种档案关系抽取算法进行了质量评估,得出结论基于依存句法分析的关系抽取算法的正确率要高于基于实体词性的关系抽取算法。为了解决档案知识图谱中知识重复的问题,论文对档案知识融合模块进行了架构设计,并提出通过建立分区索引,减小知识融合的工作量。在论证了属性权重向量的相似度与实体相似度具有相关性之后,作者在此基础上提出了两种成对实体对齐方法,之后进一步分析了集体知识融合技术。并通过实验对四种实体对齐算法进行了质量评估,得出结论成对的实体对齐算法效果优于集体实体对齐算法。本文从本体构建、知识抽取、知识融合三个方面对档案知识图谱构建技术进行了深入研究。后续将继续考虑如何进行档案知识推理,进一步丰富和扩充档案知识图谱。
基于关联关系发现的领域知识图谱构建与优化
这是一篇关于领域知识图谱,关系抽取,关联分析,知识融合,潜在关系扩展的论文, 主要内容为随着人工智能和大数据技术的发展,信息资源数量和种类的急剧增长,如何有序、准确地把握数据中的有效信息成为一个巨大挑战。由于知识图谱能够从零散数据中发现知识,将错综复杂的非结构化数据表示成结构化的信息,帮助组织机构实现业务智能化,因此知识图谱的构建与优化成为多个领域的研究热点。现有知识图谱构建方法多需要大量的人工标注和专家知识,主要集中于主谓宾关系的抽取,对复杂数据中的隐藏知识的挖掘往往束手无策,难以有效应用到领域知识图谱的构建中。针对此问题,本文提出一种基于关键词共现与模糊字符串匹配的领域知识图谱构建方法,通过对与实体相关的数据进行关键词抽取,得到与实体相关的关键信息,进而对关键信息进行挖掘得到实体间的关系;基于得到的关键信息,采用模糊字符串匹配算法进行实体歧义消解。实验表明,本文方法能够有效地挖掘复杂数据中实体间的关系,准确地实现领域实体的歧义消解。现有知识图谱构建方法未充分考虑隐含在大量数据中的实体之间的潜在关系,且推理得到的实体间关系存在可解释性差等问题。针对当前存在的问题,本文提出一种基于实体间关联分析与主题分析的方法即EA-LDA方法,挖掘实体之间潜在的关系。算法针对具体领域数据,采用关联规则算法挖掘实体之间的关联关系,在关联规则上应用LDA主题抽取方法分析实体相关数据中主题之间的关系,进而得到领域实体之间隐藏的关系,将新发现的关系通过实体链接融合进原有领域知识图谱,丰富领域知识图谱。实验结果表明本文方法能更有针对性、更有效地扩展领域实体之间的关系,从而优化和完善领域知识图谱。
基于概率图模型的领域知识库构建方法研究
这是一篇关于知识库,概率图,不孕症,辨证论治差异,概率软逻辑,知识融合的论文, 主要内容为中医领域知识库是中医知识存储与表达的重要方式,为现代医学临床研究和决策提供了技术支持,因此中医学知识库的构建成为现阶段的研究热点。辨证论治是医家认识疾病和治疗疾病的基本原则,医家诊疗过程中,虽然遵循的基础理论是相同或相似的,但是在具体的诊治上会存在一些差异。因此认识和把握名老中医辨证论治差异是中医个性化知识继承与发展的重要基础。目前构建的中医学知识库,大多只专注名老中医临床实践知识的整合,没有考虑辨证论治存在的差异性,缺少对医家个性诊疗经验和规律的发现。以辨证论治差异为出发点,基于概率图模型表示理论,通过在关系上添加“doctor”与“value”属性,构建一个能够体现辨证和用药差异的知识库。主要包含以下几方面内容:1)将“关系强度”定量表示,来体现辨证论治差异。首先,根据已有的不孕症数据,针对易于统计的实体间关系强度,通过Page Rank算法对关系强度进行计算;然后,对于难以通过统计方法计算的关系强度,利用概率软逻辑在Page Rank算法结果的基础上进行可解释性推理;最后,在不孕症数据集上进行对比实验,证明概率软逻辑推理关系强度的有效性。2)提出基于关系图注意力网络的知识融合模型将多位医家不孕症个性化知识库融合。首先,针对图注意力网络未考虑关系在邻域实体信息传播聚合时对实体信息影响这一弊端,设计关系图注意力网络,将实体节点邻域中表示关系的边的信息和表示实体的节点的信息进行加权聚合,得到实体节点的富语义表征,实现多个知识库的融合;然后,与其他知识融合模型进行对比实验,验证模型的有效性。3)为了直观体现辨证论治差异,通过Neo4j图数据库将不孕症知识存储,形成具有1131个实体节点,28903条关系的不孕症知识图谱,分别对辨证结果差异与用药差异进行可视化展示。图21幅;表26个;参64篇。
基于大数据的企业图谱的研究与应用
这是一篇关于企业知识图谱,图数据库,知识获取,知识融合的论文, 主要内容为随着云计算与大数据时代的到来,大量的数据唾手可得,但是人们依然难以全面地了解和掌握一个企业的全息画像,因为一个企业与周围的环境以及伙伴存在着大量的关系和属性,而且这些关系和属性处在不断变化之中,牵一发而动全身。如何更有效、快捷、及时地挖掘出这些关系,刻画出企业的真实画像,是商务行业亟待解决的问题。虽然目前国内也有一些服务提供商提供企业信息查询工具,但通常只是基本的信息查询功能,没有深入关联地挖掘企业之间潜在的关系。因此本文以构建一个企业知识图谱来研究和解决这些问题,本文主要贡献如下:(1)提出企业知识图谱的设计目标、设计思路、整体架构和技术框架。(2)详细说明了如何构建企业知识图谱的模式图,抽取国内商务行业通用的实体、关系和属性,包括企业、人物和关系的概念本体定义。(3)详细说明了如何构建企业知识图谱的数据图,包括知识获取、知识融合、数据存储、图谱构建以及图谱更新等模块。其中知识获取模块主要负责数据原材料的采集和初步清理、转换;知识融合模块主要是把来自不同数据源的数据经过Spark平台处理后形成“实体-属性-属性值”、“实体-关系-实体”、“关系-属性-属性值”三类知识表示三元组;数据存储模块主要说明如何分类存储系统中的各种数据,包括图数据库、No Sql数据库等;图谱构建模块主要说明如何把知识三元组构建成一个节点关系网络;图谱更新模块主要说明数据更新后如何对构建完成的图谱进行更新和维护。(4)简单的介绍了企业知识图谱在几个金融场景的应用。
网络环境下虚拟产品设计的知识融合技术研究
这是一篇关于知识融合,知识推理,知识重用,证据理论,虚拟产品,网络环境的论文, 主要内容为目前,产品设计从经验设计转变为基于网络的计算机分析、知识融合的优化设计,产品设计应用的知识已不再是单一的学科知识,而是交叉的多学科综合知识,知识融合的机理研究意义重大。可以说,知识融合成为网络环境下虚拟机械产品设计的重要手段,决定企业产品创新与生存。知识融合主要包括知识发现、知识获取、知识推理、知识重用以及知识的综合利用等。就目前以及未来来说,网络环境下的知识融合必将成为未来产品开发的不可或缺的部分。因而知识融合的研究工作对于机械产品的改进生产有重要的理论意义和实际价值。本文研究的主要内容包括: ●研究并揭示虚拟机械产品设计中的知识融合机理,研究如何从现实产品中提取和重用知识信息,对不确定知识的融合进行研究,并提出如何进行融合计算。 ●以包装机械中高速贴标机的主要部件设计为应用背景,研究知识重用,探讨产品的相似性,把相似理论用于重用设计,用程序实现了相似度的计算,由设计者确定进行绝对重用或者相对重用。 ●探讨如何在网络和虚拟环境下把获取和重用的知识嵌入到设计过程中去,以实现产品设计过程中的知识融合。把证据理论用于知识融合,提高设计的合理性、可靠性和准确性。 本文开发了一个以高速贴标机为实例的基于JSP和JAVA的Web系统的以实现知识融合的应用。
基于资源语义关联的企业知识库的设计与实现
这是一篇关于知识库,语义关联,知识融合,知识图谱的论文, 主要内容为在信息急速增长的时代,企业已经认识到知识作为无形的资产正发挥着极大的作用。知识作为一种宝贵的资源,不仅是对企业的某一部门或某个环节发挥作用,更是贯穿企业管理的全过程,包括新人入职培训、业务熟悉、课程学习、技术分享等。除了知识整合、共享流转,怎样高效快速地获取有价值的资源也愈发被关注,现有企业知识库虽然能将资源集中管理、提供检索功能,但是缺乏资源的语义抽取和语义关联。如果员工想学习当前知识点的相关资源,必须重新检索知识,就不能满足日常学习的个性化需求。本文设计并实现了以内部资源为主体,以知识图为引导的企业知识库系统。该系统增加了资源与关键词的语义关联,为员工提供了一个更好的资源整合、共享以及在线学习的平台。系统后端采用Spring Boot搭建,结合My Batis框架、Redis缓存、Elasticsearch搜索引擎、Neo4j图数据库等技术实现具体功能;前端使用VUE+Element-UI组件化开发,易于后期维护。文中首先介绍了项目的研究背景和意义,分析了国内知识库的发展现状;其次学习了系统中使用的相关技术,对项目进行可行性分析和需求分析,明确系统开发目标。之后在需求分析的基础上,为系统设计整体架构和功能模块,划分为六个模块,分别是基本信息管理、关键词管理、知识图管理、资源管理、知识图谱以及题库与在线考试,并详细阐述了每个模块的设计细节。在知识图谱模块中,对非结构化数据采用关键词提取的方式进行知识抽取,再结合My Sql中已有的结构化数据,通过合并规则连接实体进行知识融合,再将搭建的关键词与资源的关系模型存储到图数据库中。最后对系统设计测试用例,执行功能测试和非功能测试,结果均符合预期目标。本文实现了一个资源间有关联性的企业知识库,通过检索图数据库为用户提供根据关键词生成资源推荐列表的服务,从成千上万的资源中筛选出少量精确内容。在一定程度上不仅可以提高知识库内部的关联程度,而且还有效地提高了企业员工的学习效率,充分发挥平台的构建价值。
面向舰船知识领域的知识图谱构建关键技术研究
这是一篇关于知识图谱,关系抽取,命名实体识别,知识融合,知识存储的论文, 主要内容为与传统的信息管理手段相比,知识图谱以其强大的语义处理与开放互联能力,可帮助人们迅速梳理目标知识之间的逻辑关系,对基于知识的智能推理实现有良好效果。与通用知识图谱相比,特定领域知识图谱以其知识的深度与完备性、数据模式的丰富和严格性以及描述的高准确性等优点,通常用于各种复杂的辅助分析或决策支持。本文在调研和分析了已有知识图谱构建关键技术的基础上,以构造舰船知识领域知识图谱为依托,对特定领域的知识图谱构建中命名实体识别、关系抽取以及知识融合等关键技术展开深入研究,本文的主要内容包括:(1)针对舰船知识领域命名实体存在嵌套以及长度过长等问题,提出基于字向量层叠模型的命名实体识别算法,首先通过高低层网络结构完成序列标注以及序列更正工作,最后利用条件随机场对上层输出序列标签进行校准并输出命名实体识别结果。实验表明本文所提出的基于字向量的层叠模型复杂命名实体识别取得了较好的效果,其F1值(F1值为加权调和平均值)达到了 87.93%。(2)针对舰船知识领域关系抽取中语料过少、深度神经网络无法学习高位数据特征等问题,根据该领域文本数据特点,本文提出了基于规则和触发词的混合关系抽取方法,对于半结构化文本数据采取基于规则的方式,利用正则模块与依存句法技术完成数据关系抽取工作。对于非结构化文本,采取基于触发词的抽取算法,将文本词汇与触发词词典中的词语进行匹配得到相对应的关系类型,最终实现五种以上实体关系的抽取,其抽取效果良好。(3)针对舰船知识领域中关系抽取的误差累计问题,本文将实体识别以及关系抽取模型进行融合,通过该实体-关系联合方法,实现原始语料到结果抽取的端到端学习,能够有效的减少误差累计的问题,为用户提供了很好的使用体验。(4)针对已抽取的知识存在严重冗余以及异构等问题,本文采用表示学习知识图谱的实体对齐算法来进行知识融合,即利用向量的相似度计算完成知识的融合,并采用Neo4j图数据库来完成存储。本论文通过对舰船知识领域知识图谱构建关键技术进行深入研究与改进,提高了命名实体识别和关系抽取的精准率以及F1值,并对图谱冗余知识进行实体对齐等知识融合工作,为构建高质量的领域知识图谱奠定了基础。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计客栈 ,原文地址:https://m.bishedaima.com/lunwen/47829.html