基于预训练模型的新冠领域知识图谱构建
这是一篇关于领域知识图谱,预训练模型,实体抽取,关系抽取的论文, 主要内容为自Google公司2012年第一次提出知识图谱概念以来,知识图谱已经成为自然语言处理领域火热研究方向之一,其应用也是层出不穷。如今的时代是大数据时代,各个行业中的数据处理、数据应用也一定离不开知识图谱。但是,在不同领域就会存在不同知识图谱,如金融知识图谱、医疗知识图谱等,所以构建知识图谱的方法也是各种各样,目前在常用自然语言的知识图谱构建技术多种多样,然而对于领域知识图谱的构建却正处于起步阶段,因为在领域知识图谱构建时往往会伴随这个行业的领域数据缺乏、需要专家进行标注等困难。因此,在缺少领域数据的情况下,如何构建领域知识图谱是亟待解决的问题。本文围绕领域知识图谱构建关键技术展开工作,如数据处理、知识获取、知识消歧和知识储存等,重点放在知识获取上,如领域实体抽取、领域实体关系抽取。针对现有技术的缺点进行改进,提出新的方法。本文主要研究内容为以下三个方面。(1)针对领域知识缺乏的问题,本文提出一种基于自定义规则构建领域本体方法,然后利用这些本体对结构化、非结构化领域文本进行领域数据扩建,然后基于这些领域数据利用预训练模型进行领域实体及领域实体关系抽取,其中预训练模型使用的是领域BERT(Bio BERT),这样有利于领域知识抽取,经过设置实验,验证了该模型的可行性,最终本文提出的模型比通用领域模型在领域数据集上实体抽取和领域实体关系抽取的F1值分别提升5.94%、4.23%。(2)针对工作1中存在的误差传递和实体重叠等问题,本工作不使用传统的管道方法(Pipeline),而是用联合抽取方法(Joint),创新性地提出基于预训练模型和Tree LSTM的领域知识抽取方法,该方法将依存句法树揉进BERT嵌入层,并和嵌入层共享参数,这样做可以使实体识别和关系抽取同时进行,避免了由于实体抽取不准确而影响关系抽取任务,通过设置实验,验证了该模型的可行性,整体在常用通用数据集NYT和领域数据集NCBI-disease上F1值分别提升7.6%和4.1%。(3)针对工作1和工作2,本文构建出新冠领域知识图谱,本知识图谱提高了领域知识图谱的质量。并且本文利用构建出的新冠领域知识图谱和目前主流的前后端框架搭建了一个可视化系统进行测试,前端可以调用后端数据接口进行图谱的可视化,查询想要了解的知识节点,并可以进行简单问答。
双通道特征学习模型在数学实体抽取中的应用研究
这是一篇关于实体抽取,BiLSTM,IDCNN,BiGRU,双通道特征学习模型的论文, 主要内容为伴随着科学技术的进步与人们对社会教育的需求,人工智能与文化教育融合已经成为了当下发展的趋势。比如机器识别、知识图谱和智能问答系统已经成为现代化教育发展到一定阶段的产物,而实体抽取是构建上述系统的关键技术。本文以数学领域的实体抽取为研究对象,针对当前实体特征提取不完善的问题,利用各神经网络提取特征的优势,构建了双通道特征学习模型,采用多种神经网络同时提取数学实体特征,增强模型提取特征的能力。本文调研了国内外实体抽取任务的研究现状,分析各个模型的优缺点,确定从增强神经网络特征学习能力的角度出发,来提高模型在实体抽取任务中的精确率。首先,研究了膨胀卷积神经网络的堆叠方式,分析了不同的堆叠方法对实体抽取效果的影响。其次,建立了由迭代膨胀卷积神经网络(Iterative Dilation Convolutional Neural Network,IDCNN)、双向长短期记忆神经网络(Bidirectional Long Short Term Memory,BiLSTM)和条件随机场(Condition Random Fields,CRF)组成IDCNN+BiLSTM-CRF双通道特征学习模型,该模型采用双神经网络分别提取出文本的局部特征与全局特征。然后,考虑各神经网络的特征提取优势,提出权重分配策略,该方法通过给各特征向量匹配相应的权重,降低极端特征值对模型识别能力造成的影响。最后,为弥补IDCNN+BiLSTM-CRF模型的运算复杂度高的缺点,选择更为简单的门控循环单元(Gated Recurrent Unit,GRU)代替长短期记忆神经网络,组建IDCNN+BiGRU-CRF模型。为验证模型的性能,本文自建数学文本数据集,搭建实验环境,设计了四组对比实验。实验结果显示,IDCNN+BiLSTM-CRF模型和IDCNN+BiGRU-CRF模型的F1值分别达到了93.24%和93.04%,相比IDCNN-CRF高9.45%和9.25%,比BiLSTM-CRF高8.23%和8.03%。双通道特征学习模型的损失值下降速度比单神经网络快,模型收敛时的损失值最低,即验证了双通道特征学习模型提取特征的能力比其他模型更强,在数学实体抽取任务中的表现更优。
铝电解知识图谱构建中的知识获取技术研究
这是一篇关于铝电解,知识图谱,知识获取,实体抽取,关系抽取,智能问答的论文, 主要内容为智能制造核心以知识体系为基础,目前铝电解工业知识体系不够完备,没有基于人工智能构建,缺乏完善的知识体系,构建知识图谱对于推动智能制造具有重要意义。近年来,国家大力推动铝电解工业智能制造,对铝电解工业的生产智能优化需求日益增加。一方面,铝电解工业的产能优化、能源危机等各种问题亟需解决。另一方面,铝电解生产的管理和控制智能化水平不高,知识系统化水平不强,缺少智能化的技术管理手段。铝电解知识图谱的构建及实现为铝电解知识的存储和工业智能化管理提供了一种合适的解决方案。知识图谱能够明确各个实体之间的关系,发现隐藏在铝电解实体及实体间关系的联系,推动铝电解工业智能化,优化生产。本项目以铝电解工业为背景,构建铝电解知识图谱,主要开展以下工作:(1)分析了铝电解生产技术和知识图谱相关技术,研究了提取实体、实体间关系的方法。在铝电解工业实体识别的方法中,本论文使用Bi LSTM-CRF模型来提取铝电解工业知识实体,本文构造训练集和测试集来训练和测试实体识别模型,通过不断训练和测试来不断优化模型,最终得到高质量的铝电解知识实体。对于铝电解实体之间关系的抽取,本文设计了Bi LSTM-attention模型,将attention模型加在Bi LSTM层之后用于实体之间关系的分类,通过attention模型聚焦句子中的关键特征,得到句子的重要语义,完成铝电解实体间的关系分类任务。最后建立了铝电解实体、实体间关系的模型。(2)研究铝电解生产过程,用图数据库Neo4j存储抽取出的实体和实体之间的关系,构建初步的铝电解知识图谱,并对该图谱进行了可视化分析。(3)设计并实现了一个基于铝电解知识图谱的铝电解知识问答系统,并将深度学习算法应用其中。
基于细粒度知识图谱的学术定量评价研究
这是一篇关于知识图谱,实体抽取,文本相似度计算,图聚类,学术定量评价的论文, 主要内容为学术评价是科研活动中一项非常重要的价值评估工作,是衡量科研主体的学术质量和创新性的关键途径。对学术成果进行公平公正的客观评价,一方面可以保障每位科研学者的切身利益,给予有突出贡献的学者充分的影响力肯定,促进高端人才的不断发展。另一方面可以为科研人员提供学术指导,提高科研人员分析学术成果价值和把握最新研究趋势的效率。此外,学术评价在宏观层面也影响到国家科研战略的制定和科技创新能力的提升,在推动学术健康发展、保障学术诚信和合理分配学术资源等诸多方面,均发挥着十分关键的作用。学术文献作为科研成果最主要的展示方式之一,蕴含着大量对后续研究具有指导意义的知识。目前,针对学术文献的定性评价法和定量评价法都是基于文献外在层面的题录特征如被引量、影响因子等进行学术评价,而没有对文献内在文本层面的细粒度知识实体特征进行充分考虑,因此并不能在语义层面上完全反映出文献的创新性价值。此外,目前针对学术评价所应用的知识图谱都是基于题录特征,例如利用引文网络或者合著网络等来进行构建,没有充分考虑文献细粒度知识实体间的关联关系。因此,如何能从细粒度层面对文献内在知识实体特征进行分析和挖掘,并在此基础上结合学术知识图谱的网络关系对文献和学者进行学术定量评价,从而在细粒度层面反映出文献和学者的学术价值,是当前学术界一直在关注和探讨的难题。针对以上问题,本文以教育学领域英文文献为研究目标,利用机器学习、自然语言处理等技术从文献的细粒度知识实体层面对教育学领域学术知识图谱进行设计和构建,并基于构建出的学术知识图谱,结合文献的知识实体特征和知识图谱的学术网络关系,针对文献和学者进行学术定量评价算法的设计和应用,为学术定量评价领域提供新的研究视角。本文的主要研究工作如下:1.教育学领域细粒度学术知识图谱设计:提出一种教育学领域细粒度学术知识图谱的设计方案。该方案首先选定教育学领域为论文的主要研究对象,获取此领域的学术文献数据集,通过文本清洗、词频统计、权重计算、词向量生成、聚类等方法对初始数据集的文献进行词汇级别的特征分析,抽象出蕴含在文献中的六种显性知识实体类别,然后结合该领域专业学者的需求对三种隐形知识实体类别进行补充,得到教育学领域文献知识实体的类别体系树,最后通过对学者、文献和知识实体三大节点的数据类型和关系类型进行设计,完成教育学领域细粒度学术知识图谱的整体框架设计。2.教育学领域细粒度学术知识图谱构建:提出一种教育学领域细粒度学术知识图谱的构建方案。该方案首先基于抽象出的知识实体类别利用人工标注方法构建出一份高质量的知识实体抽取任务数据集。然后基于该数据集,结合教育学领域文献的知识实体特点,提出一种基于双任务融合策略的知识实体抽取模型。该模型可以分别通过序列标注任务和阅读理解任务对知识实体抽取任务进行联合建模,并基于两级融合策略对子模型的结果进行处理,从而在一定程度上解决了知识实体抽取过程中的长距离依赖和实体嵌套问题,提高了学术文献中细粒度知识实体的抽取精度。最后基于设计出的知识实体抽取模型对未标注文献进行批量的知识实体抽取,并将抽取出的知识实体以及学者、文献三类数据及其关系导入到图数据库中,完成教育学领域细粒度学术知识图谱的构建。3.基于细粒度知识图谱的学术定量评价算法:基于构建出的细粒度学术知识图谱,分别针对文献和学者进行学术定量评价算法的设计和应用。首先针对文献,提出一种基于细粒度文献相似度计算和隐马尔可夫模型的文献创新性评价算法,该算法可以在文献内容的细粒度层面上对文献进行创新性值的计算和评价。然后针对学者,提出一种基于GN图聚类的学者研究倾向聚类算法,该算法可以结合文献内在的知识实体特征关系和学术知识图谱的网络关系对学者的研究倾向进行聚类。最后通过实验分析对以上两种算法进行了有效性验证,实验证明本文提出的两种学术定量评价算法均具有一定效果。
泥石流灾害领域知识图谱的构建与应用
这是一篇关于泥石流灾害,知识图谱,中文分词,实体抽取,知识检索的论文, 主要内容为泥石流灾害几乎每年都会发生,给人们带来威胁以及财产上的损失,人们针对泥石流灾害做出了许多研究,如泥石流的形成、防治、预警、危险评价等方面。随着网络技术的发展,泥石流相关信息散落分布在网络的各个地方,这样将导致当人们想查询这些信息时,却不能得到精准、详细的答案,不利于人们对泥石流灾害的研究,也不方便泥石流领域相关信息的共享。本文针对这些问题构建了泥石流灾害领域的知识图谱,并在此基础上设计实现了泥石流灾害领域知识检索平台,促进泥石流灾害领域相关信息的共享,协助泥石流灾害防治工作。本文的主要工作如下:(1)提出了一种基于HMM+Bi-LSTM的中文分词模型。为了抽取到更精确、质量更好的泥石流灾害领域信息,需要对泥石流灾害领域信息进行分词,本文根据该领域信息词汇的特点,将隐马尔可夫模型(HMM)分词与双向长短期记忆神经网络(Bi-LSTM)模型分词组合起来提高分词效果,并采用泥石流灾害领域语料对该模型进行准确率上的验证,最终结果显示该模型的分词准确率相比HMM中文分词模型和Bi-LSTM中文分词模型分别提高了25.17%和0.12%。(2)提出了一种基于HMM+CRF词性标注的实体抽取模型。在泥石流灾害领域的知识抽取过程中,本文对泥石流灾害领域中的实体抽取方法进行改进,首先,在CRF词性标注模型上添加一层HMM模型,将待分词语句分为简单和复杂两部分,HMM层和CRF层分别对这两部分进行词性标注,然后,对词性标注结果进行正则表达式抽取得到实体,最后,使用泥石流灾害领域的语料进行准确率上的验证,验证结果显示该模型的实体抽取准确率相比单独的HMM实体抽取模型和CRF实体抽取模型分别提高了2.2%和0.3%。(3)构建了泥石流灾害领域知识图谱。首先从网络上、图书馆等渠道获取大量关于泥石流灾害领域的资料数据,将其整理成泥石流灾害领域语料库,然后采用提出的中文分词模型和实体抽取模型对泥石流灾害领域的信息进行中文分词和实体抽取,随后采用基于依存句法分析的方法进行关系抽取,最后定义泥石流灾害领域的实体及关系类型,将抽取得到的实体及关系根据定义的类型以三元组(实体-关系-实体)的形式存入Neo4j图数据库。(4)构建了一种基于泥石流灾害领域知识图谱的知识检索模型。该模型主要包括三个部分,第一部分是查询语句预处理,模型使用LTP组件对查询语句进行分词、语义分析、实体抽取和关系抽取;第二部分是查询扩展,模型采用基于Word Net的同义词查询和基于同义词词林的语义相似度计算的方法,对查询语句中的实体或者关系词语进行语义扩展;第三部分是在泥石流灾害领域知识图谱中进行查询,用户输入查询语句后,模型使用Cypher语言在知识图谱中查询语句中的实体或者关系。(5)设计并实现了基于泥石流灾害领域知识图谱的知识检索系统。在构建好的泥石流灾害领域知识图谱的基础上设计泥石流灾害领域的检知识索系统,将该系统设计为自然语言处理模块、实体名查询模块、自然语言检索模块,最后采用Django框架,用Python语言实现了该系统,用户可以通过Web浏览器在搜索框中体验系统的三个功能模块,检索泥石流灾害领域的知识。
面向营养学文本的知识挖掘及饮食推荐技术研究与实现
这是一篇关于知识图谱,实体抽取,LSTM,随机森林,饮食推荐的论文, 主要内容为随着生活水平的提高,人们不仅追求生活基础需要,也越来越关注健康问题。营养学饮食是治疗的辅助手段与预防疾病的重要途径,如果能够通过计算机方法自动进行营养学饮食推荐,不仅可以降低营养师的工作强度、提高工作效率,还能让普通居民更加方便地明确自己预防疾病的饮食习惯。本文制定了营养学知识图谱的构建模式,以期为严谨且丰富的饮食推荐系统提供良好的数据支持,并对实体及关系进行了定义,给出了标注规范及标注样例。结合目标文本实际情况,分析实体抽取任务适合的模型,使用LSTMCRF对营养学专业文本进行实体抽取,并通过对比试验证明LSTM-CRF适用于在营养学专业文本上的实体抽取任务。利用从哈医大附属第一医院获得的营养病志数据,使用随机森林算法训练初步的饮食推荐模型,并与其他分类模型进行对比试验,证明随机森林适用于基于营养病志数据的饮食推荐任务。结合实际情况,对营养师日常工作进行需求分析,设计营养病志及饮食推荐系统,将构造的饮食推荐模型使用到营养病志录入及饮食推荐系统中,使用Springboot+Django的跨语言调用服务结构解决良好的网站开发框架与科学计算类程序相结合的任务。
基于知识图谱的领域评审专家推荐
这是一篇关于专家推荐,知识图谱,实体抽取,相似度计算,知识推理的论文, 主要内容为习近平主席在全国网络和信息化工作会议上发表讲话,强调“没有网络安全就没有国家安全”。现如今,网络与信息安全已经上升为国家战略,网络与信息安全领域的发展离不开计算机技术。因此,为促进网络与信息安全领域的蓬勃发展,需要大力开展计算机科学领域相关科研项目的开发工作。其中,在科研项目立项、结项等阶段,存在一个关键步骤——领域评审专家推荐。领域评审专家推荐即根据科研项目文档,推荐相关领域的专家进行项目评审,以评估项目的实际意义、可行性及完成质量。本文面向计算机科学领域,对领域知识图谱的构建、科研项目文档的表征、领域专家的评价、领域评审专家的推荐等研究内容展开了研究。研究工作包括领域专业实体的识别、领域间关系的建立、项目文档分析、知识推理,形成了一整套领域评审专家推荐的自动化方法。主要研究工作和成果如下:(1)基础知识库构建方法的研究提出了一套面向计算机科学领域的基础知识库构建方法。构建了基于WebMagic爬虫框架的数据爬取算法,引入ip代理池等策略保证数据采集工作的顺利进行。主要包括专家信息库及论文信息库,从专家基础信息、社会特征信息、领域特征信息三个维度出发,构建了专家信息库,包含6242位专家,16种专家属性;基于专家信息及研究领域信息,构建了论文信息库,包含889583篇论文记录等,完成相关基础数据库的建设。(2)领域知识图谱构建方法的研究提出了一种基于规则及深度学习相结合的领域知识图谱构建方法。在实体抽取方面,利用《计算机科学技术百科全书》及国家自然科学基金标签体系名词作为实体标注集合,以论文数据作为训练语料,构建了一种基于BiLSTM-Attention-CRF的领域专业实体识别模型;在关系抽取方面,从字符、语义、领域结构等方面,对研究领域间的相似度进行计算,构建了一种基于相似度计算的关系抽取算法。实验表明,该实体识别模型网络结构设计合理,识别效果较好,关系抽取算法引入多维度特征,对研究领域间关系表征效果较好。(3)科研项目文档表征方法的研究提出了一种基于TextRank算法与实体识别模型相结合的科研项目文档表征模型。从文档自身具有的结构出发,划分模型分析的文本域,参考字符、语义及统计特征,在模型策略上引入投票机制及线性加权算法,构建了科研项目文档表征模型。实验表明,构建的科研项目文档表征模型具有高于人工标注准确率的效果,能够对实际的项目评审工作提供有效的帮助。(4)基于知识推理的专家推荐方法的研究提出了一种基于知识推理的专家推荐模型。利用构建的领域知识图谱,依据科研项目文档表征模型的表征词集合实现实体定位,基于TransE算法设计了知识推理模型,构建候选的研究领域集合;设计了(领域专家,领域吻合度,领域权威度)专家表征模型,构建专家领域评价模型。实验表明,构建的领域评审专家推荐模型能够实现与科研项目研究领域相匹配的最优专家推荐,对项目评审质量的提升具有一定的帮助效果。最后,基于SpringBoot框架、Layui框架以及ECharts组件实现了领域评审专家推荐系统。本系统包括基础数据管理、课题管理、科研项目文档表征、领域评审专家推荐四个主要功能模块。为基础知识库的数据管理提供良好的人机交互界面,实现了领域评审专家推荐及其过程中所涉及的中间数据或成果的展示。
电力设备知识图谱构建方法研究与实现
这是一篇关于知识图谱,电力设备,实体抽取,关系抽取,知识图谱可视化的论文, 主要内容为随着智能电网的发展,我国电力系统积累了大量有关电力设备检修和保养的文档,这些文档中蕴含着丰富的电力设备相关知识,但是目前这些知识并未得到充分利用。为了充分利用上述电力设备文档中的知识,可以使用知识抽取技术从文本中抽取结构化的知识,并构建电力设备领域知识图谱。知识抽取是知识图谱构建的关键步骤,为了提高知识抽取算法的准确率,本文研究了现有的知识抽取算法,并在现有研究的基础之上提出了命名实体识别和关系抽取算法,其主要研究内容如下。为了从电力设备文本中抽取命名实体,提出了一种基于字符对链接的实体识别算法TPNER,该方法基于字符对链接进行实体解码,并融入词汇信息以提高模型预测效果。通过MSRA、Weibo、CMeEE数据集的实验结果发现TPNER模型较现有模型分别提升0.1%、0.62%、8%左右,证明模型是有效的。为了抽取电力设备文本中的实体,通过电力设备相关文本和实际故障案例构建原始语料,并基于实体标注构建了电力设备实体识别数据集,最后使用上述实体识别算法在该数据集上进行实验。为了抽取电力设备文本中包含的实体关系三元组,对现有关系抽取算法CasRel进行优化,通过机器阅读理解优化向模型中输入更多先验知识,通过自注意力机制优化使模型从大量输入中提取关键信息。优化后的模型在百度信息抽取数据集上的实验结果较CasRel模型预测效果提升2.48%左右,充分证明了优化的有效性。为了抽取电力设备文本中的实体关系三元组,通过原始语料构建了电力设备关系抽取数据集,并使用上述优化后的关系抽取算法在该数据集上进行实验。设计并实现了电力设备知识图谱可视化系统,该系统主要包括知识图谱可视化、数据标注和知识图谱管理功能。通过知识图谱可视化功能,系统展示了本文构建的电力设备知识图谱;通过数据标注功能,系统可以对原始语料进行实体标注和关系标注,构建实体识别和关系抽取数据集;通过知识图谱管理功能,系统可以修改知识图谱中错误的实体关系三元组,并向知识图谱中添加新的实体关系三元组。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://m.bishedaima.com/lunwen/46383.html