基于知识图谱与子图匹配的学术大数据查询系统
这是一篇关于知识图谱,自然语言处理,学术大数据,SPARQL,问答系统的论文, 主要内容为随着人工智能和深度学习的兴起,推动统计学习发展的同时,知识图谱也受到了国内外广大学者的关注和研究。目前,知识图谱主要有着智能问答,推理推荐,图嵌入等方向的研究,而这些研究主要被应用在医疗、金融、企业管理以及一些大型的搜索引擎,例如谷歌Google、百度和微软Bing。同时,随着时代的进步,世界各国对科学与技术的投入与日俱增,每年有大量的年轻学者加入到科研的行列,世界范围内被发表的论文也呈指数增长。学者的科研与成长离不开参阅同领域其他学者发表的优秀论文,但是在如此繁多的论文中找到自己最需要的论文无疑是一个难点,也是众多学者的需求点。由作者,论文标题,论文领域,作者所处机构,论文发表会议以及时间等实体所构成的学术领域大数据正日益变得庞大,其信息的高效承载和有效检索也显得日益重要。本文致力于在学术领域构建知识图谱,用于承载其巨大的数据量和复杂的异构关系,然后基于此构建一个应用于学术领域的智能问答系统。首先,在Acemap的1.5亿学者信息数据库之上,构建以作者,论文标题,论文领域,作者所处机构,论文发表会议以及时间为实体名称的内容全面的巨大知识图谱。对于智能问答系统,其通常可以分为两个阶段,即问题语言理解和查询-答案评估。问题理解是将自然语言转换为可以在知识图谱搜索过程中使用的形式,而查询-答案评估旨在结果导向的评估系统的形式和答案。其中,问题语言理解阶段为整个问答系统的关键,它将决定问答系统的整个性能。而现阶段,问题理解的解决方案可以分为三类:语义分析,信息提取和矢量建模。这三种解决方案在一定程度上都有着难以弥补的缺陷,而本文在这一阶段要做的便是集成这三种方案各自的优点,摒弃其缺点,以达到对于给定的自然语言问句,将其转换为可以直接在知识图谱数据库上查询的SPARQL查询语言,利用子图匹配的到查询结果。最后,本文还设计给出了基于知识图谱的智能问答系统实用且用户友好的前端。
基于知识图谱与子图匹配的学术大数据查询系统
这是一篇关于知识图谱,自然语言处理,学术大数据,SPARQL,问答系统的论文, 主要内容为随着人工智能和深度学习的兴起,推动统计学习发展的同时,知识图谱也受到了国内外广大学者的关注和研究。目前,知识图谱主要有着智能问答,推理推荐,图嵌入等方向的研究,而这些研究主要被应用在医疗、金融、企业管理以及一些大型的搜索引擎,例如谷歌Google、百度和微软Bing。同时,随着时代的进步,世界各国对科学与技术的投入与日俱增,每年有大量的年轻学者加入到科研的行列,世界范围内被发表的论文也呈指数增长。学者的科研与成长离不开参阅同领域其他学者发表的优秀论文,但是在如此繁多的论文中找到自己最需要的论文无疑是一个难点,也是众多学者的需求点。由作者,论文标题,论文领域,作者所处机构,论文发表会议以及时间等实体所构成的学术领域大数据正日益变得庞大,其信息的高效承载和有效检索也显得日益重要。本文致力于在学术领域构建知识图谱,用于承载其巨大的数据量和复杂的异构关系,然后基于此构建一个应用于学术领域的智能问答系统。首先,在Acemap的1.5亿学者信息数据库之上,构建以作者,论文标题,论文领域,作者所处机构,论文发表会议以及时间为实体名称的内容全面的巨大知识图谱。对于智能问答系统,其通常可以分为两个阶段,即问题语言理解和查询-答案评估。问题理解是将自然语言转换为可以在知识图谱搜索过程中使用的形式,而查询-答案评估旨在结果导向的评估系统的形式和答案。其中,问题语言理解阶段为整个问答系统的关键,它将决定问答系统的整个性能。而现阶段,问题理解的解决方案可以分为三类:语义分析,信息提取和矢量建模。这三种解决方案在一定程度上都有着难以弥补的缺陷,而本文在这一阶段要做的便是集成这三种方案各自的优点,摒弃其缺点,以达到对于给定的自然语言问句,将其转换为可以直接在知识图谱数据库上查询的SPARQL查询语言,利用子图匹配的到查询结果。最后,本文还设计给出了基于知识图谱的智能问答系统实用且用户友好的前端。
基于知识图谱与子图匹配的学术大数据查询系统
这是一篇关于知识图谱,自然语言处理,学术大数据,SPARQL,问答系统的论文, 主要内容为随着人工智能和深度学习的兴起,推动统计学习发展的同时,知识图谱也受到了国内外广大学者的关注和研究。目前,知识图谱主要有着智能问答,推理推荐,图嵌入等方向的研究,而这些研究主要被应用在医疗、金融、企业管理以及一些大型的搜索引擎,例如谷歌Google、百度和微软Bing。同时,随着时代的进步,世界各国对科学与技术的投入与日俱增,每年有大量的年轻学者加入到科研的行列,世界范围内被发表的论文也呈指数增长。学者的科研与成长离不开参阅同领域其他学者发表的优秀论文,但是在如此繁多的论文中找到自己最需要的论文无疑是一个难点,也是众多学者的需求点。由作者,论文标题,论文领域,作者所处机构,论文发表会议以及时间等实体所构成的学术领域大数据正日益变得庞大,其信息的高效承载和有效检索也显得日益重要。本文致力于在学术领域构建知识图谱,用于承载其巨大的数据量和复杂的异构关系,然后基于此构建一个应用于学术领域的智能问答系统。首先,在Acemap的1.5亿学者信息数据库之上,构建以作者,论文标题,论文领域,作者所处机构,论文发表会议以及时间为实体名称的内容全面的巨大知识图谱。对于智能问答系统,其通常可以分为两个阶段,即问题语言理解和查询-答案评估。问题理解是将自然语言转换为可以在知识图谱搜索过程中使用的形式,而查询-答案评估旨在结果导向的评估系统的形式和答案。其中,问题语言理解阶段为整个问答系统的关键,它将决定问答系统的整个性能。而现阶段,问题理解的解决方案可以分为三类:语义分析,信息提取和矢量建模。这三种解决方案在一定程度上都有着难以弥补的缺陷,而本文在这一阶段要做的便是集成这三种方案各自的优点,摒弃其缺点,以达到对于给定的自然语言问句,将其转换为可以直接在知识图谱数据库上查询的SPARQL查询语言,利用子图匹配的到查询结果。最后,本文还设计给出了基于知识图谱的智能问答系统实用且用户友好的前端。
基于学术知识图谱的科研合作者推荐
这是一篇关于合作推荐,知识图谱,知识推理,学术大数据,图表示学习的论文, 主要内容为科研合作能够促进学术领域的发展,随着数据科学领域的发展,许多高质量、大体积、高信息量的学术数据也变得容易获得,如何有效利用这些信息从海量数据中挖掘发现有价值的合作者是一个值得研究的重要问题。现有的合作者推荐工作,大都是通过构建同构或者异构的网络,通过使用网络表示学习的方法对节点的向量表示进行提取,然后对某个目标节点进行Top N推荐,或者是对于目标节点集进行匹配,以达到某个特定的最大收益目标。这些方法的效果都依赖于网络构建的好坏,对于现在数据的实体类型多、关系种类多的情况并不能充分有效的加以利用,而且对于数据的更新,往往需要进行网络的重建和模型的重新训练,对不同合作关系也不加区分,视为同一类别。本文提出的方法是将合作关系的发现视为知识图谱的关系补全问题,通过利用知识图谱中的知识推理技术来进行学者间合作关系的推理预测进而实现科研合作者推荐的目标。(1)首先以现有学术知识图谱MAKG为数据底板构建本文研究所用学术合作知识图谱ACKG,并对合作关系进行划分。(2)然后提出基于知识推理的合作关系推理模型,对推理关系进行选取以及分析,并从不同推理关系组合、不同细分类别合作关系两个角度进行推理分析。(3)之后将同构异构表示方法应用于ACKG数据集,对在不同类别的合作关系推荐效果进行探究。(4)最后将本文所提的基于知识推理的合作推荐和同构表示合作推荐、异构表示合作推荐还有基于RWR模型在同构异构网络上进行推荐的这几类方法进行比较。发现本文研究所提出的基于知识推理的合作推荐方法在整体上获得了更好的效果,在Precision、Recall和F1这几个指标上明显取得了更好的效果,在Hits和MRR指标上也和其它类别的推荐方法中的最好效果十分接近。
学术知识图谱的搭建与应用
这是一篇关于知识图谱,数据可视化,学术知识,学术大数据,知识图谱嵌入算法的论文, 主要内容为21世纪是互联网飞速发展的时代,互联网内部的数据规模呈现爆发式增长,“云计算”、“大数据”等技术概念应运而生。然而以往的数据处理手段只提供搜索结果或是一些统计信息,缺乏对于数据的可视化展示。尤其是对于学术领域,在诸如“百度学术”、“微软学术”之类的学术数据搜索网站中仅能查询单个教师的合作教师列表,若想了解某个学术范围内的教师合作关系,则需对该范围内所有教师依次搜索,不仅操作十分繁琐且无法为用户清晰、完整地展示该类学术数据。针对上述问题,本文设计与实现了一个可视化的学术数据搜索系统,将教师作为节点,关系作为边,以关系图的形式向用户直观地展示不同学术范围内教师间的学术关系。该系统使用知识图谱技术存储链接数据(Linked Data),避免了传统关系型数据库在查询链接数据时的表连接操作,从而大大提升了查询的性能,因此该系统也被称作学术知识图谱。本文为实现该学术知识图谱主要开展了如下工作:第一步是学术数据的获取工作。使用Protégé工具设计知识图谱的本体层结构,根据本体层定义使用Jsoup爬虫框架获取61所国内知名高校官网中的教师数据,然后使用Selenium爬虫框架访问微软学术官网获取教师发表的论文数据。第二步是学术数据的处理工作。将获取的教师与论文数据进行去重、去除无效数据、添加主键ID等清洗工作后导入My SQL数据库,利用D2RQ工具将My SQL存储的关系型数据转换为RDF(Resource Description Framework)三元组数据。将本体层定义与RDF三元组文件导入Apache Jena框架后推理引擎会对缺失的关系数据进行补全处理。第三步是学术数据的表示与存储工作。由于Jena的TDB(Triplet Database)首次查询时存在预热时间过长、占用大量内存等严重问题,并且该数据库使用基于RDF标准的三元组构建而成,本体定义复杂,在查询效率上不如结构简单的图数据库,因此使用Neo4j取代Jena的TDB进行知识的表示与存储。第四步是学术数据的可视化工作。使用Spring MVC框架搭配Neo4j实现学术知识图谱的后端功能,将后端获取的学术关系数据输入Gephi软件为教师实体计算出显示在可视化页面的位置坐标后与学术关系数据打包成Json格式发送给前端的Apache Echarts框架,该框架支持将学术关系以节点与边组成的关系图形式为用户进行展示。完成系统的开发工作后,实验对比了四种时下流行的知识图谱嵌入算法对学术知识图谱中三元组数据的向量化效果,将链接预测(Link Prediction)作为评价指标从中分析出更适合该系统数据集向量化工作的嵌入算法。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://m.bishedaima.com/lunwen/56177.html