信息系统领域学术知识图谱的构建与应用
这是一篇关于信息系统,学术知识图谱,检索与推荐的论文, 主要内容为学术论文凝聚着学者们优秀的研究思想。但是在当前海量论文数据、信息过载的情况下,如何充分挖掘论文中隐藏的知识,为论文的检索增加更丰富的语义信息,如何帮助科研人员快速、高效地获取所需的学术论文,是一个巨大的挑战。学术知识图谱结合推荐技术可以解决上述问题。随着谷歌公司将知识图谱用于检索,已出现很多优秀的学术知识图谱,如Ace KG等。但是这些大规模知识图谱多集中于通用和计算机领域。信息系统领域与计算机领域虽有交叉但是侧重点不同。因此,本文聚焦于信息系统领域,构建学术知识图谱,并基于此图谱进行论文的检索和相关推荐。首先,定义了信息系统学术知识图谱的数据模式,采用自顶向下的方法构建信息系统学术知识图谱,增加了“研究方法”这一语义实体。训练了Text CNN模型对论文的标题和摘要进行“研究方法”的分类,与SVM对比验证了模型的有效性。其次,在关系补全方面,通过LDA主题模型表示论文,结合定义的元路径规则,通过计算相似度补全论文的相似性关系;利用Trans H模型表示图谱中的实体和关系,与Trans E模型对比效果良好;基于论文间的相似关系来补全作者间的相似关系。最后,基于构建的知识图谱搭建了上层应用系统。基于Elastic Search实现了论文检索,基于补全的论文相似关系和作者相似关系在论文详情页展示相关推荐,基于D3.js实现了学术论文知识图谱的可视化。本文研究了信息系统领域学术知识图谱的构建和应用。搭建了服务于信息系统领域研究人员的论文检索和推荐系统,同时,也为其他领域知识图谱的构建提供了参考。
面向科技文献的学术知识图谱构建研究与应用
这是一篇关于学术知识图谱,问答,实体-关系抽取,本体构建的论文, 主要内容为随着互联网大数据时代的到来,如何从海量科技文献中快速检索论文,准确提取领域知识并帮助学者发现新的研究任务和方法,成为学术社区的很大挑战。学术知识图谱将学术社区的异质信息整合成结构化知识网络,将真实语义上具有密切联系的科学实体关联起来,能够帮助检索论文。一篇文献通常会针对特定的领域任务提出相应的解决方法,但是,目前的学术知识图谱重点关注文献的作者、领域和关键词等结构信息,很少挖掘蕴含在文献摘要中的任务和方法等语义信息。如果围绕任务和方法构建涵盖学术概念、科技文献、作者和机构等信息的知识网络,那么基于网络结构进行语义推理可以帮助学者定位领域研究内容,探索科研动向以及发现学术社交网络等。因此,本文的目标是面向科技文献构建一个以领域任务和研究方法为中心,容纳学者、机构和关键词等信息的学术知识图谱。本文工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要研究内容,该项目旨在开发一款用于学术知识快速共享的学习类移动端软件。用户可通过该软件阅读国内外期刊会议、科技文献和作者简介等学术信息,动态追踪科技快讯和研究热点,以及添加好友和群组、在线交流和评论等社交行为。基于此项目背景,本文的主要工作如下:(1)提出一种基于维基数据的学术本体半自动构建算法。该算法将维基百科作为高质量外部数据源,从百科文本中自动提取领域概念作为本体库节点,并定义节点间的上下位关系。在领域专家指导下进行半自动本体检查,对初始构建的学术本体库进行剪枝、清洗和补全,从而构建可用于链接学术知识图谱实体层的高质量本体库。(2)提出一种基于双轮问答的学术实体-关系联合抽取算法Double QA-IE。该算法将问答领域的片段抽取任务迁移至知识图谱构建任务,从文献摘要中抽取学术实体和关系并将链接实体至相应本体概念。给定问题、摘要和候选本体,将候选本体作为锚节点与文本序列联合嵌入,利用嵌入矩阵的相容性计算单词序列的注意力权重,设计双向深层注意力网络结构编码文本的语义表征。第一轮问答同时预测学术实体在摘要中的起止位置、类别标签和链接的本体标签;第二轮问答根据第一轮预测的头实体进行答案填充,对关系类型、尾实体和本体标签进行联合预测。(3)将算法落地到实际应用中,面向上述项目整合的计算机学科人工智能领域科技文献,基于上述算法构建了一个实际可用的学术领域知识图谱。该学术图谱是以任务和方法为中心的具有三层结构的知识网络:实体层是知识图谱的核心层,以Double QA-IE算法抽取的任务和方法为中心节点,节点间包括使用、对比和部分三种关系;学术本体库是知识图谱的基础层,以本体构建算法抽取的科学概念为中心,用于链接实体层节点,使其具有上下位关系并进行语义消解;文本层是学术图谱的扩展层,以项目整合的科技文献为中心,容纳了标题、关键词和出版时间等属性信息以及期刊会议、科研作者和软件用户等异质节点,用于实体层任务和方法节点的文本定位。本文构建的学术知识图谱已应用于该项目支撑的软件《学术头条APP》中。
面向图情档期刊的学术知识图谱构建及应用研究
这是一篇关于学术知识图谱,Word2vec,BiLSTM+CRF,期刊差异性,K-Means的论文, 主要内容为随着互联网、人工智能和语义网技术的发展,知识图谱应运而生。知识图谱用来描述现实世界中存在的实体以及实体之间的关系,并将实体及其关系构成一张巨大的语义网。知识图谱因其强大的知识组织和知识表示能力,被广泛地应用到多个领域,如智能搜索、智能问答系统、个性化推荐等领域。学术知识图谱作为一种领域知识图谱,面向学术数据,比如期刊论文、会议论文、学位论文以及在线学术资源网站上的学者信息等。学术知识图谱能够将这些学术数据以可视化的方法有效组织,实现数据到信息再到知识的转变。论文作者通过撰写科学文献将所学的领域知识进行呈现,其余科研用户通过阅读这些科学文献来了解某个研究领域。因此,深入挖掘分析科学文献内容,提高科学文献的利用效率很有必要。科学文献中涉及的题名、摘要等字段能够很好地对科学文献的内容进行表征,因此对这些字段进行合理组织和挖掘是很有必要的。而学术知识图谱作为一种有效的知识表示方法,能够实现对科学文献中的字段合理组织,进而实现对科学文献的内容挖掘,为科学文献的检索提供更加丰富的语义信息,提高科学文献的利用率,帮助科研用户迅速准确地检索出所需的科学文献。本文利用知识图谱的构建技术和方法,面向图情档领域构建学术知识图谱。以图情档领域CSSCI来源期刊近五年的论文为数据来源,选择论文的结构化数据包括题名、作者、年份、期刊,而题名由于富含丰富的论文内容信息,可以与摘要拼接成文本数据,并将此作为非结构化数据。结构化数据作为表层实体;对于非结构化数据,利用深度学习模型Word2vec和BiLSTM+CRF进行实体抽取,识别出研究对象、研究主题和理论技术类语义实体,再进行实体对齐,构建学术知识图谱,再将构建好的学术知识图谱存储在图数据库Neo4j中,并进行可视化展示。构建好学术知识图谱之后,再对学术知识图谱进行三个方面应用研究。第一个应用是论文聚类,学术知识图谱分别实现了基于研究对象类实体的文献关联、基于研究主题类实体的文献关联以及基于理论技术类实体的文献关联,论文聚类是将这三个功能进行整合,即实现基于研究对象类、研究主题类和理论技术类实体的文献关联,借助K-Means聚类算法进行论文聚类,实现文献关联,并对聚类后形成的聚类簇主题进行分析;第二个应用是期刊聚类,从学术知识图谱中的期刊与其刊载论文和论文与其研究主题类和理论技术类实体的关联得到期刊与其研究主题类和理论技术类实体的关联,将此关联关系在图数据库Neo4j中以图的方式进行可视化展示,并利用K-Means聚类算法进行期刊差异性分析;第三个应用是理论技术类实体共现分析,学术知识图谱中存在论文与一个或多个理论技术类实体的关联关系,将此关联关系转换为理论技术类实体与理论技术类实体间的关联关系,即两个理论技术类实体共同被一篇论文使用的共现关系,同样也利用Neo4j图数据库进行存储和可视化展示,为科研用户论文写作提供方法层面的指导。
基于知识图谱的学者合作推荐算法研究
这是一篇关于学术知识图谱,学者合作关系推荐,用户行为序列,长短期记忆网络的论文, 主要内容为随着网上学术资源快速增长,科研人员日益增多,很多学者不能快速、高效、准确地找到与自己合适的科研合作者。为解决这一问题,本文对学者合作领域的推荐问题进行深入研究。考虑到知识图谱能够充分体现实体间语义关联以及深度学习技术信息表征能力强的优势,本文应用深度学习技术,结合知识图谱和学者合作行为序列,提出一种学者合作推荐方法,重点研究了学者合作关系领域知识图谱的构建、适用于该知识图谱内实体的向量化表示以及基于知识图谱的学者合作关系推荐技术。本文的主要工作如下:首先,构建了基于学者合作背景的知识图谱,将知识图谱应用在学者合作关系领域,通过提取内在实体和关系,存储在Neo4j数据库中,最终构成最终的学者合作关系知识图谱;其次,充分利用向量化表示在推荐技术中的优势,使用经典翻译模型——Trans E及其衍生模型对知识图谱进行向量化表示处理,根据对不同的模型进行对比试验,最终确定Trans D模型为本文推荐模型的最佳知识表示学习方法;在此之后,获取了学者合作领域行为序列数据集。在Aminer学术资源数据集的基础上加入学者合作次数与对应年份,进行相应的预处理操作,实现数据集匹配获取最终的学者合作领域行为序列数据集;最后,提出了一种基于知识图谱的学者合作行为序列的个性化推荐模型RKSC(Recommendation Model based on Knowledge Graph and Scholars’Cooperation Behavior Sequence)。该模型使用知识图谱的知识表示学习方法获取结构化特征,使用Word2Vec和词向量序列平均池化技术捕获非结构化特征(文本特征),再使用Attention机制对上述两种特征进行融合从而得到最终的向量化表示,之后引用GRU神经网络捕获学者在当前序列的合作行为的特征变化,获取学者的长期偏好,再以学者的最后一次合作的特征表示用户的短期偏好,将长短期偏好特征结合以获取学者的潜在合作兴趣,最终为该学者推荐符合其当前偏好的另一位学者。就本文所知,这是目前为数不多的将知识图谱和深度学习技术结合、面向学术界的同时考虑学者的长期和短期偏好、用于序列化推荐领域的尝试。此外,本文对模型中的损失函数进行了改进。最终的实验结果表明,本文提出的RKSC推荐模型在推荐性能上较相关工作具有更大的提升。
面向科技文献的学术知识图谱构建研究与应用
这是一篇关于学术知识图谱,问答,实体-关系抽取,本体构建的论文, 主要内容为随着互联网大数据时代的到来,如何从海量科技文献中快速检索论文,准确提取领域知识并帮助学者发现新的研究任务和方法,成为学术社区的很大挑战。学术知识图谱将学术社区的异质信息整合成结构化知识网络,将真实语义上具有密切联系的科学实体关联起来,能够帮助检索论文。一篇文献通常会针对特定的领域任务提出相应的解决方法,但是,目前的学术知识图谱重点关注文献的作者、领域和关键词等结构信息,很少挖掘蕴含在文献摘要中的任务和方法等语义信息。如果围绕任务和方法构建涵盖学术概念、科技文献、作者和机构等信息的知识网络,那么基于网络结构进行语义推理可以帮助学者定位领域研究内容,探索科研动向以及发现学术社交网络等。因此,本文的目标是面向科技文献构建一个以领域任务和研究方法为中心,容纳学者、机构和关键词等信息的学术知识图谱。本文工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要研究内容,该项目旨在开发一款用于学术知识快速共享的学习类移动端软件。用户可通过该软件阅读国内外期刊会议、科技文献和作者简介等学术信息,动态追踪科技快讯和研究热点,以及添加好友和群组、在线交流和评论等社交行为。基于此项目背景,本文的主要工作如下:(1)提出一种基于维基数据的学术本体半自动构建算法。该算法将维基百科作为高质量外部数据源,从百科文本中自动提取领域概念作为本体库节点,并定义节点间的上下位关系。在领域专家指导下进行半自动本体检查,对初始构建的学术本体库进行剪枝、清洗和补全,从而构建可用于链接学术知识图谱实体层的高质量本体库。(2)提出一种基于双轮问答的学术实体-关系联合抽取算法Double QA-IE。该算法将问答领域的片段抽取任务迁移至知识图谱构建任务,从文献摘要中抽取学术实体和关系并将链接实体至相应本体概念。给定问题、摘要和候选本体,将候选本体作为锚节点与文本序列联合嵌入,利用嵌入矩阵的相容性计算单词序列的注意力权重,设计双向深层注意力网络结构编码文本的语义表征。第一轮问答同时预测学术实体在摘要中的起止位置、类别标签和链接的本体标签;第二轮问答根据第一轮预测的头实体进行答案填充,对关系类型、尾实体和本体标签进行联合预测。(3)将算法落地到实际应用中,面向上述项目整合的计算机学科人工智能领域科技文献,基于上述算法构建了一个实际可用的学术领域知识图谱。该学术图谱是以任务和方法为中心的具有三层结构的知识网络:实体层是知识图谱的核心层,以Double QA-IE算法抽取的任务和方法为中心节点,节点间包括使用、对比和部分三种关系;学术本体库是知识图谱的基础层,以本体构建算法抽取的科学概念为中心,用于链接实体层节点,使其具有上下位关系并进行语义消解;文本层是学术图谱的扩展层,以项目整合的科技文献为中心,容纳了标题、关键词和出版时间等属性信息以及期刊会议、科研作者和软件用户等异质节点,用于实体层任务和方法节点的文本定位。本文构建的学术知识图谱已应用于该项目支撑的软件《学术头条APP》中。
信息系统领域学术知识图谱的构建与应用
这是一篇关于信息系统,学术知识图谱,检索与推荐的论文, 主要内容为学术论文凝聚着学者们优秀的研究思想。但是在当前海量论文数据、信息过载的情况下,如何充分挖掘论文中隐藏的知识,为论文的检索增加更丰富的语义信息,如何帮助科研人员快速、高效地获取所需的学术论文,是一个巨大的挑战。学术知识图谱结合推荐技术可以解决上述问题。随着谷歌公司将知识图谱用于检索,已出现很多优秀的学术知识图谱,如Ace KG等。但是这些大规模知识图谱多集中于通用和计算机领域。信息系统领域与计算机领域虽有交叉但是侧重点不同。因此,本文聚焦于信息系统领域,构建学术知识图谱,并基于此图谱进行论文的检索和相关推荐。首先,定义了信息系统学术知识图谱的数据模式,采用自顶向下的方法构建信息系统学术知识图谱,增加了“研究方法”这一语义实体。训练了Text CNN模型对论文的标题和摘要进行“研究方法”的分类,与SVM对比验证了模型的有效性。其次,在关系补全方面,通过LDA主题模型表示论文,结合定义的元路径规则,通过计算相似度补全论文的相似性关系;利用Trans H模型表示图谱中的实体和关系,与Trans E模型对比效果良好;基于论文间的相似关系来补全作者间的相似关系。最后,基于构建的知识图谱搭建了上层应用系统。基于Elastic Search实现了论文检索,基于补全的论文相似关系和作者相似关系在论文详情页展示相关推荐,基于D3.js实现了学术论文知识图谱的可视化。本文研究了信息系统领域学术知识图谱的构建和应用。搭建了服务于信息系统领域研究人员的论文检索和推荐系统,同时,也为其他领域知识图谱的构建提供了参考。
基于少标注的无监督学术知识图谱构建
这是一篇关于学术知识图谱,作者消歧,机构消歧,短文本分类,无监督学习的论文, 主要内容为构建学术知识图谱是文献检索工具和学术影响力分析等应用的基础,虽然现在已有许多构建的大型学术知识图谱和学术搜索平台,但构建知识图谱中学术实体的准确性仍然有待提升,在学术实体构建中,作者消歧、机构消歧、学术词新词发现和分类体系构建是其中比较困难的任务。针对作者消歧问题,本文提出了一种基于异构网络的无监督作者姓名消歧方法。通过对学术实体名称预处理减弱文本格式不一致的影响,用异构网络上的元路径随机游走方法学习文献结构特征,用基于TF-IDF和随机打乱词序的词向量构建方法学习文献文本特征,融合相似度后用DBSCAN聚类、合并孤立文献实体方法完成作者消歧。实验表明,该模型比AMiner模型的F1值相对提升了3.51%,并被应用于项目中2400万篇文献数据的作者消歧任务。此外,对于机构消歧问题,本文提出了一种基于文本特征的无监督学术机构名称消歧方法,首先构建了世界城市位置关系表,用位置和词库信息补全缺失的英文全称,用翻译方法补全中文名称,然后用中文名称常用后缀统计和信息熵修正中文名称,用基于相似度的方法修正英文全简称错误对应和中英文错误对应,最后用结合数量词、拼音词、位置词、词向量的基于文本特征的LSTM模型完成学术机构消歧。实验证明,该模型比Link KG模型的F1值相对提升了1.33%,并被应用于项目中600万个学术机构名称的消歧任务。最后,本文提出了一种少标注的学术词分类体系构建方法,用基于规则的方法切分中英文混合的摘要文本,用基于文本统计特征的方法新词发现和同义词合并,用BERT与Text CNN方法、word2vec与fasttext词向量和注意力机制,融合通用知识和领域知识对学术词筛选和分类,根据分类结果完成学术词分类体系构建任务。实验证明,该方法比STGCN方法准确率相对提升了1.50%。
信息系统领域学术知识图谱的构建与应用
这是一篇关于信息系统,学术知识图谱,检索与推荐的论文, 主要内容为学术论文凝聚着学者们优秀的研究思想。但是在当前海量论文数据、信息过载的情况下,如何充分挖掘论文中隐藏的知识,为论文的检索增加更丰富的语义信息,如何帮助科研人员快速、高效地获取所需的学术论文,是一个巨大的挑战。学术知识图谱结合推荐技术可以解决上述问题。随着谷歌公司将知识图谱用于检索,已出现很多优秀的学术知识图谱,如Ace KG等。但是这些大规模知识图谱多集中于通用和计算机领域。信息系统领域与计算机领域虽有交叉但是侧重点不同。因此,本文聚焦于信息系统领域,构建学术知识图谱,并基于此图谱进行论文的检索和相关推荐。首先,定义了信息系统学术知识图谱的数据模式,采用自顶向下的方法构建信息系统学术知识图谱,增加了“研究方法”这一语义实体。训练了Text CNN模型对论文的标题和摘要进行“研究方法”的分类,与SVM对比验证了模型的有效性。其次,在关系补全方面,通过LDA主题模型表示论文,结合定义的元路径规则,通过计算相似度补全论文的相似性关系;利用Trans H模型表示图谱中的实体和关系,与Trans E模型对比效果良好;基于论文间的相似关系来补全作者间的相似关系。最后,基于构建的知识图谱搭建了上层应用系统。基于Elastic Search实现了论文检索,基于补全的论文相似关系和作者相似关系在论文详情页展示相关推荐,基于D3.js实现了学术论文知识图谱的可视化。本文研究了信息系统领域学术知识图谱的构建和应用。搭建了服务于信息系统领域研究人员的论文检索和推荐系统,同时,也为其他领域知识图谱的构建提供了参考。
面向科技文献的学术知识图谱构建研究与应用
这是一篇关于学术知识图谱,问答,实体-关系抽取,本体构建的论文, 主要内容为随着互联网大数据时代的到来,如何从海量科技文献中快速检索论文,准确提取领域知识并帮助学者发现新的研究任务和方法,成为学术社区的很大挑战。学术知识图谱将学术社区的异质信息整合成结构化知识网络,将真实语义上具有密切联系的科学实体关联起来,能够帮助检索论文。一篇文献通常会针对特定的领域任务提出相应的解决方法,但是,目前的学术知识图谱重点关注文献的作者、领域和关键词等结构信息,很少挖掘蕴含在文献摘要中的任务和方法等语义信息。如果围绕任务和方法构建涵盖学术概念、科技文献、作者和机构等信息的知识网络,那么基于网络结构进行语义推理可以帮助学者定位领域研究内容,探索科研动向以及发现学术社交网络等。因此,本文的目标是面向科技文献构建一个以领域任务和研究方法为中心,容纳学者、机构和关键词等信息的学术知识图谱。本文工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要研究内容,该项目旨在开发一款用于学术知识快速共享的学习类移动端软件。用户可通过该软件阅读国内外期刊会议、科技文献和作者简介等学术信息,动态追踪科技快讯和研究热点,以及添加好友和群组、在线交流和评论等社交行为。基于此项目背景,本文的主要工作如下:(1)提出一种基于维基数据的学术本体半自动构建算法。该算法将维基百科作为高质量外部数据源,从百科文本中自动提取领域概念作为本体库节点,并定义节点间的上下位关系。在领域专家指导下进行半自动本体检查,对初始构建的学术本体库进行剪枝、清洗和补全,从而构建可用于链接学术知识图谱实体层的高质量本体库。(2)提出一种基于双轮问答的学术实体-关系联合抽取算法Double QA-IE。该算法将问答领域的片段抽取任务迁移至知识图谱构建任务,从文献摘要中抽取学术实体和关系并将链接实体至相应本体概念。给定问题、摘要和候选本体,将候选本体作为锚节点与文本序列联合嵌入,利用嵌入矩阵的相容性计算单词序列的注意力权重,设计双向深层注意力网络结构编码文本的语义表征。第一轮问答同时预测学术实体在摘要中的起止位置、类别标签和链接的本体标签;第二轮问答根据第一轮预测的头实体进行答案填充,对关系类型、尾实体和本体标签进行联合预测。(3)将算法落地到实际应用中,面向上述项目整合的计算机学科人工智能领域科技文献,基于上述算法构建了一个实际可用的学术领域知识图谱。该学术图谱是以任务和方法为中心的具有三层结构的知识网络:实体层是知识图谱的核心层,以Double QA-IE算法抽取的任务和方法为中心节点,节点间包括使用、对比和部分三种关系;学术本体库是知识图谱的基础层,以本体构建算法抽取的科学概念为中心,用于链接实体层节点,使其具有上下位关系并进行语义消解;文本层是学术图谱的扩展层,以项目整合的科技文献为中心,容纳了标题、关键词和出版时间等属性信息以及期刊会议、科研作者和软件用户等异质节点,用于实体层任务和方法节点的文本定位。本文构建的学术知识图谱已应用于该项目支撑的软件《学术头条APP》中。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://m.bishedaima.com/lunwen/56230.html