基于多组学数据的本体注释与知识图谱构建方法研究
这是一篇关于基因测序工作流,本体注释,知识图谱,语义检索,数据集成可视化,MongoDB,Neo4j的论文, 主要内容为随着测序技术的不断发展,测序费用逐年降低,各国相继发展了大规模精准医疗计划。随着这些大规模精准医疗计划的实施,相关的生物数据呈爆炸式增长。当前对于如何管理和分析海量的生物变异数据是目前生物信息学研究人员面临的巨大难题之一。虽然有不少基于变异数据的管理软件,但是大部分没有与本体数据结合,然而这些本体信息数据在疾病研究、分子诊断上有着不可忽视的作用。精准医疗计划的实施离不开复杂性疾病的研究。复杂性疾病是由基因或环境等多领域因素导致的疾病。在治疗复杂性疾病时,单一组学数据的分析往往是不够的,而是需要基于多组学知识进行全方位的理解。然而这些组学数据往往存储在不同的数据库中,给生物医学工作者来了极大的不便。因此基于多组学数据对变异文件进行本体注释,构建多组学知识图谱是未来生物医学领域重要课题之一。本文主要研究成果如下:(1)研究了测序分析工作流与本体注释方法。本文选择较流行的比对和变异检测软件搭配,完成了DNA二代、DNA三代和RNA测序。并基于检测的变异文件,开发了本体注释方法,通过该方法可以将本体信息注释到变异文件上,在一个文件上整合多个数据库,极大的提高了查询效率。(2)搭建了多组学知识图谱与基于知识图谱的语义检索模型。通过先构建数据模式层,然后基于数据模式层建立多组学知识图谱。目前该图谱包含30多万个节点,600多万个关系。最后基于知识图谱构建了语义搜索模型,用以满足用户的语义搜索需求。(3)建立了变异管理与多组学知识图谱集成平台。并包含了基于知识图谱的语义搜索模型。平台采用B/S架构,后端使用Mongo DB和Neo4j两种数据库。前端采用WEB界面,满足用户的变异管理需求和多组学语义搜索需求,方便用户使用。
基于多组学数据的本体注释与知识图谱构建方法研究
这是一篇关于基因测序工作流,本体注释,知识图谱,语义检索,数据集成可视化,MongoDB,Neo4j的论文, 主要内容为随着测序技术的不断发展,测序费用逐年降低,各国相继发展了大规模精准医疗计划。随着这些大规模精准医疗计划的实施,相关的生物数据呈爆炸式增长。当前对于如何管理和分析海量的生物变异数据是目前生物信息学研究人员面临的巨大难题之一。虽然有不少基于变异数据的管理软件,但是大部分没有与本体数据结合,然而这些本体信息数据在疾病研究、分子诊断上有着不可忽视的作用。精准医疗计划的实施离不开复杂性疾病的研究。复杂性疾病是由基因或环境等多领域因素导致的疾病。在治疗复杂性疾病时,单一组学数据的分析往往是不够的,而是需要基于多组学知识进行全方位的理解。然而这些组学数据往往存储在不同的数据库中,给生物医学工作者来了极大的不便。因此基于多组学数据对变异文件进行本体注释,构建多组学知识图谱是未来生物医学领域重要课题之一。本文主要研究成果如下:(1)研究了测序分析工作流与本体注释方法。本文选择较流行的比对和变异检测软件搭配,完成了DNA二代、DNA三代和RNA测序。并基于检测的变异文件,开发了本体注释方法,通过该方法可以将本体信息注释到变异文件上,在一个文件上整合多个数据库,极大的提高了查询效率。(2)搭建了多组学知识图谱与基于知识图谱的语义检索模型。通过先构建数据模式层,然后基于数据模式层建立多组学知识图谱。目前该图谱包含30多万个节点,600多万个关系。最后基于知识图谱构建了语义搜索模型,用以满足用户的语义搜索需求。(3)建立了变异管理与多组学知识图谱集成平台。并包含了基于知识图谱的语义搜索模型。平台采用B/S架构,后端使用Mongo DB和Neo4j两种数据库。前端采用WEB界面,满足用户的变异管理需求和多组学语义搜索需求,方便用户使用。
基于知识图谱的军事装备知识问答系统研究与实现
这是一篇关于知识图谱,军事装备,登陆作战,语义解析,问答系统,Neo4j的论文, 主要内容为随着军队信息化建设的高速发展,军事信息的体量呈爆炸式增长,为满足获取与分析海量信息资源的需求,知识图谱技术作为研究热点被引入军事领域。其中基于知识图谱的问答系统,可以在辅助决策系统中为用户提供高效直观的信息支持,有效提高作战效率。本文针对登陆作战场景,对领域知识图谱的构建方法和问答系统进行了研究与实现。本文的主要工作包括:1)构建登陆作战场景下知识本体模型采用自顶向下的方式,对登陆作战领域知识的概念、层次结构、概念间关系及属性进行了详细设计,构建了包括装备体系、作战事件、作战能力等核心实体的知识本体模型。2)提出一套领域场景下实体和属性抽取方法针对登陆作战场景中涉及的军事装备实体及其属性,通过分析研究装备名称的结构特点,提出由基于词典的实体和属性识别方法、基于倒排索引的候选实体生成方法、基于要素的军事装备实体消歧算法构成的实体和属性抽取方法,并通过实验验证了方法的有效性。3)提出领域场景关系抽取和作战事件抽取方法针对文本中的实体间关系,通过依存句法分析与Bootstrapping算法实现关系抽取。针对领域场景中大量作战文书所记录的作战事件,提出时空约束下的主客体行为模型,规定事件关键要素,提出一套抽取事件三元组集合的方法。4)提出领域场景下实体属性简单问答和作战事件问答方法针对用户与知识图谱的频繁交互需求,通过实体和属性抽取,匹配问句模板实现实体和属性的简单查询。通过依存句法分析、基于规则的模型要素抽取、事件相似度确定事件实体,实现作战事件查询。5)设计并实现了一套领域知识问答系统通过分析领域知识问答系统的需求,设计并实现了一套领域知识问答系统,详细阐述了知识图谱构建、辅助词典模块、实体与属性抽取模块等系统组成部分的具体实现方法,并测试了系统的有效性。
基于AttCNN模型的实体潜在关系知识图谱的研究与实现
这是一篇关于知识图谱,本体,可视化,富关联,Neo4j的论文, 主要内容为随着信息时代发展,数据呈现爆炸性的增长。数据可视化的实现有助于从繁杂的信息中发现数据走向,是对数据的全局俯视,能实现对数据更加精准的把握。而且网络数据量庞大且易于获取,可以更好地满足知识图谱对数据源的需求。最大效益地利用好数据源,最大限度地提取信息并进行可视化,知识图谱是不二首选,引入知识图谱对构建实体关系研究平台有着重要作用。当今对于知识图谱的研究大多集中于知识图谱的关系提取、可视化技术等。研究的还是集中于存在关系,即实体之间关联关系,而对实体之间未关联关系的研究略显不足,本文从这方面着手进行知识图谱实体关系研究。根据之前积累的知识图谱理论研究以及实践,本文选取相关技术构建了一个完整的知识图谱技术方案,研究知识图谱中实体之间潜在的关联关系。首先,本文使用富关联抽取实体关系,即在上下文中,抽取多个实体,通过卷积神经网络以及注意力机制提取实体关系特征值,再进行匹配融合。然后根据得到的三元组关系进行无关联实体关系拓补,给出实体关系的空白集合。最后通过实体关系空白集合研究实体之间存在的潜在联系。本文信息存储工具选取了Neo4j图数据库作为信息存储工具,即对上下文句式中抽取到的实体间三元组关系进行存储。在系统中,用户可以在网页中输入相关问题或者语句,进行实体识别,系统根据用户的问题返回识别结果。本文在知网上选取相关学科文献数据进行实验,实验结果表明,本文设计并实现基于AttCNN模型的实体潜在关系知识图谱在识别实体方面有着较好的准确率和效率,能够显示出更多的实体关系信息,丰富并完善了知识图谱。
基于本体的恶意软件检测研究
这是一篇关于本体,沙箱,恶意软件检测,知识图谱,Neo4j的论文, 主要内容为恶意软件通常具有隐蔽生存和对抗杀软的特性,这对安全人员的手动分析以及恶意攻击的行为画像与溯源造成了巨大困难。为了缓解这类问题,本文通过Cuckoo沙盒对可执行的恶意软件进行动态调试,抽象出恶意软件运行过程中的特征行为信息,通过自顶向下的方法构建恶意软件本体;然后设计恶意软件特征行为图并提出基于图结构的恶意软件家族分类方法;最后在本体的基础上构建恶意软件知识图谱,研究恶意软件知识图谱的应用性,并对同家族内的恶意软件进行更细粒度的亚家族划分。针对恶意软件知识抽取问题,本文提出了基于分层的恶意软件知识抽取方法。该方法基于Cuckoo沙盒系统对恶意软件进行动态分析的初步特征行为提取,通过设置敏感信息和关键参数对沙盒分析报告中的半结构化信息进行数据清洗和二次抽取,从而获取结构化的特征行为信息;最后将特征行为信息与恶意软件属性枚举和特征描述(MAEC)结合构建恶意软件本体,指导后续的知识抽取和知识图谱的构建。针对恶意软件家族分类问题,因为特征行为信息是半结构化数据类型,各条数据彼此呈现出明显的图结构特性,所以本文提出基于图结构的恶意软件家族分类方法。首先把由知识抽取方法得到的特征行为信息转换为图数据,并对转换后的图数据进行了冗余节点、边合并等图的优化操作,设计恶意软件特征行为图;然后通过图聚类的方法构建家族特征图;最后改进图匹配的规则来对恶意软件进行检测分类。从召回率、精度、误分类率三个指标对本文的方法进行评估,平均达到了96.27%、96.66%和3.33%,与现有的方法相比,本文提出的方法各项指标上优于现有方法,具有先进性。针对同家族内部的恶意软件亚家族分类问题,本文提出了基于恶意软件知识图谱的知识挖掘方法。我们通过整理和收集恶意软件领域技术要点,研究面向知识抽取的恶意软件分类和知识图谱构建方法;确定知识模型和节点设计,包括实体、关系、属性等存储方法;构建恶意软件知识图谱并利用PyQt实现其图形化界面展示。最后本文使用改进的鲁汶算法进行知识挖掘,采用标准化互信息(NMI)来度量聚类结果的相似程度,实现同一家族内的恶意软件更细粒度的亚家族划分。
基于专利知识图谱的机器人设计问答系统开发
这是一篇关于问答系统,查询模板,问句查询图,问句扩展,Neo4j的论文, 主要内容为近年来,以机器人为代表的智能制造掀起了世界范围内生产技术领域的风暴。物联网、大数据、云计算、人工智能等信息技术的重大突破,使得机器人的应用范围从工业制造向医疗健康、军事、农业等领域不断扩展。有着中国版“工业4.0”规划之称的《中国制造2025》将机器人产业列入重点战略,但是因为机器人产业涵盖了机械、电子、传感检测、计算机、生命科学等多个学科,对机器人设计提出了较高的要求。目前,基于知识图谱的问答系统已被用于很多特定领域,如医疗、农业、教育等领域。本文将问答系统引入机器人设计领域,提出一种基于专利知识图谱的关于机器人设计的问答系统,该问答系统能够回答用户提出的关于机器人设计方面的自然语言问题,并为机器人设计者与研究者在了解与设计机器人的过程中提供解决方案和专利推荐。基于专利知识图谱的机器人设计问答系统是以机器人领域的专利知识图谱为基础来开发。首先,使用问句模板和问句解析的方法将用户问题转为查询模板或问句查询图;再根据第三方概念知识库和词向量模型对用户问题中的实体等概念进行语义角度的扩展;最后将扩展后的查询模板或问句查询图与专利知识图谱建立查询匹配关系。本文具体工作如下:(1)将无结构化的用户查询自然语言问句转化为结构化表示。对用户查询问句,使用句子相似度进行模板匹配,构建问句查询模板;或使用Stanford Core NLP工具解析后构建问句查询图,实现查询问句结构化。(2)针对自然语言歧义问题将问句进行扩展。使用Concept Net和Microsoft Concept Graph第三方概念知识库,和本地专利数据词向量模型,对结构化询问句中的实体进行同义词、相关词的扩展,并采取一定的过滤策略。(3)对扩展后的结构化查询问句与专利知识图谱进行查询匹配。对问句查询模板和问句查询图采用精确匹配、模糊匹配两种方式,同时处理问句中关系缺失问题。(4)对基于专利知识图谱的机器人设计问答系统进行设计与实现。使用Neo4j图数据库存储专利知识图谱,将不同的部分构建模块化设计;使用Django网页框架进行后台处理、用户界面设计;使用j Query框架完成用户交互设计。
中职院校汽车维修知识图谱构建及其教学应用研究
这是一篇关于中职,汽车维修,知识图谱,推荐系统,Neo4j的论文, 主要内容为近年来,汽车行业发展迅猛,中国已经成为全球第一大汽车生产国和消费市场。截至2020年9月,中国的汽车保有量达2.81亿辆,伴随着汽车保有量的逐年递增,汽车的保养与维修需要更多从业人员支撑。中等职业院校开设汽修专业,正是通过职业教育的形式为社会输送汽修领域的技术人才。如何帮助中职院校汽车维修专业学生提升对所学知识的感知和理解,是教育工作者共同关心的问题。人工智能、大数据等互联网技术的应用和普及,给众多行业带来了全新的融合体验,“互联网+教育”形式也进入到中等职业院校,指导了中职教学模式和内容的创新。知识图谱与推荐系统相关技术的日趋成熟,让学生个性化学习成为可能。本论文主要针对中等职业院校汽车维修专业知识点庞杂,学生对所学内容整体把握感不强,汽车维修案例不成体系等问题,将中职院校汽车维修专业相关知识点和维修案例进行梳理,利用计算机技术构建出中职汽修知识图谱,并设计出中职汽修知识图谱推荐系统应用于教学。论文主要研究包括汽车维修专业知识的知识图谱构建、知识推荐策略研究以及知识图谱推荐系统在教学中的应用三部分。全文主要使用Python作为开发工具整合各项技术,使用Neo4j作为图数据库构建知识图谱,使用Gensim库相关函数实施推荐策略,使用Python GUI设计人机交互界面,最终的设计形态是制作出一个中职汽修知识图谱推荐系统,能够根据学生输入的问题,自动为学生推荐基于知识图谱的检修方案,以及相关的汽修案例文章。论文主要的结论和成果有三个:一是本文设计并成功构建出中等职业院校汽车维修知识图谱,这为如何构建汽车维修专业知识的知识图谱及其他领域知识图谱提供了方法,也为进一步的推荐系统提供基础知识库。二是本文开发出中职汽修知识图谱推荐系统,系统首先对学生的提问问句进行分词,获得学生提问的关键词,解析学生问题的意图,最后设计检索功能和推荐功能。该系统能对学生提问的问题进行回答,自动为学生推荐基于知识图谱的检修方案,以及相关的汽修案例文章,解决学生自主学习和知识点学习的困难。三是本文提出了基于知识图谱推荐系统的中职汽车维修教学模式,并设计教学实验,验证了在该教学模式下,师生通过合理使用中职汽修知识图谱推荐系统可以有效提高学生成绩,对中职汽修教育有益处。
基于Neo4j和Spark的农产品溯源数据分析平台构建
这是一篇关于Neo4j,Spark GraphFrames,图算法,农产品溯源的论文, 主要内容为为保障人民群众餐桌上的安全,各级政府与相关企业建立了一系列农产品溯源系统,实现了农产品从田间到餐桌全链路可追溯。但是,多数农产品溯源系统仍基于关系型数据库开发,不能很好描述关联性数据中实体之间的关系,更无法有效挖掘出溯源数据背后所蕴藏的价值。为解决大规模关联性数据的存储与分析场景应用问题,图数据库与分布式图数据分析技术孕育而生,其可将关联性数据存储为由节点和边组成的图模型,并可在图模型之上运行各类图算法,进行数据挖掘。农产品溯源数据主要以企业与农产品两两之间的关系组成,符合大规模关联性数据的特征。基于此,本文将图数据相关技术与农产品溯源数据相融合,使用图数据库Neo4j与分布式计算系统Spark设计并实现了农产品溯源数据分析平台,以便提取出隐藏在溯源数据中的有价值信息,进一步保障农产品安全。论文首先对相关技术与算法进行了综述研究,介绍了图数据库、图计算系统与前后端研发相关技术选型;研究了主流图算法的运行原理、执行流程以及在对农产品溯源数据分析时所起到的作用。接着对平台的功能需求进行了详细分析,并以微服务思想为设计理念,根据需求分析的结果将平台的功能进行模块化划分与总体架构进行设计,使用UML图、架构图、功能执行图与时序图描述了对平台的具体功能设计,同时依据NGDS与Cypher设计图数据单机分析算法、依据Graph Frames库设计图数据分布式计算函数。随后根据设计方案,引入Spark、Neo4j与HDFS作为数据分析与存储的核心组件、引入Nacos、Sentinel作为服务发现与流量监控的基础组件;使用Java框架Spring Boot开发溯源数据管理与单机数据分析接口;使用Python框架Flask开发分布式数据分析接口;使用Java Script框架Vue.js与Cytoscape.js开发前端页面与图数据可视化功能。最后介绍了平台所实现的具体功能,并对部分功能进行了测试与对比,验证了平台的实用性与可靠性。最终完成的农产品溯源数据分析平台面向拥有溯源数据的企业、政府或相关科研工作者,提供了溯源数据存储、获取、可视化功能,并支持对溯源数据使用各类图算法进行数据分析,用于探究农产品流通过程、查找关键企业与划分企业社团。平台的应用,使得相关机构与人员在农产品发生安全问题时,可以快速做出决策与响应;更可以让企业优化农产品供应链与产业链,提高企业效益,让更多消费者可以购买到既实惠又安全的农产品。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://m.bishedaima.com/lunwen/45401.html