9篇关于生物信息学的计算机毕业论文

今天分享的是关于生物信息学的9篇计算机毕业论文范文, 如果你的论文涉及到生物信息学等主题,本文能够帮助到你

面向生物医学文本及图谱的知识挖掘与知识发现

这是一篇关于生物信息学,知识图谱,深度学习,事件挖掘,图卷积,关联预测,自训练的论文, 主要内容为随着生物医学的相关研究迅速发展,大量的领域数据及知识被发现与记录。构造生物信息知识图谱能够有效组织丰富多样的领域知识,从而进行信息检索、数据挖掘与知识发现,为生物学、病理学和药理学提供支持。生物知识图谱的构建过程需要知识提取、知识表示,知识融合以及知识发现等步骤。本文研究这一系列技术步骤中的两个关键问题,分别是面向生物医学文献的信息提取,和面向基因-疾病网络的关联预测,针对这些问题给出了专用的机器学习模型。本文完成的主要工作有:(1)为提取生物医学文献中的事件,提出一种基于混合神经网络的新型组合策略。海量的生物医学以献以非结构化的文本格式记录了大量知识,而事件是一种描述这些知识的有效结构。本文使用了混合深度神经网络模型提取事件相关信息,以消除对人工特征工程的依赖;并使用了一种组合策略作为后处理过程,来改善提取过程中的误差积累。在多个BioNLP公开事件数据集上的实验结果表面本方法的取得了良好的性能表现。(2)为预测基因-疾病关联,给出一个基于关联知识图谱的图卷积模型。众多的数据库记录了的大量的基因和疾病的关联信息,将其组织为知识图谱可以挖掘其中的隐藏知识。本研究使用基于图卷积网络的方法预测其中未知基因-疾病关联,描述了一种邻接矩阵Dropout技术并定义了一个新型的聚簇损失函数,用来增强模型的泛化能力。在DisGeNet数据集上的实验说明了本方法的预测性能达到了已有工作的最佳水平。(3)为解决文献挖掘和关联预测中标注数据不足的问题,给出了基于自训练的半监督学习方法。生物医学数据普遍存在的标记样本数量不足的问题,使得监督学习性能受限。本研究在文本挖掘和基因-疾病关联预测任务上应用了自训练方法,借助已有的标注数据和大量的无标注数据,按照预测结果可信度指标筛选样本,用来扩充标注数据集并迭代训练。对比实验的结果证明了原始模型加入自训练后取得了积极的作用。

扬子鳄α型干扰素的克隆表达及抗病毒活性分析

这是一篇关于扬子鳄,IFN-α,生物信息学,抗病毒功能的论文, 主要内容为干扰素(interferon,IFN)是一类重要的细胞因子,具有多种生物活性的,包括抗病毒、参与免疫系统细胞等作用。IFN现分为三种亚型:I型、II型和III型,在机体内发挥着多样化的免疫功能,受到了各方面研究的广泛关注。I型IFN在连接先天免疫和适应性免疫方面起着至关重要的作用,其中IFN-α是临床使用具有最长记录的细胞因子。不同物种的IFN-α蛋白表现出了高度的同源性,IFN-α基因不含内含子,具有两个保守的二硫键。扬子鳄(Alligator sinensis)是我国一级保护动物,在进化史上有特殊意义,具有强大的免疫力,因此有多方面的研究价值及经济价值,但目前对爬行动物和扬子鳄免疫相关的研究较少。本研究克隆了扬子鳄IFN-α基因,进行了生物信息学分析和不同组织及冬眠期与非冬眠期扬子鳄IFN-α表达量的测定,并通过原核表达和真核表达获得了蛋白,以对其抗病毒活性进行分析,为今后更深入的研究打下基础。以南京某扬子鳄生态园养殖的扬子鳄组织血液为材料,提取mRNA反转录为cDNA,设计特异性引物进行PCR得到扬子鳄IFN-α序列,经过测序比对正确后连接至pMD-19T载体上。对序列进行分析表明,扬子鳄IFN-α基因的完整ORF序列为672 bp,编码223个氨基酸,前26个氨基酸是信号肽,等电点为是9.51。成熟的扬子鳄IFN-α蛋白的分子质量为26 kDa。三级结构预测显示该蛋白含有5段α螺旋,符合I型干扰素结构特征。对其同源性和进化树的分析发现,扬子鳄该序列与密西西比鳄(Alligator mississippiensis)IFN-α的相似性最高,与其他鱼类、鸟类、哺乳动物类等动物IFN-α的相似性较低,扬子鳄、密西西比鳄之间遗传距离最为接近,并与其他鳄类共同聚为一枝,再与龟鳖类、鸟类较为接近形成姐妹群,鱼类与扬子鳄的亲缘关系最远。通过荧光定量PCR分析测得扬子鳄不同组织中IFN-α的表达水平具有差异性,从高到低依次为:血液、胰腺、肺、小肠、肝脏、肾脏、肌肉,冬眠期IFN-α的表达量低于非冬眠期的表达量。正确构建原核表达载体pET32a-IFN,导入大肠杆菌表达系统后成功表达,使用纯化重组蛋白免疫数只小鼠以制备多克隆抗体,收集血清对效价进行了测定和分析,制备的多抗效价分别为1:25600及1:51200,并具有良好的特异性。为了研究扬子鳄IFN-α抗病毒活性,培养DF1细胞及Vero细胞,测定水疱性口炎病毒(VSV)的滴度,使用纯化的原核表达的扬子鳄IFN-α蛋白作用细胞并接种病毒,测定得出扬子鳄IFN-α蛋白在DF1细胞上抗VSV活性2.11×104U/mL,在Vero细胞上抗VSV活性为1.58× 1 04U/mL,并通过中和实验从另一角度验证了该蛋白的抗病毒效力。构建真核表达质粒pcDNA3.1-caIFN,转染至细胞中通过间接免疫荧光实验证明IFN-α成功表达,蛋白定位于细胞质中,48 h时扬子鳄IFN-α的表达量要高于24 h。构建真核表达质粒pEGFP-N1-caIFN,转染至Vero细胞中证明真核表达扬子鳄IFN-α蛋白能够抑制VSV病毒mRNA的转录,并能抑制病毒增殖。通过以上的研究,为扬子鳄的饲养和保护提供了理论依据,为进一步了解扬子鳄及爬行动物的免疫功能奠定了基础,从而使得扬子鳄可以作为一种了解的低等脊椎动物免疫系统及高等脊椎动物之间关系的一座桥梁。

RNA甲基化位点预测与癌症组织溯源的机器学习算法研究

这是一篇关于生物信息学,位点预测,集成模型,机器学习,癌症组织溯源的论文, 主要内容为机器学习是人工智能的一个分支,旨在让计算机自主地从数据中学习模式,并根据这些模式做出预测或决策。目前机器学习被广泛应用于各个领域,例如图像识别、自然语言处理、推荐系统和医学诊断等。在生物信息学领域中,机器学习技术可以用于基因组数据分析、蛋白质结构预测和基因组的编辑与设计等方面,有望帮助研究人员发现生物体内的复杂生物学系统的规律性和关联性。并且,由于常规的生物实验方法在实际问题上成本昂贵且耗时费力,因此无法被大规模应用,而基于机器学习的计算方法正好可以弥补生物实验方法存在的这些不足。目前,机器学习算法广泛涌现并应用于生物信息学的各个方向,本文针对其中两个热点问题:RNA甲基化位点预测和癌症组织溯源,利用机器学习算法进行探索研究。作为最丰富的RNA甲基化修饰之一,N6-甲基腺苷(N6-methyladenosine,m6A)可以调节造血干细胞的不对称和对称分裂,影响了人体内各种疾病的发生。因此,精确识别不同物种基因组周围的m6A位点是进一步揭示其生物学功能和对这些疾病影响的关键步骤。此外,针对癌症组织溯源问题,我们也进行了深入研究。原发部位不明的癌症(Cancers of the Unknown Primary,CUP)是一个异质性的癌症群体,其原发组织在经过常规临床方法的详细调查后仍然不明。CUP患者通常采用广谱化疗,这往往会导致不良预后。最近的研究表明,针对CUP原发组织的治疗将显著改善患者的预后。因此,在临床癌症研究中迫切需要开发一种有效的方法来准确检测CUP的原发组织。本文首先从特征提取、特征工程、机器学习算法以及评估方法和度量指标四个方面总结了使用机器学习算法进行分类预测的一般步骤,然后针对RNA甲基化位点预测和癌症组织溯源两个问题分别提出了两种有效的预测方案,主要的研究成果如下:关于m6A位点的预测问题,我们提出了一个集成深度学习模型,称为m6ABERT-Stacking,用于预测三个物种不同组织中的m6A位点。该模型使用RNA的二核糖核苷酸指数(Di NUCindex＿RNA)和k-mer字分割两种方法,分别提取了RNA序列特征,并将他们与原始序列分别输入到带有卷积块注意力模块的残差网络模型(Resnet-CBAM)、带有注意力的双向长短期记忆模型(Bi LSTM-Attention)和基于转换器的双向编码器表示DNA语言的预训练模型(DNABERT)三个子模型中。并按照集成策略组合子模型的输出,最后通过全连接层得到m6A位点的最终预测结果。在相同独立数据集上的实验结果表明,m6A-BERT-Stacking的性能超过了大多数现有方法,可以作为一个有力的工具来预测m6A位点。关于癌症组织溯源问题,首先通过学习相关文献,搜集整理了一个基于微阵列的基因表达数据作为本研究的基准数据集。其次,为了在不损失大量有效特征信息的前提下去除无效或冗余特征,使用决策树模型(Decision Tree,DT)对原始基因特征进行重要性排序,并选择出部分重要基因特征,以训练最终的极端梯度提升(e Xtreme Gradient Boosting,XGBoost)预测模型。实验结果表明,基于基因表达数据的XGBoost模型不仅可以降低临床癌症溯源的成本,而且既高效又准确,这可以为临床医学提供帮助。

基于J2EE的生物信息平台的设计与实现

这是一篇关于J2EE,MVC,Struts,WEB应用系统,设计模式,生物信息学的论文, 主要内容为Java企业级计算平台—Java 2平台企业版(Java 2 Platform Enterprise Edition,J2EE)一个分布式的服务器应用程序设计环境,它提供了基于组件的,以服务器为中心的多层应用体系结构,为企业应用系统提供了一个具有高度的可移植性和兼容性、安全的平台。基于这个平台的WEB应用系统同样具有良好的可移植性、可扩展性等特性,得到了广大Web应用系统开发人员的广泛关注和认可。将J2EE平台与Web技术相结合开发企业级Web应用,已成为当今Web技术发展的主流。生物信息学是跨越和融合世界科技中两个最活跃领域的一门新兴前沿学科,它使用计算和分析方法来解决生物学问题。生物信息平台则是一个集生物信息算法WEB集成,生物信息发布,和实验室管理等功能模块组成的综合性平台。本文将首先阐述构建基于J2EE的WEB应用系统的相关技术,然后从一个软件开发者的角度描述了如何应用上述技术设计和构建一个实际的WEB应用系统—生物信息平台。从系统的需求分析入手,进而介绍系统的总体架构、设计模式和具体实现并对关键技术加以分析。希望本文能对如何开发这种基于J2EE的生物信息平台有些借鉴作用。

RNA甲基化位点预测与癌症组织溯源的机器学习算法研究

利用生物信息学技术探究颈动脉粥样硬化进程中的关键基因及潜在机制

这是一篇关于生物信息学,动脉粥样硬化,枢纽基因,蛋白质相互作用,WGCNA,免疫细胞浸润的论文, 主要内容为目的:筛选公共数据库中的基因芯片以获得不同动脉粥样硬化(Atherosclerosis,AS)阶段时的测序数据;分别分析筛选出AS形成与进展时期的关键基因及潜在机制,进一步探究不同时期时AS斑块中炎症细胞的浸润情况。方法:设置纳入排除标准,对GEO(Gene Expression Omnibus)数据库及ArrayExpress数据库中的基因芯片进行检索筛选,获取不同AS阶段时的mRNA转录测序数据。根据纳入的芯片数据进行实验分组,将其分为正常对照组、动脉粥样硬化组(AS组);早期AS组、进展期AS组。采用limma R软件包对比分析正常对照组与动脉粥样硬化组之间基因的差异表达情况,获得差异基因。采用R语言程序包将差异基因进行可视化处理,绘制相应的热图和火山图。使用DAVID数据分析平台(https://david-d.ncifcrf.gov/summary.jsp)对差异基因进行GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)分析,探究基因富集的信号通路、细胞功能和生物学过程。使用STRING数据库(https://string-db.org)分析蛋白质之间的相互作用关系,并使用Cytoscape软件制作蛋白互作网络图,进一步分析出其中的枢纽节点作为关键基因。使用WGCNA(Weighted Gene Co-expression Network Analysis)相关的R语言包对差异基因进行加权共表达网络分析,将其细分为不同功能模块,并结合GO分析探究各模块基因的具体生物学功能。根据CIBERSORT官网(https://cibersort.stanford.edu)的免疫细胞单细胞测序数据,使用R语言软件包比对计算出各样本中免疫细胞的浸润情况。同样采用limma R软件包对比分析动脉粥样硬化早期组与动脉粥样硬化进展组之间的差异基因,重复以上所有分析步骤。结果:筛选纳入两个数据芯片GSE43292和GSE28829,动脉粥样硬化组包含了32个颈动脉粥样硬化(Carotid Atherosclerosis,CA)斑块样本,正常对照组包含了32个斑块旁正常血管组织样本,早期AS组包含了13个早期CA斑块组织,进展期AS组包含了16个进展期CA斑块组织样本。AS组较正常组上调基因有75个,下调基因有57个;进展期AS组较早期AS组的上调基因有154个,下调基因有23个。正常对照组与AS组的差异基因(Differentially ExpressedGenes,DEGs)主要富集在补体激活经典途径,循环免疫球蛋白介导的体液免疫应答等生物过程中;而早期AS组与进展期AS组的DEGs主要参与白细胞迁移,炎症反应的调节,免疫效应过程调节,细胞因子产生的正调控以及受体介导的内吞作用。通过PPI(protein-protein interaction)分析得出正常组与AS组中的关键DEGs有MMP9、ITGAX、CD163、CXCL10等基因,而早期AS组与进展期AS组的关键DEGs为TYROBP、FCGR2B、CSF1R、ITGB2。WGCNA分析发现AS组与正常组DEGs主要参与补体激活、体液免疫、蛋白激活、炎症调节、与吞噬作用相关的通路等,早期AS组与晚期AS组的差异基因主要参与补体激活,体液免疫,吞噬相关,血液微粒,肽聚糖、磷脂酸胆碱、铵离子等结合相关的生物学反应等。AS组与AS旁的正常对照组对比,初始B细胞、CD8 T细胞、调节T细胞(Tregs)、活化自然杀伤细胞、单核细胞、静息树突状细胞表达丰度下降,记忆B细胞、活化CD4记忆T细胞表达丰度上升(P<0.05)。进展期与早期相比,初始B细胞、初始CD4 T细胞、调节T细胞(Tregs)、单核细胞所占比例下降,记忆B细胞、M2型巨噬细胞占比上升(P<0.05)。结论:相对于正常组织,动脉粥样硬化形成主要与MMP9、ITGAX、CD163等基因相关,主要有补体激活经典途径、循环免疫球蛋白介导的体液免疫应答等生物学过程参与。相对于动脉粥样硬化早期,进展期的差异基因主要为TYROBP、FCGR2B、CSF1R、ITGB2,主要参与白细胞迁移,炎症反应的调节,免疫效应过程调节,细胞因子产生的正调控以及受体介导的内吞作用等生物学过程。与正常组相比,AS组中记忆B细胞、活化CD4记忆T细胞表达比例上升;而相比于早期AS,在AS进展期,记忆B细胞与M2型巨噬细胞占比上升。

基于循证医学和生物信息学的有氧运动干预2型糖尿病的疗效评价与潜在作用机制研究

这是一篇关于有氧运动,2型糖尿病,疗效,潜在作用机制,循证医学,生物信息学的论文, 主要内容为目的:通过文献计量学和可视化分析的方法梳理有氧运动干预T2DM的研究现状、研究热点及前沿动态;系统评价有氧运动干预T2DM的临床疗效;采用文本挖掘和生物信息学方法筛选有氧运动干预T2DM有效作用靶点、信号通路和构建mi RNA-m RNA调控网络,预测有氧运动干预T2DM的潜在作用机制。方法:1.检索近20年来有氧运动干预T2DM的相关文献,将文献导入VOSviewer1.6.19和Cite Space V软件,对文献年发文量、作者、国家/地区、机构、学科领域、文献共被引和关键词等进行文献计量和可视化分析。2.检索国内外数据库,搜集有氧运动干预T2DM的RCTs,对符合纳入标准的临床研究进行质量评价和提取数据资料后,采用Rev Man 5.3和Stata 17.0进行统计分析,评价有氧运动干预T2DM的临床疗效。3.检索国内外数据库,搜集包含有氧运动干预T2DM靶点的相关文献,筛选有氧运动干预T2DM的相关作用靶点并与Gene Cards数据库和Dis Ge NET数据库取交集得到人源性有效作用靶点。然后,将人源性有效作用靶点上传到STRING数据库构建PPI网络并筛选核心作用靶点,使用DAVID数据库进行GO和KEGG功能富集分析。最后,预测上述核心作用靶点的上游mi RNA并构建mi RNA-m RNA调控网络,探讨有氧运动干预T2DM的潜在作用机制。结果:1.文献计量学共纳入中文文献833篇,英文文献4039篇。国内外有氧运动干预T2DM年发文量均呈上升趋势,但国内年发文量均不足国外发文量的五分之一。从发文作者来看,国内以刘霞、孙朋、肖国强和陈祥和为代表的团队发文量较高,国外以Khunti,Kamlesh、Riddell,Michael C、Blair,Steven N和Sigal,Ronald J为代表的团队发文量较高。发文机构主要以大学为主,比如国外的哥本哈根大学和悉尼大学、国内的扬州大学和上海体育学院,除此之外还有一些医院和研究机构等。从发文国家/地区来看,美国的文章数量最多,远高于其他国家,中国和日本是为数不多但极具生产力的亚洲国家。国内外高频关键词主要包括:2型糖尿病、有氧运动、八段锦、胰岛素抵抗、氧化应激、抑郁、高血压等。国内外突现关键词主要包括:生活质量、糖脂代谢、自噬和炎症等。2.Meta分析最终纳入103篇文献,包括44篇英文文献和59篇中文文献。Meta分析结果显示,有氧运动可降低T2DM患者FBG(MD=-1.01,95%CI-1.18～-0.85,P<0.05)、2h PG(MD=-1.50,95%CI-1.91～-1.08,P<0.05)、Hb A1c(MD=-0.68,95%CI-0.82～-0.54,P<0.05)、TC(MD=-0.56,95%CI-0.68～-0.44,P<0.05)、TG(MD=-0.36,95%CI-0.44～-0.29,P<0.05)、LDL(MD=-0.37 95%CI-0.44～-0.29,P<0.05)、SBP(MD=-6.18,95%CI-7.76～-4.59,P<0.05)、DBP(MD=-3.18,95%CI-4.17～-2.19,P<0.05)、INS(SMD=-0.85,95%CI-1.06～-0.63,P<0.05)、HOMA-IR(MD=-1.07,95%CI-1.42～-0.73,P<0.05)、BMI(MD=-1.32,95%CI-1.67～-0.96,P<0.05)和WC(MD=-2.28,95%CI-4.31～-0.25,P<0.05),提高HDL(MD=0.12,95%CI 0.09～0.14,P<0.05)、SF-36PCS(MD=5.67,95%CI 3.81～7.52,P<0.05)和SF-36 MCS(MD=10.00,95%CI8.48～11.52,P<0.05),且差异具有统计学意义。网状Meta分析结果显示,有氧运动在改善T2DM患者血糖、血脂、血压、胰岛素抵抗和肥胖方面分别以网球(SUCRA=97.7)、足球(SUCRA=90.7)、八段锦(SUCRA=89.1)、易筋经(SUCRA=87.6)和太极柔力球(SUCRA=82.4)为最佳干预措施的概率最高。3.通过文本挖掘共得到240个靶点,与Dis Ge NET数据库和Gene Cards数据库取交集后得到191个人源性有效作用靶点。利用cyto Hubba插件自带的Betweenness、Closeness、Degree、EPC和MCC算法分别取得分前20的靶点,将五种算法得分前20的靶点取交集得到10个核心靶点,分别是AKT1、IL1B、IL6、TNF、VEGFA、IGF1、CASP3、TP53、PPARG、STAT3。有氧运动干预T2DM的作用靶点共富集到1094个GO条目和160条信号通路(P<0.05),这些BP主要涉及基因表达的正向调控、老化、凋亡过程的负调控、基因表达的负调控、RNA聚合酶II启动子转录的正向调控、炎症反应、细胞对脂多糖的反应、葡萄糖稳态、凋亡过程的正向调控、细胞对缺氧的反应、细胞对肿瘤坏死因子的反应、蛋白质磷酸化的正向调控和一氧化氮生物合成过程的正向调控等,信号通路主要有脂质与动脉粥样硬化、糖尿病并发症中的AGE-RAGE信号通路、胰岛素抵抗、脂肪细胞因子信号通路、HIF-1信号通路、TNF信号通路、AMPK信号通路、Fox O信号通路、II型糖尿病和胰岛素信号通路等。结论:1.有氧运动干预T2DM的研究层次逐渐深入,逐渐获得更多的认可和关注。研究热点主要包括有氧运动干预T2DM的运动方式、有氧运动干预T2DM的可能机制和T2DM相关并发症的研究,预测T2DM患者生活质量和干预机制相关研究可能成为未来一段时间内的研究热点。2.有氧运动可有效改善T2DM患者的血糖、血脂、血压、胰岛素水平、胰岛素抵抗程度、肥胖和生活质量。在改善T2DM患者血糖、血脂、血压、胰岛素抵抗和肥胖方面各具优劣,分别以网球、足球、八段锦、易筋经和太极柔力球更具优势。3.有氧运动干预T2DM具有多靶点、多通路的特点,其主要通过调控糖脂代谢、细胞凋亡、炎症反应、氧化应激等途径达到治疗目的。

基于DrSNP的SNP筛选策略的探索和实现

这是一篇关于人类基因组,SNP,数据库,筛选策略,生物信息学,基因结构,perl的论文, 主要内容为人类基因组计划的逐步完成使得研究基因组之间的个体差异成为可能,单核苷酸多态性(SNP)就是个体差异中最主要的一种。个体间SNP的差异影响了人们罹患疾病的不同风险和对药物的不同反应。因而研究SNP位点与疾病相关性对于多基因疾病的诊断和治疗有着重要的意义。基于此,实验室开发了一套利用生物芯片技术批量的检测大样本SNP基因型的流程。作为这个流程的重要环节,本文从生物信息学的角度设计了疾病相关的SNP数据库平台(DrSNP),并着重研究了SNP的筛选。在进行SNP与疾病的相关性研究中,涉及到大量的信息,其中包括SNP位点信息,病人样本信息和生物芯片实验的相关信息。在本文中,我们构建了DrSNP数据库平台来筛选、管理和分析这三部分数据,并完整提供了从SNP筛选到病人样本管理,再到生物芯片实验,最后获得实验的统计结果一系列功能。在一次完整地研究流程中,SNP的筛选作为流程的第一步往往对后续的芯片实验的成功与否起着至关重要的影响。针对SNP的筛选,本文从基因组结构的角度,提出了多种SNP筛选方法。同时,我们对这些方法的实现难度和优先级进行了评价。最终给出了筛选SNP的一般思路。 SNP的筛选是基于大量的基因组序列数据及其注释信息进行的。我们从NCBI Genebank、UCSC genome、dbSNP、dbTSS、peseudogene、Transfac等国际数据库或取了大量原始序列数据后,利用多种生物信息学方法在这些原始数据中挖掘二次信息,得到了详尽的全基因组编码基因启动子区的各种调控元件的信息。基于这些信息,我们构建了筛选相关的数据库。通过数据库结构优化,我们还实现了数据的自动更新以及模糊查询等功能。最后,在构建SNP筛选数据库的基础上,我们利用JSP技术实现了基于web的SNP查询系统。在这个过程中,我们设计了一个可以同时显示基因模型和SNP表单的页面结构。这个筛选页面可以实现从基因、基因家族、染色体等多个层面上的SNP的检索和筛选。同时它还作为一个有效的框架,可以为今后的其它SNP筛选策略的实现提供基础。

生物信息学工具知识图谱构建和新实体嵌入生成

这是一篇关于生物信息学,知识图谱,知识表示,图神经网络,注意力机制的论文, 主要内容为生物信息学是当今生命科学和自然科学的前沿领域,其主要研究内容之一为开发或设计一系列相关工具,以更有效地获取、分析和管理各种生物数据,为相关科研人员提供便捷的数据信息渠道。近年来,随着该领域的快速发展,生物信息学领域的优秀工具不断涌现。与此同时,生物信息学细分领域众多,产生的相关工具种类繁杂,对学习和使用工具造成了一定难度。知识图谱可以帮助人们解决上述问题。谷歌率先提出知识图谱的相关概念,用以辅助数据的存储、分析、决策等,现已广泛应用于不同领域。然而,在生物信息学领域,尚未有针对生物信息学工具的知识图谱出现。通过构建生物信息学工具知识图谱,能够沉淀更多的专业领域知识,帮助搜索和推荐,以及辅助实现更精准的问答系统,具有很强的实用价值。为了进行知识推理和知识挖掘等下游任务,需要先将知识图谱表示成嵌入表示。生物信息学相关工具软件的开发速度很快,意味着所构建的知识图谱需要持续迭代更新,新的实体会不断涌现,因此如何在下游任务中对新实体进行有效表示是知识图谱应用的难点之一。本文利用知识图谱的相关技术,设计和构建了生物信息学工具知识图谱,并针对出现的新实体提出了一种新实体嵌入式生成表示方法NEEGAT,论文的具体工作包括:(1)知识图谱构建及可视化针对生物信息学工具构建领域知识图谱。首先,使用selenium和Scrapy等自动化技术和爬虫技术,获取了工具、作者、工具所属领域、论文、期刊、关键词、引用等信息,进行对齐、筛选、清洗、去重和降噪。其次,将数据进行拆解,形成三元组。最后,引入图数据库,实现知识图谱的可视化,最终形成了一个拥有近四万实体、二十万三元组的庞大的知识图谱。(2)提出了一种基于图注意力网络的新实体嵌入表示算法针对动态更新的知识图谱不断涌现的新实体,为了避免重新训练整个知识图谱,提出了一种基于图注意力网络的新实体嵌入表示算法NEEGAT。算法使用Trans E进行预训练,获取工具图谱的三元组的整体语义信息,利用逻辑注意力将知识图谱以外部知识的方式引入,使用多头图注意力网络进一步整合邻居节点间多种维度的链接关系。此外,基于所构建的知识图谱构建了Bio Tools数据集,并针对链接预测和三元组分类两种下游任务进行采样生成实验数据集,以对本文方法进行检验。实验结果表明,在链接预测任务和三元组分类任务上,本文提出的NEEGAT方法和对比方法相比,在整体上均取得了最佳表现,说明了该算法能更好地解决知识图谱的新实体嵌入生成问题。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：源码导航，原文地址：https://m.bishedaima.com/lunwen/47246.html