面向生物医学文本及图谱的知识挖掘与知识发现
这是一篇关于生物信息学,知识图谱,深度学习,事件挖掘,图卷积,关联预测,自训练的论文, 主要内容为随着生物医学的相关研究迅速发展,大量的领域数据及知识被发现与记录。构造生物信息知识图谱能够有效组织丰富多样的领域知识,从而进行信息检索、数据挖掘与知识发现,为生物学、病理学和药理学提供支持。生物知识图谱的构建过程需要知识提取、知识表示,知识融合以及知识发现等步骤。本文研究这一系列技术步骤中的两个关键问题,分别是面向生物医学文献的信息提取,和面向基因-疾病网络的关联预测,针对这些问题给出了专用的机器学习模型。本文完成的主要工作有:(1)为提取生物医学文献中的事件,提出一种基于混合神经网络的新型组合策略。海量的生物医学以献以非结构化的文本格式记录了大量知识,而事件是一种描述这些知识的有效结构。本文使用了混合深度神经网络模型提取事件相关信息,以消除对人工特征工程的依赖;并使用了一种组合策略作为后处理过程,来改善提取过程中的误差积累。在多个BioNLP公开事件数据集上的实验结果表面本方法的取得了良好的性能表现。(2)为预测基因-疾病关联,给出一个基于关联知识图谱的图卷积模型。众多的数据库记录了的大量的基因和疾病的关联信息,将其组织为知识图谱可以挖掘其中的隐藏知识。本研究使用基于图卷积网络的方法预测其中未知基因-疾病关联,描述了一种邻接矩阵Dropout技术并定义了一个新型的聚簇损失函数,用来增强模型的泛化能力。在DisGeNet数据集上的实验说明了本方法的预测性能达到了已有工作的最佳水平。(3)为解决文献挖掘和关联预测中标注数据不足的问题,给出了基于自训练的半监督学习方法。生物医学数据普遍存在的标记样本数量不足的问题,使得监督学习性能受限。本研究在文本挖掘和基因-疾病关联预测任务上应用了自训练方法,借助已有的标注数据和大量的无标注数据,按照预测结果可信度指标筛选样本,用来扩充标注数据集并迭代训练。对比实验的结果证明了原始模型加入自训练后取得了积极的作用。
面向留言话题分类的算法研究与实现
这是一篇关于文本分类,不确定性,主动学习,自训练,元数据的论文, 主要内容为随着互联网技术的蓬勃发展,通过留言板、投诉平台等网站表达诉求成为一种用户向机构或组织反馈问题的常见方式。留言话题分析系统的基本功能是将留言分类到已知的标签体系中的具体类别下,从而方便工作人员对留言进行归纳整理。随着深度学习以及自然语言处理技术的发展,深度学习的文本分类器被广泛应用。除此之外,在留言话题分类系统中,随着用户留言行为的进行,留言不断增加,数据分布不断改变,需要使用大量的、有人工标注的数据定期更新留言话题分类器。然而,留言系统中每日新增的留言数量是巨大的,随机地从无标签样本池中选择样本进行人工标注是低效的、耗费人力的。因此对于留言系统的算法研究,本文不仅设计并实现了准确性高的留言话题分类模型用于留言的话题分类,而且对于分类器更新过程中的标注成本问题,基于主动学习和自训练范式,研究并实现了一种基于不确定性感知扰动的主动自训练框架。本文的主要工作如下:(1)本文针对留言数据的特点,提出了基于元数据的预训练词嵌入方法,将元数据与词的向量表示统一到同一空间,优化了嵌入表示,提出了基于Transformer的留言分类模型,优化了留言话题分类的准确性。(2)本文对于模型更新过程中的标注代价问题,提出了基于不确定性感知扰动的主动自训练框架,结合了主动学习和自训练学习范式,并提出了基于不确定性感知的扰动方法促进文本分类器在人工标注有限情况下对于类别边界的学习。本文在4个公开数据集以及留言数据集上,验证了该算法在低标注量场景下可以有效提高模型的准确性,从而降低标注需求。(3)本文设计并实现了一个面向留言话题分类的原型系统,应用所提出的两个算法,为留言用户、留言标注员和留言管理员提供了留言反馈、留言标注、留言管理的功能。
一种鲁棒性的跨场景目标检测方法
这是一篇关于目标检测,领域自适应,自训练,贝叶斯神经网络的论文, 主要内容为目标检测是计算机视觉领域常见的热门问题,随着深度神经网络的崛起,许多大型卷积神经网络如ALex Net、Faster R-CNN和YOLO等相继出现,使得基于大量标注数据的目标检测器性能有了巨大的提升。然而,在实际应用中,由于不同场景(领域)间存在分布差异,在新的不可见领域中部署一个预先训练好的目标检测器仍然是一个较大的挑战。当前,很多研究致力于跨域目标检测这个领域,旨在解决如何将预先训练好的目标检测器推广到一个没有标签的新目标域上这一问题。目前,常见的基于对抗的跨域目标检测方法只能试图使得两个不同域在输入上的边缘分布保持一致,而无法让两个不同域在输入和输出上的联合分布保持一致。而另一常见的使用自训练生成伪标签的跨域目标检测方法,虽然能够试图使得两个域在输入和输出上的联合分布保持一致,但又面临伪标签选择困难这一瓶颈。本文提出了一种鲁棒性的跨场景目标检测方法——基于不确定性引导的跨域目标检测自适应方法。所提方法主要考虑到以下两点:(1)对于一个具有鲁棒性的领域自适应方法来说,在新数据域中估计和利用模型的不确定性至关重要;(2)对不同数据域输入(特征对齐)和输出(模型自训练)的分布进行联合对齐不可或缺。首先,为了对模型的分类和回归分支进行不确定性预测,本文搭建了一个基于贝叶斯深度神经网络的目标检测不确定性估计框架。其次,为了选择可靠的预测结果作为目标域的伪标签,本文提出了一种不确定性感知伪标签选择算法。同时,为了增强模型在特征对齐的过程中的鲁棒性,本文提出了基于不确定性的特征对齐方法。最终,本文构造出了一种新的训练模式,即对带伪标签的目标检测模型同时进行特征对齐和自训练。最后,本文基于四种不同的跨场景评估基准对不同的跨域目标检测方法进行了实验对比和性能分析。实验结果表明本文提出的方法相较于已有的方法取得了最优的目标检测性能。
光伏阵列故障在线监测系统研究
这是一篇关于光伏阵列,故障诊断,监测系统,支持向量机,自训练的论文, 主要内容为在国家政策的扶持下,光伏发电成为了我国开发利用可再生能源的主要方式之一。受环境因素影响,光伏阵列运行过程中会出现各种故障,影响光伏阵列的发电效率。对光伏阵列运行状态进行诊断,有助于提升光伏阵列的运行稳定性,保障光伏发电系统的工作效率。本文对光伏阵列典型故障进行了分析,基于机器学习方法进行了光伏阵列故障监测系统的相关研究。论文主要包含以下研究内容:(1)搭建光伏阵列故障仿真模型。在构建光伏阵列仿真模型的基础上,通过改变电阻阻值和光照强度大小,对光伏阵列短路、局部阴影和异常老化故障进行仿真模拟。分析了各种异常情况下光伏阵列的输出特性曲线,确定了故障诊断方法的电气和环境特征参数,并采集了故障仿真数据。(2)建立基于支持向量机的故障诊断方法。首先,为了提高支持向量机的故障诊断精度,利用贝叶斯优化算法对支持向量机参数进行优化;然后,通过自训练学习方法对优化后的支持向量机进行改进,提出了基于BOSVMST(Bayesian Optimization Support Vector Machine Self-Training)的故障诊断模型。最后,将随机森林(Random forest,RF)、梯度提升回归树(Gradient Boost Regression Tree,GBRT)模型与BOSVMST模型进行联合,提出了基于RF-BOSVMST和GBRT-BOSVMST的联合故障诊断方法,解决监测系统难以直接测量故障特征参数开路电压数值的问题。(3)组建光伏阵列监测系统。针对光伏阵列运行过程中遭遇典型故障时,需要进行实时在线诊断的问题,本文设计了一种光伏阵列故障在线监测系统。其由远程数据采集,上位机数据管理,在线数据诊断三个模块构成。远程数据采集模块以单片机为核心,采集光伏阵列的温度、直流侧电流、电压和环境辐照度,通过Lo Ra无线通信模块,将光伏阵列运行数据发送至远程上位机。上位机数据管理模块采用MySQL数据库,对光伏阵列运行数据进行存储,结合Lab VIEW进行数据可视化管理。在线数据诊断模块利用Py Charm作为开发平台,设计了数据诊断程序,程序可对实时数据进行诊断。(4)通过仿真样本和光伏阵列硬件实验平台模拟典型故障所采集的实验样本,将RF-BOSVMST、GBRT-BOSVMST与SVM、SVMST、BOSVM、BOSVMST算法进行了对比实验;利用混合仿真、实验样本的数据集比较了RF–BOSVMST、GBRT-BOSVMST和标签传播算法的诊断精度。以上三种实验结果表明,在无法测得开路电压的情况下,GBRT-BOSVMST算法具有较好的准确率和较短的诊断时间,可以应用于光伏阵列的在线诊断。最后,将该算法应用于自主搭建的光伏阵列故障在线监测系统,完成了对光伏阵列运行状态的监测实验,实验验证了光伏阵列在线监测系统识别光伏阵列典型故障的可行性。
基于置信度的可信图神经网络研究
这是一篇关于图神经网络,可信性,置信度,自训练,长尾分布的论文, 主要内容为近几年来,随着深度学习技术的深入发展,适用于图这种特殊数据结构表示学习方法——图神经网络(Graph Neural Network,GNN)受到了广泛关注。实验表明,图神经网络已经在多种图相关的任务与场景中取得了卓越的成果,包括社交网络分析,交通流量预测,生物医药,推荐系统,计算机视觉等。尽管图神经网络预测性能卓越,但其预测结果是否可信仍有待探索,尤其是当图神经网络涉及到风险敏感场景时,模型的可信性成为一个更加迫切的需求。迄今为止,对可信性的定义仍未形成共识,但深度学习领域的诸多研究,如对模型的鲁棒性、可解释性、分布外泛化性等研究均被认为属于可信性的范畴。在此之中,有一种思想从置信度的角度出发,认为可信的模型应该具有恰当的自我认知能力,能够清楚其预测能力的边界,并通过可信的置信度表现出。换句话说,整体而言,可信模型应该能够对其正确的预测给出较高的置信度,对其错误的预测给出较低的置信度,即模型对预测结果的置信度与其预测准确率一致。先前的研究表明,许多神经网络对预测过于自信,即预测结果的平均置信度高于其平均预测准确率,其置信度是不可信的。然而,还未有研究基于置信度探究图神经网络的可信性,因此本研究旨在弥补该研究空白,从置信度出发,从多种角度探究图神经网络模型与基于图神经网络的学习方法的可信性。本研究首先探究了朴素图神经网络模型的置信度与其预测准确率是否一致,探究结果指出图神经网络模型的置信度是不可信的,这与对传统神经网络模型的实验结果一致。但是本研究额外发现,图神经网络预测结果的平均置信度低于其平均预测准确率,这说明图神经网络是欠自信的,这与传统神经网络模型表现截然相反。进而,本研究设计了拓扑感知的后处理置信度校正函数,以改进置信度的可信性。该校正函数以图卷积神经网络作为骨干模型,并融合了温度缩放方法,以保证置信度校正后图神经网络模型的预测性能不会发生改变,从而得到一种新颖的可信赖图神经网络模型CaGCN,最后本研究通过大量实验验证了 CaGCN在提升置信度可信性方面的有效性。受启发于对图神经网络的置信度不可信的发现,本研究继续探究了置信度在基于图神经网络的学习方法——图自训练学习中的可信性。探究结果表明在图自训练过程引入过多的高置信度伪标签节点并不会为模型带来太多性能增益,而且还会为数据集引入分布迁移问题,本研究因此得出图自训练学习中置信度是不可信的结论。基于此,本研究提出了新型的图自训练学习框架DR-GST,其基于信息增益的损失函数可以消除分布迁移的负面影响,并继续增加了损失修正策略以提升伪标签的正确率,最后本研究通过实验和理论证明了 DR-GST的合理性和有效性。此外,由于受到噪音和隐私保护的负面影响,可信的图神经网络模型并不一定能够获得可信的预测结果,因此本研究进而从置信度的角度出发探究如何提升图神经网络的输入——图数据的可信性。考虑到消息传递机制对图神经网络的决定性作用,本研究从图数据中对消息传递机制最有可能产生负面影响的因子,节点的度入手,探究在度呈现长尾分布的图中如何获得可信的图拓扑。本研究提出了置信度引导的可信拓扑生成方案TNTG,其能够在富含信息的头节点的指导下为信息较少的尾节点生成图拓扑。本研究最后证明了提出的TNTG在改进图神经网络在节点分类尤其是尾节点分类方面的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://m.bishedaima.com/lunwen/54698.html