基于深度学习的远程监督关系抽取研究及应用
这是一篇关于远程监督关系抽取,降噪,长尾问题,注意力机制,知识图谱的论文, 主要内容为关系抽取作为自然语言处理的基础任务和信息抽取的重要任务之一,其目的是从自然语言文本中抽取出实体之间的语义关系并将结果以结构化的形式输出,以支持知识图谱、问答系统等下游应用。随着深度学习的发展,基于有监督学习的关系抽取模型虽然已经能够取得令人满意的抽取结果,但其高度依赖于大规模和高质量的人工标注数据,需要耗费大量的人力和时间成本。远程监督通过大型知识库对齐语料库来进行大规模数据的自动标注,减轻了人工标注的负担,为关系抽取的相关研究提供了有力的支持。然而,远程监督方法的提出伴随了强约束性假设,导致数据集中不可避免地存在着严重的错误标注问题,并且数据呈现极端的长尾分布,使远程监督关系抽取任务仍面临不少挑战。本文基于深度学习方法,围绕噪声问题和长尾问题对远程监督关系抽取展开了研究,主要的研究内容及创新工作如下:(1)基于多实例学习框架的远程监督关系抽取方法虽然有效缓解了噪声数据对于句包级别关系抽取模型的影响,但在句子级别的关系预测任务中却效果欠佳。因此,提出基于正负向联合学习的远程监督关系抽取方法。该方法采用负向学习和选择性正向学习相结合的训练方式进行句子级别关系抽取模型的训练,避免模型过拟合于噪声数据的同时加快模型对干净数据的收敛。然后根据标签置信度,通过噪声过滤和重新标注步骤实现数据重构,将噪声数据转化为可用的训练数据,提高数据集的质量,进而提升模型的性能。实验结果表明,所提方法在NYT数据集的验证集和测试集上的F1值以及噪声标注测试集上的F1值均优于对比方法,验证了所提方法能够有效减少标签噪声,提升模型的句子级别关系抽取能力。(2)针对长尾关系抽取问题,提出一种关系原型和实体类型增强的句子级别关系抽取模型。该模型利用原型思想,使用注意力机制通过原型嵌入对句子表示进行增强,同时引入实体类型信息,使不同关系的样本通过原型和实体类型建立隐式的联系,增强模型对长尾关系样本的表征能力。在此基础上,将关系标签之间的潜在语义依赖通过约束图进行显式建模,并借助图卷积神经网络促进信息在不同关系节点之间的传播,缓解长尾关系数据匮乏的问题,进一步提高模型的长尾关系抽取能力。在NYT数据集和Re-TACRED数据集上的对比实验和消融实验结果表明,在不同类型和不同比例的噪声环境下,所提模型在长尾关系上的表现均有所改善。(3)由于中文语言的复杂性和中文数据集的匮乏,目前针对中文关系抽取的研究尚不充分,仍有很大的提升空间。本文设计并实现了一个中文关系抽取开放系统,旨在为中文关系抽取的研究提供一定的参考,同时验证本文所提方法在中文文本中的适用性。该系统主要包括关系抽取、数据标注和知识图谱查询及可视化三个功能模块,通过远程监督方法对齐知识图谱来实现数据集的自动标注,并以此为基础完成关系抽取模型的训练。系统测试结果表明该系统具有一定的实用价值。综上所述,本文针对远程监督关系抽取中存在的噪声问题和长尾问题分别提出了解决措施和方法,有效缓解了噪声数据对句子级别关系抽取模型的影响,改善了模型在长尾关系上的表现,并基于所提方法设计并实现了一个中文关系抽取开放系统。
基于残差密集网络和U-Net的心电信号降噪技术研究
这是一篇关于心电信号,降噪,残差密集网络,U-Net,多尺度特征提取的论文, 主要内容为近年来我国心血管疾病发病率呈不断上升趋势,主要表现为复发率高、并发症多、死亡率高等特点,给家庭和社会带来了沉重负担。心电图(Electrocardiogram,ECG)能够提供心脏节律和功能的详细信息,为医生发现并跟踪疾病提供指导,从而保障患者的生命健康。然而穿戴式心电信号采集的过程中容易受到环境噪声干扰,影响波形的准确性。此外,现有的降噪方法无法有效去除心电信号中的多种噪声,可能导致重要波形信息的丢失。鉴于此,本文将采用残差密集网络、UNet等深度学习方法去除心电信号中的噪声。本文主要研究内容如下:(1)针对现有降噪方法无法有效地去除心电信号中的多种噪声和不能充分提取心电信号层级特征的问题,提出了一种基于多尺度残差密集网络的ECG信号降噪方法。该方法提出了一种由密集卷积网络和膨胀卷积构成的双分支残差密集块,实现了心电信号局部多尺度特征的自适应提取,且所有模块提取的局部多尺度特征能够自适应地融合并传递到后续双分支残差密集块中的所有卷积层,避免了大量的特征堆叠。然后,将所有双分支残差密集块提取的局部多尺度特征进行融合。最后,基于残差学习将浅层特征与多层级特征进行融合,从而实现了ECG信号的多尺度、多层次特征的提取,更好地保留了心电信号的波形特征。所提方法在MIT-BIH数据库上进行验证,实验表明该方法能够在实现心电信号降噪的同时有效保留心电信号的细节信息,且该方法的平均信噪比可达到35.28d B,较现有降噪方法有了显著提升。(2)提出了一种基于多尺度残差密集U-Net的ECG信号降噪方法。该方法将双分支残差密集块融入U-Net上采样与下采样过程,从而实现不同感受野下心电信号的多尺度特征提取。与多尺度残差密集网络相比,该方法参数数量小、模型训练速度快。其中,基于双分支残差密集块的下采样操作,通过缩小特征图的尺寸和增加模型隐藏层的特征维数,加快了模型的训练速度,实现了所有卷积层层次特征的利用效率和有效性之间的更好平衡。此外,通过跳跃连接将上采样还原的特征与对应的下采样特征融合并传递至双分支残差密集块,避免了下采样过程可能引起的信息丢失问题,从而能够捕获更精确的有关心电信号的上下文信息和细节信息。经过实验验证,利用多尺度残差密集U-Net方法降噪后的波形与干净信号的波形基本一致,该方法有效保留了ECG信号的重要波形信息,具有良好的降噪效果,在信噪比和均方根误差性能指标上都优于现有的降噪方法。
数据受限下的关系抽取研究
这是一篇关于关系抽取,远程监督,自然语言处理,降噪,小样本学习的论文, 主要内容为互联网技术发展日新月异,网络数据也增长迅速。面对海量的、形色各异的数据,人们疲于主动挖掘得到精细的有效信息。信息抽取旨在从非结构化文本中自动地提取出结构化的数据。其中一项关键技术便是关系抽取,它能够抽取一段文本中两个客观实体和其蕴含的关系事实,进一步组织为三元组形式的结构化知识,为知识图谱的构建和自动问答等下游任务提供了基础数据。关系抽取一般可分为两个子任务:实体识别和关系分类。实体识别是从文本中自动识别所有命名实体,关系分类是在指定任意两个实体后,预测这对实体对的语义关系。研究者一般将关系抽取视为一种特殊的文本分类任务进行处理,任务的输入是一段文本和指定的实体对,输出为实体对蕴含的关系,一般采用监督学习的范式训练模型。而监督学习,尤其在深度学习时代,对样本数据规模的要求非常高,人力时间成本极高的人工标注方案难以应付,数据受限成为制约关系抽取发展的挑战之一。针对关系抽取任务数据受限的问题,远程监督通过启发式将知识库中存在的事实三元组与大量非结构化文本进行对齐,实现了大规模的自动化标注,使模型能够利用充足的数据进行训练。然而,这种假设极强的方法不可避免地引入标注噪音。目前的降噪方法主要是对错误标注样本进行抑制或直接剔除,然而并未考虑到充分利用样本本身的有效语义。虽然远程监督在一定程度上能缓解数据匮乏的问题,但仍然有大量长尾的关系类别不具备足够的样本。并且客观世界是不断发展的,新出现的关系往往也只有极少数样本。而小样本学习范式致力于让模型基于少量的训练样本取得同等的泛化性能。然而现有的基于度量学习的方法存在着明显的局限性:一是模型未明显区分相同类内和不同类间的样本关联的差异性,导致样本交互不合理、不充分;二是由于语言具有多样性,少量样本具备的语言特征不明显,表达能力不充足,导致模型难以作出可靠的度量与分类。针对以上存在的问题,本文针对数据受限下的关系抽取任务展开了研究,主要工作有:从数据增广的角度,提出了一种基于强化学习和半监督学习的关系分类模型。该模型能够通过强化学习鉴别远程监督标注的带噪音数据集中的样本是否标注错误,把正确标注和错误标注的数据分别当作有标注数据和未标注数据,再通过半监督学习训练关系分类模型,以此达到修正错误标注数据,充分利用噪音的目的。从样本交互的角度,提出了一种多层交互的原型网络模型。该模型对相同关系类别内所有样本进行传递与聚合,得到融合了类内样本信息的原型表示。然后对不同关系类别的原型进行传递与聚合,捕获类间样本信息。通过多层迭代增强样本之间的交互,更深层次地学习到样本之间丰富的关联信息,从而提高模型性能。从外部知识引入的角度,提出了一种知识感知的原型网络,在原来的原型网络基础上,引入实体描述和关系描述等外部知识,关系描述一方面解释了属于该类关系的样本上下文所具备的语义,另一方面也说明了属于该类关系的实体对所具有的特有属性。利用关系描述同时提取样本上下文和实体描述中重要的信息,增加了样本特征信息量,提高了样本的表达能力,使其得到更可靠准确的度量和分类。本文围绕关系抽取任务面临数据受限的挑战延伸出来的相关问题展开研究,从不同的角度基于合理的研究动机提出改进模型,并在相应的数据集上进行严谨实验和分析比较,证明了所提模型的有效性。
基于深度学习的远程监督关系抽取研究及应用
这是一篇关于远程监督关系抽取,降噪,长尾问题,注意力机制,知识图谱的论文, 主要内容为关系抽取作为自然语言处理的基础任务和信息抽取的重要任务之一,其目的是从自然语言文本中抽取出实体之间的语义关系并将结果以结构化的形式输出,以支持知识图谱、问答系统等下游应用。随着深度学习的发展,基于有监督学习的关系抽取模型虽然已经能够取得令人满意的抽取结果,但其高度依赖于大规模和高质量的人工标注数据,需要耗费大量的人力和时间成本。远程监督通过大型知识库对齐语料库来进行大规模数据的自动标注,减轻了人工标注的负担,为关系抽取的相关研究提供了有力的支持。然而,远程监督方法的提出伴随了强约束性假设,导致数据集中不可避免地存在着严重的错误标注问题,并且数据呈现极端的长尾分布,使远程监督关系抽取任务仍面临不少挑战。本文基于深度学习方法,围绕噪声问题和长尾问题对远程监督关系抽取展开了研究,主要的研究内容及创新工作如下:(1)基于多实例学习框架的远程监督关系抽取方法虽然有效缓解了噪声数据对于句包级别关系抽取模型的影响,但在句子级别的关系预测任务中却效果欠佳。因此,提出基于正负向联合学习的远程监督关系抽取方法。该方法采用负向学习和选择性正向学习相结合的训练方式进行句子级别关系抽取模型的训练,避免模型过拟合于噪声数据的同时加快模型对干净数据的收敛。然后根据标签置信度,通过噪声过滤和重新标注步骤实现数据重构,将噪声数据转化为可用的训练数据,提高数据集的质量,进而提升模型的性能。实验结果表明,所提方法在NYT数据集的验证集和测试集上的F1值以及噪声标注测试集上的F1值均优于对比方法,验证了所提方法能够有效减少标签噪声,提升模型的句子级别关系抽取能力。(2)针对长尾关系抽取问题,提出一种关系原型和实体类型增强的句子级别关系抽取模型。该模型利用原型思想,使用注意力机制通过原型嵌入对句子表示进行增强,同时引入实体类型信息,使不同关系的样本通过原型和实体类型建立隐式的联系,增强模型对长尾关系样本的表征能力。在此基础上,将关系标签之间的潜在语义依赖通过约束图进行显式建模,并借助图卷积神经网络促进信息在不同关系节点之间的传播,缓解长尾关系数据匮乏的问题,进一步提高模型的长尾关系抽取能力。在NYT数据集和Re-TACRED数据集上的对比实验和消融实验结果表明,在不同类型和不同比例的噪声环境下,所提模型在长尾关系上的表现均有所改善。(3)由于中文语言的复杂性和中文数据集的匮乏,目前针对中文关系抽取的研究尚不充分,仍有很大的提升空间。本文设计并实现了一个中文关系抽取开放系统,旨在为中文关系抽取的研究提供一定的参考,同时验证本文所提方法在中文文本中的适用性。该系统主要包括关系抽取、数据标注和知识图谱查询及可视化三个功能模块,通过远程监督方法对齐知识图谱来实现数据集的自动标注,并以此为基础完成关系抽取模型的训练。系统测试结果表明该系统具有一定的实用价值。综上所述,本文针对远程监督关系抽取中存在的噪声问题和长尾问题分别提出了解决措施和方法,有效缓解了噪声数据对句子级别关系抽取模型的影响,改善了模型在长尾关系上的表现,并基于所提方法设计并实现了一个中文关系抽取开放系统。
基于深度学习的远程监督关系抽取研究及应用
这是一篇关于远程监督关系抽取,降噪,长尾问题,注意力机制,知识图谱的论文, 主要内容为关系抽取作为自然语言处理的基础任务和信息抽取的重要任务之一,其目的是从自然语言文本中抽取出实体之间的语义关系并将结果以结构化的形式输出,以支持知识图谱、问答系统等下游应用。随着深度学习的发展,基于有监督学习的关系抽取模型虽然已经能够取得令人满意的抽取结果,但其高度依赖于大规模和高质量的人工标注数据,需要耗费大量的人力和时间成本。远程监督通过大型知识库对齐语料库来进行大规模数据的自动标注,减轻了人工标注的负担,为关系抽取的相关研究提供了有力的支持。然而,远程监督方法的提出伴随了强约束性假设,导致数据集中不可避免地存在着严重的错误标注问题,并且数据呈现极端的长尾分布,使远程监督关系抽取任务仍面临不少挑战。本文基于深度学习方法,围绕噪声问题和长尾问题对远程监督关系抽取展开了研究,主要的研究内容及创新工作如下:(1)基于多实例学习框架的远程监督关系抽取方法虽然有效缓解了噪声数据对于句包级别关系抽取模型的影响,但在句子级别的关系预测任务中却效果欠佳。因此,提出基于正负向联合学习的远程监督关系抽取方法。该方法采用负向学习和选择性正向学习相结合的训练方式进行句子级别关系抽取模型的训练,避免模型过拟合于噪声数据的同时加快模型对干净数据的收敛。然后根据标签置信度,通过噪声过滤和重新标注步骤实现数据重构,将噪声数据转化为可用的训练数据,提高数据集的质量,进而提升模型的性能。实验结果表明,所提方法在NYT数据集的验证集和测试集上的F1值以及噪声标注测试集上的F1值均优于对比方法,验证了所提方法能够有效减少标签噪声,提升模型的句子级别关系抽取能力。(2)针对长尾关系抽取问题,提出一种关系原型和实体类型增强的句子级别关系抽取模型。该模型利用原型思想,使用注意力机制通过原型嵌入对句子表示进行增强,同时引入实体类型信息,使不同关系的样本通过原型和实体类型建立隐式的联系,增强模型对长尾关系样本的表征能力。在此基础上,将关系标签之间的潜在语义依赖通过约束图进行显式建模,并借助图卷积神经网络促进信息在不同关系节点之间的传播,缓解长尾关系数据匮乏的问题,进一步提高模型的长尾关系抽取能力。在NYT数据集和Re-TACRED数据集上的对比实验和消融实验结果表明,在不同类型和不同比例的噪声环境下,所提模型在长尾关系上的表现均有所改善。(3)由于中文语言的复杂性和中文数据集的匮乏,目前针对中文关系抽取的研究尚不充分,仍有很大的提升空间。本文设计并实现了一个中文关系抽取开放系统,旨在为中文关系抽取的研究提供一定的参考,同时验证本文所提方法在中文文本中的适用性。该系统主要包括关系抽取、数据标注和知识图谱查询及可视化三个功能模块,通过远程监督方法对齐知识图谱来实现数据集的自动标注,并以此为基础完成关系抽取模型的训练。系统测试结果表明该系统具有一定的实用价值。综上所述,本文针对远程监督关系抽取中存在的噪声问题和长尾问题分别提出了解决措施和方法,有效缓解了噪声数据对句子级别关系抽取模型的影响,改善了模型在长尾关系上的表现,并基于所提方法设计并实现了一个中文关系抽取开放系统。
基于超声波法的开关柜局部放电检测技术研究
这是一篇关于局放超声波信号,降噪,特征提取,核主成分分析,概率神经网络的论文, 主要内容为开关柜是电力系统中继电保护和潮流控制的重要设备,其中10k V和35k V的高压开关柜应用广泛,其安全稳定运行对保障电力系统供电可靠性至关重要。局部放电(简称:局放)是绝缘介质未形成贯穿性放电之前的一种放电形式,它即是开关柜绝缘劣化的表征,也是加速绝缘劣化的因素。通过检测开关柜的局放信息可以为运维人员和用户提供绝缘劣化的参考依据,进而及时发现安全隐患,预防开关柜事故,保障电力系统的安全可靠性。本文根据开关柜中局部放电所引起的超声波信号特征,设计了开关柜局放超声波检测仪,包括局放超声波信号的硬件采集系统以及PC端的局放数据分析软件系统。文章研究了开关柜产生局放的诱因及特征,通过仿真建立局放超声波的数学模型,基于该模型研究了局放超声波信号的降噪算法和模式识别算法,并设计了基于ARM内核的超声波局放采集电路和应用于PC端的局放超声波数据分析系统PD_Check。本文首先介绍了设计生产、运输安装、运行环境及绝缘介质老化四个引发开关柜局放的因素,分析了开关柜中的沿面放电、气隙放电、尖端放电三种局放信号的不同特征,介绍了局放超声波信号的产生、传播途径及传播过程中的衰减变化;然后运用数据拟合方法建立局放超声波数学模型,介绍了基于IEC60270标准建立的局放源数学模型,在此分析基础上选用新型的多阶高斯数学模型作为拟合函数,运用MATLAB数据拟合工具箱cftool确定了局放拟合函数的参数,结合开关柜中超声波的传播衰减函数以及现场噪音仿真函数建立了局放超声波观测信号模型;其次文章提出了自适应LMS—小波软阈值的降噪算法并研究了局放超声波信号特征提取及模式识别算法,对降噪后的局放超声波信号提取了信号的时域波形特征和小波包系数特征作为特征量并运用核主成分分析法(KPCA)进行特征量降维,通过概率神经网络(PNN)实现了局放的模式识别,识别效果良好;最后文章设计了基于ARM内核的硬件电路以及局放超声波信号分析系统PD_Check。硬件电路包括ARM内核开发板设计、超声波传感器和运算放大器选型、无线数据传输模块设计。通过硬件电路实现了对局放超声波信号采集,并且运用无线数据传输模块实现了对数据的传输及控制显示;PD_Check系统包括超声波信号的降噪及宏特征算法,实现对局放超声波信号降噪处理及特征分析。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://m.bishedaima.com/lunwen/54189.html