分享5篇关于数据扩充的计算机专业论文

今天分享的是关于数据扩充的5篇计算机毕业论文范文, 如果你的论文涉及到数据扩充等主题,本文能够帮助到你

基于强化学习和自监督学习的多生物医学事件抽取研究

这是一篇关于生物医学事件抽取,强化学习,生物医学文本建模,自监督学习,数据扩充的论文, 主要内容为生物医学事件抽取旨在从生物医学文本中抽取出细粒度分子水平的交互过程,并将抽取结果以结构化的方式表示出来,进而可以帮助相关领域知识库和知识图谱的构建。尽管根据不同策略,国内外学者提出了多种生物医学事件抽取方法,但是由于生物医学领域的特殊性,已有方法的效果并不理想。首先,生物医学文本中通常包含大量的领域专有名词和缩写,导致相关的文本表示学习十分困难。其次,在生物医学文本中,一个句子里包含多个事件是一种常见的现象,而且这些事件之间往往会有一定的语义关联,传统方法大都无法有效地抽取这类事件。最后,对生物医学文本进行标注需要标注者具有一定的领域知识,而且耗时费力,导致有标签生物医学文本的规模十分有限,对事件抽取模型的训练造成了很大的阻碍。鉴于此,本文将强化学习和自监督学习的相关理论应用于生物医学多事件抽取任务。具体地,本文的主要工作如下:(1)针对句子中存在多个事件的问题,本文提出了一个基于强化学习的多生物医学事件抽取模型。在该模型中,事件触发词识别和事件元素检测分别被视为主任务和附属任务。在主任务中,触发词的事件类型识别被设置为强化学习框架中的“行动”,而相应附属任务中的事件元素检测结果被用来计算当前“行动”的“奖励”。同时,已抽取的事件还被建模为“环境”的一部分,以帮助后续的事件抽取任务。此外,为了在一定程度上解决生物医学文本建模的问题,该模型中还引入了外部生物医学知识库,用于改善生物医学文本的词表示学习。在两个典型的生物医学事件抽取数据集MLEE和GE13上的实验结果证明了该方法的有效性。(2)针对生物医学领域有标签数据稀缺的问题,本文提出了基于自监督学习的多生物医学事件抽取模型。在该模型中,利用自监督学习方法设计了五种数据扩充策略,并通过预训练的方式改善生物医学文本表示,一定程度上缓解了有标签数据稀缺的问题。此外,通过改进强化学习框架中采取“行动”的策略,减小了模型的选择空间,降低了由事件类别不平衡对模型事件抽取性能的影响。在两个常用的生物医学事件抽取数据集MLEE和GE13上的实验结果证明了所提出方法的有效性。

基于深度学习的电力设备红外图像智能检测算法研究

这是一篇关于电力设备红外图像,数据扩充,低照度图像增强,目标检测的论文, 主要内容为复杂环境下长期运行的电力设备可能会导致设备本体温度升高引发设备故障,异常发热现象是运行中的设备故障的经典表现之一,实现电力设备异常发热状态的检测和处理,对于维护系统安全运行、发现和应对潜在事故是十分必要和重要的。红外图像检测是一种有效的电力设备异常发热检测的方法,本文以电力设备红外图像为基础数据,从图像数据扩充、低照度图像增强和目标检测三个方面讨论电力设备红外图像智能化检测问题。(1)图像数据扩充方面,提出一种基于有监督单样本电力设备红外图像组合扩充方法,组合扩充是关键内容。在单样本扩充上,针对传统单样本扩充方法会使扩充后的图像存在大量冗余信息和相似特征,导致训练发生过闭合的问题,本文基于有监督单样本扩充方法中的翻转、随机裁剪、缩放、对比度和加噪五种方法展开对比实验并进行分析。实验表明,双重组合扩充方法的效果优于任何单一扩充方法,且在三种组合扩充方法中对比度+翻转和对比度+加噪是效果最好的组合扩充方法。(2)低照度图像增强方面,提出一种基于改进Retinex-Net的电力设备低照度红外图像增强方法,包括Retinex-Net的改进和超像素分割、重构两个关键内容。1)在网络改进上,针对原始红外图像亮度低、目标细节不清晰、传统增强方法无法自适应调整不同亮度区域的问题,通过改进网络平滑损失函数,并添加自适应亮度校正和分量融合模块,提出基于改进Retinex-Net的电力设备低照度红外图像的初步增强;2)在超像素分割及重构方面,针对初步增强后图像前景与背景对比度不明显的问题,引入超像素分割和重构的方法,首先采用最大相似度区域合并算法(maximal similarity based region merging,MSRM)和能量驱动采样超像素提取法(Super-pixels Extracted via Energy-Driven Sampling,SEEDS)的超像素分割方法提取初步增强的红外图像中的感兴趣目标,然后再通过混合式引导滤波的多尺度红外图像融合方法对提取的目标图像进行重构得到最终的增强图像。实验表明,所提增强方法在提高图像亮度的同时不会引起颜色产生明显的偏移和畸变、较清晰的保留了图像细节,提升图像的综合质量,而且有助于提高目标检测模型的精度。(3)目标检测方面,提出一种基于迁移学习的改进YOLO xs电力设备红外图像目标检测方法,检测网络改进是关键内容。针对传统YOLO xs网络虽然具有较小的模型,但检测精度偏低的问题,本文从迁移学习、特征提取和损失函数三方面着手提出相应的改进策略。实验表明,使用迁移学习可有效提高模型的学习速度;为特征融合层的尾部添加自适应空间特征融合模块(Adaptively Spatial Feature Fusion,ASFF),能够过滤无用信息而保留有用信息并进行整合,提高多尺度的特征融合能力;改进网络的置信度损失和定位损失函数,可进一步提高模型的检测精度和速度。

基于改进生成对抗网络的皮肤损伤数据扩充技术研究

这是一篇关于生成对抗网络,皮肤病变分类,数据扩充,深度学习的论文, 主要内容为图像分类与目标识别在深度学习医学影像领域中具有重要意义,然而在皮肤病变自动分类任务中,由于可用的带注释医学图像数量有限,训练出具有鲁棒性和泛化能力的模型变得具有挑战性。为了解决图像数据不足和神经网络过拟合的问题,本文结合传统数据扩充和深度学习方法中生成对抗网络技术,对皮肤损伤图像进行数据扩充。本文主要内容包括以下几个方面:(1)构建医学图像数据集。本文选用皮肤癌为研究对象,以医学图像数据集ISIC2018皮肤分类挑战赛公开数据集为基础,对各类皮肤损伤图像进行预处理操作,适当进行中心裁剪来完成数据集的制作。(2)选择数据扩充代表模型。本文采用传统增强、深度卷积生成对抗网络(DCGAN)、Wasserstein-GAN(WGAN)进行数据扩充对比实验,分析各网络模型的优缺点并结合本文应用场景,提出了一种改进型的DCGAN网络模型ECA-GAN。通过在DCGAN网络模型生成器中加入通道关注(ECA-Net)模块,更好地利用输入特征图的通道信息,提高生成图像的清晰度和真实感。训练过程中可以更加有效地减少网络的参数量,从而减少训练和推理的计算量,提高训练速度。此外,在DCGAN生成器和判别器中加入残差块并与原有模型中的反卷积块结合,来有效的缓解合成图像中所产生的棋盘格效应,提高图像生成质量。(3)数据的性质使我们能够用扩充后的图像直接进行对比。本文所提出的方法最终在残差网络(Res Net)中进行分类,实验结果表明ECA-GAN网络模型与原有的算法进行对比准确率达到99.5%,与没改进前以及无扩充时约提升了1%和15.4%。综上,本文以皮肤病变图像扩充为研究任务,设计的基于生成对抗网络模型有效的解决了数据不足问题,并在最终的医学分类上有效地提升了模型准确率。

基于网格标签的文本方面情感分析研究与应用

这是一篇关于方面情感分析,网格标签,维度压缩,旋转位置编码,互学习,数据扩充,token-word网格的论文, 主要内容为情感分析是围绕人们对诸如产品、服务、组织等实体的态度、观点、情绪的分析。文本情感分析即是情感分析以文本作为统一载体,目前文本情绪分析已经成长为自然语言处理中最活跃的研究领域之一。最近几年,在该方向又细分出了很多个方向,比如:文本方面情感分析、基于某种语言的情感分析、基于某个平台的情感分析、基于目标的情感分析、方面情感三元组提取等,情感分析在各个领域都有应用,比如生活服务、金融分析、社会管理、国家安全等。而本文研究的方面情感三元组提取的任务,其目的是从文本中识别出方面项、观点项和情感极性,并将它们组成一个三元组。这种任务对于理解用户的观点和需求非常有用,它可以更细粒度地分析文本中的情感信息;同时,这种任务也非常具有挑战性,需要同时处理多个子问题,如方面项、观点项和情感极性的识别、抽取和关联。本文主要针对的是方面情感分析中网格标签方案模型在多个子任务中错误传播的问题。为了提高模型识别的准确率和泛化性,本文做了以下研究工作:(1)针对网格标签方案标注合理性分析,本文提出一种更加优化的压缩标注策略,同时采用旋转位置编码,加强词对位置相关性。原网格标签标注方案在设计上存在维度冗余,用6个维度表示六种状态,但是由于分布位置的区别,在不同的分布区域可以采用相同的维度标识,于是就能压缩维度,但不同的位置的区分在原模型中没有学习到,所以本文采用旋转位置编码来学习词对位置的信息,该方法在压缩维度的情况下保证模型效果有略微提升。(2)针对模型的泛化能力差的问题,提出了一种互学习网格标签算法,同时提出了两种数据扩充方案。此方法的原理是通过将两个不同参数的网格标签模型关联起来,用相同的输入样本训练,在训练的过程中让两个模型互相学习,使用KL散度作为一部分loss训练,实验表明模型具有很好的效果,最后通过提出的两种数据扩充方案,来再一步验证了互学习方案的学习能力和泛化能力,同时该方法在数据量少、标签质量差的情况下也明显有效。(3)针对网格标签方案对细节的忽视,本文提出了一种token-word网格标签算法。首先,每个句子是由多个word构成,但是在经过BERT的tokenizer后,token与word并非一一对应,很多word会被拆分成多个token,在原网格标签方案中采用的是word级训练与预测,而本文使用的方法是先使用token级标注网络训练,再采用word级预测,该方法在逻辑上更合理,实验结果表现出更优的性能,证明该方法有效。

利用知识图谱进行网络表格列类别标注的数据扩充策略研究

这是一篇关于知识图谱,FastText模型,长短期记忆网络,表格列类型预测,数据扩充的论文, 主要内容为网络中包含着数以亿计的HTML表格,这些表格的主题横跨各个领域,包含着丰富的结构化信息,在信息检索、自动应答、扩充与更新知识图谱、数据挖掘和自然语言识别等领域发挥着着至关重要的作用。将表格应用于这些任务的前提是使机器能够理解表格的结构与内容,该问题通常被转换为表格与大型知识图谱之间的匹配,即使用知识图谱的本体结构对表格进行标注。该任务包括三项子任务:(1)表格内实体与知识图谱中实体的匹配;(2)表格中实体列与知识图谱类别的匹配;(3)表格中非实体列与知识图谱中属性的匹配。表格标注任务的挑战性主要来源于几个方面:网络中表格类型的多元化和尺寸的不固定;表格中的实体无法在知识图谱中找到与之对应的实体或是匹配到完全不相关的实体,即知识缺口的存在;表格上下文及内部信息的缺失;以及针对表格列类别标注任务的类别层级体系引起的评估困难。针对知识缺口及表格尺寸过小引起的预测困难,本文提出了基于外部数据集维基百科的数据扩充策略,然后基于扩充后的数据解决表格实体列类别的标注任务。在数据扩充的过程中,充分利用了语义信息,同时考虑到了实体在不同情境中可能存在的不同表现形式。扩充策略可以分为四个阶段:首先,从维基百科数据集中提取带有特定标签的表格和实体列表;然后,利用DBpedia Lexicalizations Dataset将目标列中对应实体链接至其可能的表现形式;第三步,基于字符串匹配初步筛选出可能的候选列;最后,使用考虑单词内部信息的Fast Text模型将候选列与目标列映射至向量空间,基于余弦相似度,选出超过特定阈值的相似列。在此基础上,本文引入了扩充后数据在维基百科数据集的先验信息,结合统计特征、字符分布和词向量特征,使用长短期记忆网络实现实体列的类别预测。为了评估该算法的有效性,本文使用表格标注任务中公开的两个黄金标准数据集T2Dv2和Limaye,对比列标注任务中三个经典模型Lookup-Vote、Col Net和T2K Match与本文提出基于数据扩充的预测模型的标注结果,从准确率、召回率和F1值等多个指标进行分析。同时从数据扩充和基于特征的类别预测两个子模块评估了本文所提出的算法的性能。实验表明,在知识缺口较小的T2Dv2数据集上,使用本文所提出的基于数据扩充的预测模型与基于知识图谱的类别预测结果十分接近;当存在较大的知识缺口时,如Limaye数据集,使用本文所提出的算法的预测结果显著优于基于知识图谱的预测结果。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕设港湾，原文地址：https://m.bishedaima.com/lunwen/54524.html