5篇关于数据不平衡的计算机毕业论文

今天分享的是关于数据不平衡的5篇计算机毕业论文范文, 如果你的论文涉及到数据不平衡等主题,本文能够帮助到你

基于深度学习的僵尸网络检测技术研究

这是一篇关于僵尸网络,僵尸网络检测,深度学习,时空特征,数据不平衡的论文, 主要内容为僵尸网络是僵尸主机(botmaster)远程控制的受感染主机集群。随着互联网的不断发展,以及物联网、智能终端、云平台、社交平台的发展,僵尸网络呈现出平台多样化、通信隐蔽、控制智能化的特点。除了包括基于端口扫描的技术和基于深度包检测技术等传统检测技术,近年来基于统计和基于网络行为的僵尸网络检测技术方面的研究日渐成熟。在基于统计和基于网络行为的研究中,研究人员使用多种特征建立可以识别僵尸网络的机器学习模型,并取得了很大进展。这些特征通常由研究人员在模型建立之前通过经验设定。在实验中发现这些检测模型具有较高的召回率。但是,也有一些缺点。首先,人工设计特征对研究者的专业知识有更高的要求。二是特定不变的特征也为攻击者提供了机会,攻击者可以有针对性地改变僵尸网络流量的特征,从而规避模型检测。僵尸网络形态和指挥控制机制正在逐渐进化增强,人工特征选择变得越来越困难。随着深度学习技术的飞速发展,神经网络、强化学习、知识图谱等方法正逐渐应用于僵尸网络检测领域。本文研究如何利用深度学习的方法提取有效的僵尸网络空间和时间二维特征以及如何处理多分类任务中数据集不平衡带来的F1值低的问题。本文的主要研究工作如下:1、介绍僵尸网络的特性以及危害,对以往研究文献进行分析和总结。详细介绍当前僵尸网络检测中涉及的技术及僵尸网络多分类任务中对不平衡数据集的处理方法;阐述特征提取和深度学习相关理论与技术,并对以往处理多分类数据集不平衡问题的方法进行对比研究。2、针对以往僵尸网络检测方法存在的泛化能力差,对特征依赖性强的问题,提出了基于时空残差网络的检测模型。用深层1DCNN和LSTM并行学习僵尸网络的空间和时间特征,并在层与层之间引入残差连接(shortcut connections),最终获得更高层次的特征表达。使用CTU-13数据集进行二分类和多分类任务,并使用异构数据集N-Ba Io T测试模型泛化性。3、针对现实中僵尸网络数据分布不平衡带来的多分类F1值低的问题,提出了结合G-SMOTE算法、多尺度一维卷积残差网络(Multi-scale One-dimension residual neural network,1DMs Res Net)的模型。该模型有效增加了对少数样本的学习,并且计算代价低。该实验使用了Bot-Io T数据集来检验模型对不平衡数据集的有效性。本文的创新之处如下:1、提出了一种新的僵尸网络检测模型,针对僵尸网络存在空间和时间二维特征,利用深层1DCNN和LSTM并行提取时空特征,然后用残差网络(Res Net)来解决网络退化问题。残差网络的捷径连接技术将融合的时空特征跨层传递,最终对输出的表征进行二分类和多分类。在多分类任务中,Res-1DCNN-LSTM模型在CTU-13和N-Ba Io T数据集上F1值比CNN和LSTM融合模型CNN-LSTM分别提高了0.63%和1.33%。2、提出了新的处理僵尸网络数据不平衡的模型。利用G-SMOTE过采样算法对少数样本进行过采样,然后用基于1DMs Res Net的模型对数据集进行Bot-Io T训练和测试。实验结果表明,在多分类任务中,G-SMOTE-1DMs Res Net模型的准确率比GRU模型提高了9.48%。

基于集成学习的水稻虫害预测研究

这是一篇关于水稻虫害预测,集成学习,麻雀搜索算法,数据不平衡的论文, 主要内容为水稻作为我国主要的粮食作物,为人们的日常生活提供了物质基础。然而在水稻的生长过程中极易受到各种病虫害的威胁,其中虫害是导致水稻减产和品质下降的重要因素之一。虫害预测可以帮助农业生产者及时发现虫害的发生趋势和发生程度,从而采取适当的农业措施,保障水稻的产量与质量。本文以安徽省安庆市部分地区的稻飞虱与稻纵卷叶螟虫害情况入手,进行了水稻虫害预测研究,具体的研究内容如下:(1)分析与处理虫害影响因素。综合文献分析,确定影响水稻虫害的相关因素,选取气象因素作为特征并通过灰色关联度分析确定其相关程度。针对地域特性,结合国标与安徽地方标准的虫害发生程度指标进行等级划分。深入分析数据情况,发现存在数据不平衡问题,采用了数据层面的自适应综合过采样算法(Adaptive Synthetic Sampling,ADASYN)来平衡训练集,同时保留测试集的原始分布,以提高对虫害发生中偏向于重大发生程度的预测关注度,提高预测精度。(2)构建Ada Boost-SSA-SVM虫害预测模型。采用麻雀搜索算法(Sparrow Search Algorithm,SSA)优化SVM模型的超参数,将优化后的SVM模型作为弱学习器,并结合Ada Boost算法进行集成学习,构建了Ada Boost-SSA-SVM虫害预测模型。在稻飞虱与稻纵卷叶螟两种虫害的发生程度预测中,准确率均超过90%以上,宏查全率均超过87%,具有较好的适用能力。在与随机森林、BP神经网络以及SSA-SVM等模型的对比中,准确率较其他模型最高提升了6%,宏查全率提升了24%,Marco-F1提升了14%。数据表现更为均衡,情况较为理想,泛化能力更强。(3)研发水稻虫害预测系统。为了提升用户对模型的使用体验,将水稻虫害预测模型与Vue、Spring Boot、My SQL等技术相结合,研发水稻虫害预测系统,提供用户虫害数据管理、气象数据管理、虫害预测等功能模块,最后对预测结果进行可视化的展示,提供虫害防治建议。

数据不平衡下的太阳能电池多尺度缺陷检测深度学习方法研究

这是一篇关于数据不平衡,太阳能电池,缺陷检测,卷积神经网络,目标检测的论文, 主要内容为太阳能光伏发电技术是我国绿色发展的重要动力,使用光致发光(Photoluminescence,PL)成像和电致发光(Electroluminescent,EL)成像技术对太阳能电池片进行缺陷检测是保证光伏产品质量的重要手段与关键技术。由于太阳能电池缺陷种类繁多、尺度不一、形态复杂等特点,传统机器视觉方法难以具备足够的准确性。近年来,随着人工智能技术的不断进步,基于深度学习的智能识别方法已经被广泛应用于太阳能电池缺陷检测中。然而,太阳能电池图像中的数据类别不平衡与局部缺陷尺度不平衡问题也同样给深度学习缺陷检测算法的准确性与泛化性带来挑战。因此,本文应用深度学习算法针对数据不平衡问题下的太阳能电池图像分类与局部缺陷区域检测方法展开研究。本文的主要研究内容与贡献如下:(1)在类别不平衡下,传统分类模型容易在学习过程中偏向多数类,将少数类样本错误预测为多数类,导致对多数类别样本预测的低精确率和对少数类别样本预测的低查全率。因此,针对太阳能电池图像数据集的类别不平衡问题,本文提出了一种基于深度类别表征与投票机制的图像分类算法V-Res Net。首先,通过重采样与训练方法,实现对样本的平衡采样与数据增强;随后,在本文改进的卷积神经网络(Convolutional Neural Network,CNN)结构CA-Res Net基础上,设计弱分类网络框架,来提高模型的类别表征能力与鲁棒性;最后,使用投票预测机制来获得最终预测结果,进一步提高分类精度。t-SNE可视化和对比实验结果表明,与传统方法相比,本文提出的算法具有更强的聚类能力与泛化能力,有效解决了电池片图像数据集类别不平衡导致的过拟合与性能不足问题,提高了算法的综合精度。最终,所提出的V-Res Net在太阳能电池PL图像数据集分类问题中达到了0.982的F1精度和98.04%的总体准确率,并通过在EL数据集中的应用证明了算法具有较强的通用性与泛化能力。(2)在尺度不平衡下,使用单一特征层进行预测的传统目标检测算法难以充分利用浅层的细节信息、位置信息与深层的全局信息、语义信息;容易导致其对多尺度缺陷,尤其是对小缺陷的检测精度不足。针对上述问题,本文提出了一种基于多层级特征融合的缺陷区域检测算法MLF R-CNN,以提高模型对太阳能电池多尺度缺陷检测的综合性能。该算法首先利用注意力机制与可变形卷积来增强主干CNN对缺陷的特征提取能力;进一步地,利用双向路径聚合网络来充分利用特征提取器中不同层级的特征图,通过特征融合来预测多尺度缺陷;同时,针对边界框定位精度不足问题,优化模型的回归损失;最后,使用在线困难样本挖掘OHEM方法加强模型对于易错样本、低精度样本的学习,缓解训练中存在的不平衡问题。实验结果表明,该算法实现了对太阳能电池多尺度局部缺陷的高精度边界框检测,尤其提高了对小缺陷的检测能力,在PL数据集9类缺陷检测中达到了78.4m AP的精度。并且,算法在检测过程中能够保持20FPS以上的推理速度,满足电池片检测速度要求。此外,MLF R-CNN在应用于EL数据集四类缺陷检测过程中,提升效果同样显著,精度达到89.3m AP,证明了算法具有较强的通用性和泛化性。

基于集成学习的水稻虫害预测研究

基于深度学习的集成电路光刻版图热点检测技术研究

这是一篇关于超大规模集成电路,光刻版图热点检测,深度学习,数据不平衡,胶囊网络,应用系统集成的论文, 主要内容为随着超大规模电路尺寸不断缩减,芯片制造受到光刻可印刷技术限制,即光源波长与电路特征尺寸不匹配会引起光刻版图热点(包括:边角圆化、线端缩短、线宽偏差),这些热点模式将影响电路电学特性。传统基于光刻仿真、模式匹配和机器学习的光刻版图热点检测方法仍存在一定的局限性:1)仿真模型的搭建耗时严重,且受限于专家经验;2)未知热点模式造成热点库不完整,导致热点召回率低;3)基于机器学习算法的检测方法泛化性能低,且不同类别下样本数量分布不平衡问题会降低少样本类别检测识别的可靠性。为解决上述问题,本文以集成电路生产中的光刻版图为研究对象,结合图像处理和深度学习理论方法,分别从数据增强、模型优化、系统集成等角度,开展集成电路光刻版图热点检测研究。本文的主要工作归纳如下:针对热点样本和无热点样本不同类别样本数量分布不平衡的问题,开展基于混合数据增强模型和改进Goog Le Net模型的数据平衡方法研究。其中,混合数据增强模型结合几何变换和改进的生成对抗网络生成高质量辅助样本,Goog Le Net模型通过缩减尺寸和拆分卷积核结构改进Inception模块,增加模型提取特征多样性,并压缩计算耗时,最终提高热点检测精度。针对空间特征信息难以提取而造成检测准确率低的问题,在原始胶囊网络的基础上,引入残差网络和注意力机制网络思想,开展基于卷积块注意力机制的残差胶囊网络(CBAM-Res Caps Net)的光刻版图空间特征提取研究。其中,卷积块注意力机制使网络专注于任务关键信息,解决信息过载问题;残差模块有效避免深层网络模型训练中存在的梯度消失问题;胶囊网络利用胶囊矢量代替传统深度学习模型的神经元,以增强检测系统对版图空间特征的敏感性。针对传统Java开发软件系统存在的开发任务不明确、开发周期长等问题,开展基于Vue和Spring Boot框架的光刻版图热点检测软件研发,实现光刻版图数据预处理、检测分析等功能。其中,软件前端采用Vue渐进式框架,并结合现代化工具链和丰富第三方库,提高前端开发效率;软件后端采用Spring Boot框架,能够简化开发配置和规范开发流程,有效压缩开发周期。本文通过实验分析验证所提方法的有效性。结果表明,混合数据增强方法能够有效扩充热点样本,当热点样本和无热点样本比例为1:2时效果最佳,减少了数据不平衡对检测结果的影响;且改进的Goog Le Net模型与对比模型相比具有最高的召回率98.3%。针对现有模型难以提取空间特征问题,建立基于卷积块注意力机制的残差胶囊网络模型,相比于原始的胶囊网络模型,F1分数提升14.9%。在此基础上,搭建一套光刻版图热点检测原型验证软件,通过人机交互操作和测试,验证了所提检测模型的有效性和实用性。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：代码小屋，原文地址：https://m.bishedaima.com/lunwen/47740.html