5篇关于数据增广的计算机毕业论文

今天分享的是关于数据增广的5篇计算机毕业论文范文, 如果你的论文涉及到数据增广等主题,本文能够帮助到你

低资源场景下面向雷达及作战体系领域的嵌套命名实体识别研究

这是一篇关于雷达及作战体系,低资源,嵌套命名实体识别,数据增广,伪标签的论文, 主要内容为在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。但是在雷达及作战体系领域中,由于领域特殊性、数据敏感性和高标注成本,真实场景无法访问到足够多的无标签领域数据,领域公开标注数据集鲜见,知识库或者领域词典等辅助数据匮乏,因此面向雷达及作战体系领域的NNER面临着低资源挑战。本文针对雷达及作战体系领域的特殊性,研究低资源场景下NNER问题,主要贡献如下:(1)针对无标签领域数据缺乏的问题,提出了两种雷达及作战体系领域的数据增广算法:单程数据自动选择算法SADS(Single-pass Automated Data Selection algorithm)和基于BERT的标签感知上下文增强算法BBLCA(BERT Based Label-aware Contextual Augmentation algorithm)。SADS 算法通过对领域数据集增量聚类来学习领域数据分布特征,接着在相似领域数据上均衡采样,最终获得样本类别均衡的全新领域数据。BBLCA算法基于chinese-BERT-wwm预训练模型,在BERT的编码层输入中将本文的文本生成任务中不重要的“段嵌入层”替换为“标签层”。接着以词语为单位使用掩码语言模型随机遮掩、插入和删除掩码,并预测每个掩码位置的词语,最终获得标签感知的新领域数据。上述两种算法分别被应用在课题组的任务数据集RadarCorpus和相似领域数据集RadarPatentCorpus上,获得了大量语义语法正确的无标签领域数据。实验结果表明,SADS和BBLCA算法获得的无标签领域数据丰富了训练样本多样性,提升了模型性能。(2)针对标签数据不足的问题,本文基于自训练方法提出了 NNER模型-基于差异化多模型协同训练的嵌套命名实体识别模型NNER-DMCT(Nested Named Entity Recognition based on Differentiated Multi-model Cooperative Training),为无标签领域数据自动生成词级别标签。NNER-DMCT模型选用了 BERT-CRF、BERT-SPAN和BERT-TPLinker-NNER三个模型框架,利用本文提出的BL-Tri-training算法进行多模型差异化协同训练来获得多个基学习器,通过基学习器分别对无标签文本进行预测,最后基于多数投票机制对预测结果进行集成,避免了因单一视图导致的歧义性错误。该模型在获得的无标签领域数据上进行验证,实验结果有力证明了 NNER-DMCT模型的有效性。(3)基于NNER-DMCT模型自动标注获得的伪标签数据集,构建了低资源场景下的NNER模型-基于伪标签学习的边界感知跨度表示神经网络模型BASRN-PL(Boundary-Aware Span Representation Neural model based on Pseudo-label Learning),学习伪标签数据的知识并考虑了伪标签数据中的噪声影响。该模型使用动态可学习的权重,使得模型能够充分学习到原始任务数据和正确的增广任务数据信息。此外,模型使用了一个双向LSTM模型和自注意力机制对数据表示进行了增强。通过与主流的NNER模型进行对比,实验结果表明BASRN-PL模型能够较好地学习伪标签数据集的信息,并获得较优的模型效率。

面向渔业标准知识图谱构建的实体识别与关系抽取

这是一篇关于渔业标准,深度学习,实体识别,关系抽取,数据增广的论文, 主要内容为渔业现代化和渔业标准化是数字渔业发展的方向,需要以精准标准信息服务为支撑,而精准标准信息服务需要准确表示渔业标准内容,渔业标准知识图谱是渔业标准内容表示的有效工具,实体识别和关系抽取是知识图谱构建的关键技术,实体识别和关系抽取的效果将直接影响渔业标准知识图谱的构建质量。由于渔业标准文本包含渔业标准号、指标名等大量专有名词且存在实体样本稀疏、实体间关系重叠等问题,导致通用的实体识别和关系抽取方法无法实现渔业标准实体和关系的有效抽取,需要根据渔业标准文本的特点,研究有效的渔业标准命名实体识别和关系抽取技术。因此,本文开展面向渔业标准知识图谱构建的实体识别与实体关系抽取研究,具体研究工作如下。(1)多元组合数据增广的渔业标准命名实体识别。提出了基于领域词典的联合替换算法、基于槽点保护的随机删除算法和基于槽点保护的随机插入算法,并将它们进行多元组合。这种多元组合的数据增广方法能够在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用多元组合数据增广方法进行渔业标准命名实体识别,能取得较好的识别效果,有效解决实体样本稀疏问题,提升渔业标准命名实体识别的整体效果。(2)基于双重注意力机制的渔业标准实体关系抽取。提出了一种句式分类标注策略,以解决渔业标准文本中重叠关系难以标注的问题;并考虑到不构成关系的实体信息带来的负面影响,通过改进关系抽取模型的编码器模块,建立了结合双重注意力机制与BERTBiLSTM-CRF的渔业标准实体关系抽取模型,该模型分别利用字级别注意力机制和句子级别注意力机制优化权重分配、消除噪音,进而提高关系抽取的准确性。结果表明,在课题组构建的DLOU-FSI渔业标准数据集上准确率、召回率、F1值都有明显的提升。验证了该方法在提升渔业标准关系抽取效果方面的有效性。

基于深度学习的指针式仪表自动读数算法研究

这是一篇关于指针式仪表,自动读数,目标检测,数据增广,轻量化的论文, 主要内容为指针式仪表由于其自身稳定、可靠的特性,被广泛应用于数据记录、数据监控等各类场景,是生产生活中不可或缺的工具。传统的人工记录指针式仪表读数的方式存在成本高、效率低、安全隐患大等问题,无法满足现代生产发展和生活需要,实现指针式仪表自动读数符合我国智能化发展趋势。本文针对人工采集数据集并标注成本较高,且真实环境下采集到的图像上会存在多类指针式仪表的情况,对指针式仪表自动读数算法进行研究设计,主要内容如下:1、针对多类指针式仪表检测任务,构建一种便捷生成深度学习网络训练数据集的指针式仪表数据增广方法,并提出了一种解决仪表检测中分类混淆问题的区域约束策略。在缺乏数据集时,以往人工采集并标注的方式效率低下且成本较高,本文提出的数据增广方法在仅有几张样本图像的情况下,可便捷生成大量带有标签的指针式仪表数据,并基于所提数据增广方案制作了一组可应用于后续仪表目标检测网络训练的指针式仪表数据集。此外,在使用YOLOv5目标检测算法对仪表进行检测时,会存在较多分类混淆的情况,本文基于区域约束策略,通过在训练中增加每类仪表表盘上显著区域作为辅助类,扩大类间方差,提高仪表检测的分类准确性。2、为实现对目标检测算法得到的仪表表盘进行稳定读数,提出一种基于特征匹配的指针式仪表自动读数算法。首先,通过基于AKAZE算法的透视变换,对待读数表盘图像进行图像配准;其次,基于极坐标变换方法结合提前获取的表盘信息将表盘图像展开为矩形;然后,对图像进行二值化处理提取指针区域,并通过像素值累加比较方式得到指针直线所在位置;最后,采用距离法计算示数,实现对指针式仪表的自动稳定读数。3、针对指针式仪表自动读数算法的后续部署应用,提出了一种改进的YOLOv5算法,以实现仪表目标检测网络的轻量化。首先,选取Shuffle Net v2作为主干网络,实现在特征提取时获得速度与精度的平衡。其次,基于G-Ghost模块构建一种GG-C3结构替换网络中的C3模块,减少特征冗余。最后,采用GSConv卷积替换颈部中的标准卷积,在稳定检测精度的同时,进一步减小网络参数量和计算量。实验表明,本文提出的改进YOLOv5算法在未影响整体自动读数准确性的同时,实现了算法的轻量化,使自动读数算法的适用性得到提高。

基于图像识别的可回收垃圾检测系统设计与实现

这是一篇关于目标检测,注意力机制,数据增广,YOLOv5的论文, 主要内容为农村美丽环境的建设是乡村振兴战略的重要组成部分。在农村生产生活水平提高的同时,农村地区存在着村民垃圾治理意识不强和垃圾处理基础设施落后等问题。农村垃圾治理成为美丽乡村环境建设中亟待解决的问题。大量的垃圾会对土壤和空气造成污染,还会影响水源的质量,进而影响农作物的生长和品质。垃圾堆积在农村的街道、田间地头等地方会影响农村的景观,降低美丽乡村建设的质量。通过对垃圾进行回收,可以提高资源利用效率,减少垃圾对环境的影响,为农业行业带来更好的经济效益。本文以玻璃瓶、塑料瓶、金属罐、纸制品、塑料、锡箔纸六种可回收垃圾作为研究对象,针对以上六种垃圾提出结合目标检测算法的可回收垃圾识别方法。本文的主要工作如下:(1)制作可回收垃圾图像数据集。本研究从开源数据集共收集到4272张垃圾图像,然后进行数据清洗和数据增广得到6758张含有可回收垃圾的图像,并将其制作成含有多种不同环境背景的可回收垃圾图像数据集。(2)研究目标检测算法在可回收垃圾识别领域的应用。将制作的可回收垃圾图像数据集通过SSD、Faster R-CNN和YOLOv5的五种不同大小网络分别进行训练,通过对比分析实验结果中的mAP和FPS评价指标得出YOLOv5m在可回收垃圾图像数据集中综合表现效果最佳。YOLOv5m本身对数据集内小目标检测效果不佳,因此本文通过添加注意力机制提高小目标检测效果。在对YOLOv5m添加五种注意力机制后进行对比,通过实验结果得出CA注意力机制在可回收垃圾图像数据集上综合表现效果最佳,mAP提高2.1%达到87.7%。因此将加入了CA注意力机制的YOLOv5m模型作为本研究最终的目标检测模型。(3)设计并实现可回收垃圾检测系统。系统采用前后端分离架构,前端使用Vue框架,后端使用Flask框架。系统的主要功能有图像检测,视频检测和压缩包批量检测。用户上传相关文件后,系统能够识别可回收垃圾种类并将检测结果展现给用户。同时用户可以在系统内查看历史检测记录。