推荐7篇关于伪标签的计算机专业论文

今天分享的是关于伪标签的7篇计算机毕业论文范文, 如果你的论文涉及到伪标签等主题,本文能够帮助到你 自增强的多轨道图卷积神经网络研究 这是一篇关于图卷积网络,图表征学习

今天分享的是关于伪标签的7篇计算机毕业论文范文, 如果你的论文涉及到伪标签等主题,本文能够帮助到你

自增强的多轨道图卷积神经网络研究

这是一篇关于图卷积网络,图表征学习,半监督学习,伪标签的论文, 主要内容为图表征学习是处理图数据的重要手段,近年来将卷积神经网络(Convolutional Neural Networks,CNN)运到图表征学习中提出的图卷积神经网络(Graph Convolutional Network,GCN)及其变体在对图数据的处理分析中取得了巨大成功。然而,三个根本性的缺陷限制了他们对图数据的表征能力,分别是过平滑现象、无法捕捉长程依赖和未标注数据利用率低。为了解决GCNs(GCN及其变体)普遍存在的过平滑现象和无法捕捉节点间长程依赖的缺陷,本文提出了一个新的多轨道消息传递机制。通过创建多个拓扑结构相同而属性信息稀疏的轨道辅助图,让属于不同类的消息在各自对应的轨道内独立地进行传播,同时原图中的节点能够自主地选择合适的消息来更新自身。多轨道机制对节点间的消息传递与更新存储这两个职责进行切分,从而避免了GCNs连续的卷积操作导致的过平滑现象以及长距离传输消息时受到的干扰。而多轨道机制的实现需要先解决发送阶段的准确性、传播阶段的信号衰减和更新阶段的选择障碍这三大挑战。对此,本文提出了端到端的多轨道图卷积网络模型,分别通过引入多重先验信息、改进消息更新函数和提出基于属性相似度的判别机制来解决对应的难题,成功地实现了多轨道消息传递机制,解决了GCNs存在的过平滑和长程依赖问题。针对端到端的多轨道图卷积网络存在的过于依赖先验信息的问题以及GCNs对于未标注数据利用率低的缺陷,本文在端到端模型的基础上提出了一个全新的多阶段多轨道图卷积网络模型。使用采样校验策略提升先验信息的准确性,将端到端结构拆分成多个阶段,并与经典的伪标签技术相结合提出了多阶段的自增强策略。每个卷积层由在轨道辅助图内水平方向的消息传递、轨道与原图之间垂直方向的传播更新以及用全连接层预测伪标签并回传三个部分组成。其中垂直方向的传播更新和伪标签回传使得模型会随着卷积层数的加深不断地自我增强,显著降低了多轨道模型对先验信息的依赖程度。而伪标签技术其本质上是使用未标注数据来增强半监督学习的性能,解决了GCNs的第三个缺陷。最后,在三大类共11个真实网络数据集上的定量分析实验表明本文提出的两个多轨道消息传递方法在同质性和模块度较低的异配图上取得了优秀的成绩,在同配图上也表现不俗。而定性分析实验则进一步验证了本文提出的多轨道机制和自增强策略很好地解决GCNs存在的这三个缺陷,增强了模型的鲁棒性和自适应性,使其可以更好地被运用于社团发现、舆情分析、推荐系统等涉及对图数据处理分析的实际应用中。

基于种子区域生长的弱监督语义分割算法研究

这是一篇关于图像语义分割,弱监督学习,伪标签的论文, 主要内容为图像语义分割作为计算机视觉研究领域的重要分支,被广泛应用于自动驾驶,医疗图像分析和人机交互等场景。目前,基于深度学习的图像语义分割算法依赖于使用大量的像素级标注用于训练,由于获取此类标注需要昂贵的时间和经济代价,全监督语义分割算法的性能和泛化性均受到了制约。为了减少对像素级标注信息的依赖,基于更弱标注信息的弱监督语义分割算法被陆续提出。本文对基于图像级类别标签的弱监督语义分割算法展开了研究,并针对其中的种子区域生长算法框架提出了优化方案。在该算法框架中,瓶颈主要在于两点:种子区域作为提供目标物体定位线索的基本信息,存在稀疏和对目标物体覆盖率低的问题;种子区域扩展算法容易错误地扩展到背景区域,使得生成的分割伪标签较难具有目标物体的清晰轮廓。本文对上述问题依次提出了优化方案,具体工作如下:1)针对种子区域稀疏的问题,在现有种子区域生成算法的基础上,提出了基于图像块的度量学习任务进行联合迭代优化。该任务通过生成目标物体的图像块提案并对其进行度量学习任务训练,能有效地增强种子区域生成网络对目标物体局部特征的理解能力,从而提高种子区域对目标物体的覆盖精度。2)针对种子区域生长算法中存在的分割边界模糊的问题,我们基于Affinity Net提出了对类别置信度不高的模糊区域像素做进一步像素关联度挖掘的改进方案。基于目标物体的边缘常常存在于模糊区域的观察,我们提出对模糊区域像素与高置信度背景像素进行显式的关联度挖掘以学习更精准的分割边界。本文提出的优化算法能显著地提高基于种子区域生长的弱监督语义分割算法的性能。其中,对种子区域生成阶段提出的基于图像块的度量学习算法在与两种不同的基线种子区域生成算法进行联合训练后,均可以有效地提高种子区域的精度。而在种子区域扩展的步骤中,我们提出的模糊区域像素关联度挖掘算法使种子区域扩展后得到的分割伪标签能具有更清晰的边界轮廓,有效地提高了Affinity Net的性能。充分的实验结果证明了本文提出算法的有效性,优化后的种子区域与分割伪标签均能有效地提高弱监督语义分割算法框架的整体性能。

低资源场景下面向雷达及作战体系领域的嵌套命名实体识别研究

这是一篇关于雷达及作战体系,低资源,嵌套命名实体识别,数据增广,伪标签的论文, 主要内容为在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。但是在雷达及作战体系领域中,由于领域特殊性、数据敏感性和高标注成本,真实场景无法访问到足够多的无标签领域数据,领域公开标注数据集鲜见,知识库或者领域词典等辅助数据匮乏,因此面向雷达及作战体系领域的NNER面临着低资源挑战。本文针对雷达及作战体系领域的特殊性,研究低资源场景下NNER问题,主要贡献如下:(1)针对无标签领域数据缺乏的问题,提出了两种雷达及作战体系领域的数据增广算法:单程数据自动选择算法SADS(Single-pass Automated Data Selection algorithm)和基于BERT的标签感知上下文增强算法BBLCA(BERT Based Label-aware Contextual Augmentation algorithm)。SADS 算法通过对领域数据集增量聚类来学习领域数据分布特征,接着在相似领域数据上均衡采样,最终获得样本类别均衡的全新领域数据。BBLCA算法基于chinese-BERT-wwm预训练模型,在BERT的编码层输入中将本文的文本生成任务中不重要的“段嵌入层”替换为“标签层”。接着以词语为单位使用掩码语言模型随机遮掩、插入和删除掩码,并预测每个掩码位置的词语,最终获得标签感知的新领域数据。上述两种算法分别被应用在课题组的任务数据集RadarCorpus和相似领域数据集RadarPatentCorpus上,获得了大量语义语法正确的无标签领域数据。实验结果表明,SADS和BBLCA算法获得的无标签领域数据丰富了训练样本多样性,提升了模型性能。(2)针对标签数据不足的问题,本文基于自训练方法提出了 NNER模型-基于差异化多模型协同训练的嵌套命名实体识别模型NNER-DMCT(Nested Named Entity Recognition based on Differentiated Multi-model Cooperative Training),为无标签领域数据自动生成词级别标签。NNER-DMCT模型选用了 BERT-CRF、BERT-SPAN和BERT-TPLinker-NNER三个模型框架,利用本文提出的BL-Tri-training算法进行多模型差异化协同训练来获得多个基学习器,通过基学习器分别对无标签文本进行预测,最后基于多数投票机制对预测结果进行集成,避免了因单一视图导致的歧义性错误。该模型在获得的无标签领域数据上进行验证,实验结果有力证明了 NNER-DMCT模型的有效性。(3)基于NNER-DMCT模型自动标注获得的伪标签数据集,构建了低资源场景下的NNER模型-基于伪标签学习的边界感知跨度表示神经网络模型BASRN-PL(Boundary-Aware Span Representation Neural model based on Pseudo-label Learning),学习伪标签数据的知识并考虑了伪标签数据中的噪声影响。该模型使用动态可学习的权重,使得模型能够充分学习到原始任务数据和正确的增广任务数据信息。此外,模型使用了一个双向LSTM模型和自注意力机制对数据表示进行了增强。通过与主流的NNER模型进行对比,实验结果表明BASRN-PL模型能够较好地学习伪标签数据集的信息,并获得较优的模型效率。

自增强的多轨道图卷积神经网络研究

这是一篇关于图卷积网络,图表征学习,半监督学习,伪标签的论文, 主要内容为图表征学习是处理图数据的重要手段,近年来将卷积神经网络(Convolutional Neural Networks,CNN)运到图表征学习中提出的图卷积神经网络(Graph Convolutional Network,GCN)及其变体在对图数据的处理分析中取得了巨大成功。然而,三个根本性的缺陷限制了他们对图数据的表征能力,分别是过平滑现象、无法捕捉长程依赖和未标注数据利用率低。为了解决GCNs(GCN及其变体)普遍存在的过平滑现象和无法捕捉节点间长程依赖的缺陷,本文提出了一个新的多轨道消息传递机制。通过创建多个拓扑结构相同而属性信息稀疏的轨道辅助图,让属于不同类的消息在各自对应的轨道内独立地进行传播,同时原图中的节点能够自主地选择合适的消息来更新自身。多轨道机制对节点间的消息传递与更新存储这两个职责进行切分,从而避免了GCNs连续的卷积操作导致的过平滑现象以及长距离传输消息时受到的干扰。而多轨道机制的实现需要先解决发送阶段的准确性、传播阶段的信号衰减和更新阶段的选择障碍这三大挑战。对此,本文提出了端到端的多轨道图卷积网络模型,分别通过引入多重先验信息、改进消息更新函数和提出基于属性相似度的判别机制来解决对应的难题,成功地实现了多轨道消息传递机制,解决了GCNs存在的过平滑和长程依赖问题。针对端到端的多轨道图卷积网络存在的过于依赖先验信息的问题以及GCNs对于未标注数据利用率低的缺陷,本文在端到端模型的基础上提出了一个全新的多阶段多轨道图卷积网络模型。使用采样校验策略提升先验信息的准确性,将端到端结构拆分成多个阶段,并与经典的伪标签技术相结合提出了多阶段的自增强策略。每个卷积层由在轨道辅助图内水平方向的消息传递、轨道与原图之间垂直方向的传播更新以及用全连接层预测伪标签并回传三个部分组成。其中垂直方向的传播更新和伪标签回传使得模型会随着卷积层数的加深不断地自我增强,显著降低了多轨道模型对先验信息的依赖程度。而伪标签技术其本质上是使用未标注数据来增强半监督学习的性能,解决了GCNs的第三个缺陷。最后,在三大类共11个真实网络数据集上的定量分析实验表明本文提出的两个多轨道消息传递方法在同质性和模块度较低的异配图上取得了优秀的成绩,在同配图上也表现不俗。而定性分析实验则进一步验证了本文提出的多轨道机制和自增强策略很好地解决GCNs存在的这三个缺陷,增强了模型的鲁棒性和自适应性,使其可以更好地被运用于社团发现、舆情分析、推荐系统等涉及对图数据处理分析的实际应用中。

低资源场景下面向雷达及作战体系领域的嵌套命名实体识别研究

这是一篇关于雷达及作战体系,低资源,嵌套命名实体识别,数据增广,伪标签的论文, 主要内容为在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。但是在雷达及作战体系领域中,由于领域特殊性、数据敏感性和高标注成本,真实场景无法访问到足够多的无标签领域数据,领域公开标注数据集鲜见,知识库或者领域词典等辅助数据匮乏,因此面向雷达及作战体系领域的NNER面临着低资源挑战。本文针对雷达及作战体系领域的特殊性,研究低资源场景下NNER问题,主要贡献如下:(1)针对无标签领域数据缺乏的问题,提出了两种雷达及作战体系领域的数据增广算法:单程数据自动选择算法SADS(Single-pass Automated Data Selection algorithm)和基于BERT的标签感知上下文增强算法BBLCA(BERT Based Label-aware Contextual Augmentation algorithm)。SADS 算法通过对领域数据集增量聚类来学习领域数据分布特征,接着在相似领域数据上均衡采样,最终获得样本类别均衡的全新领域数据。BBLCA算法基于chinese-BERT-wwm预训练模型,在BERT的编码层输入中将本文的文本生成任务中不重要的“段嵌入层”替换为“标签层”。接着以词语为单位使用掩码语言模型随机遮掩、插入和删除掩码,并预测每个掩码位置的词语,最终获得标签感知的新领域数据。上述两种算法分别被应用在课题组的任务数据集RadarCorpus和相似领域数据集RadarPatentCorpus上,获得了大量语义语法正确的无标签领域数据。实验结果表明,SADS和BBLCA算法获得的无标签领域数据丰富了训练样本多样性,提升了模型性能。(2)针对标签数据不足的问题,本文基于自训练方法提出了 NNER模型-基于差异化多模型协同训练的嵌套命名实体识别模型NNER-DMCT(Nested Named Entity Recognition based on Differentiated Multi-model Cooperative Training),为无标签领域数据自动生成词级别标签。NNER-DMCT模型选用了 BERT-CRF、BERT-SPAN和BERT-TPLinker-NNER三个模型框架,利用本文提出的BL-Tri-training算法进行多模型差异化协同训练来获得多个基学习器,通过基学习器分别对无标签文本进行预测,最后基于多数投票机制对预测结果进行集成,避免了因单一视图导致的歧义性错误。该模型在获得的无标签领域数据上进行验证,实验结果有力证明了 NNER-DMCT模型的有效性。(3)基于NNER-DMCT模型自动标注获得的伪标签数据集,构建了低资源场景下的NNER模型-基于伪标签学习的边界感知跨度表示神经网络模型BASRN-PL(Boundary-Aware Span Representation Neural model based on Pseudo-label Learning),学习伪标签数据的知识并考虑了伪标签数据中的噪声影响。该模型使用动态可学习的权重,使得模型能够充分学习到原始任务数据和正确的增广任务数据信息。此外,模型使用了一个双向LSTM模型和自注意力机制对数据表示进行了增强。通过与主流的NNER模型进行对比,实验结果表明BASRN-PL模型能够较好地学习伪标签数据集的信息,并获得较优的模型效率。

低资源场景下面向雷达及作战体系领域的嵌套命名实体识别研究

这是一篇关于雷达及作战体系,低资源,嵌套命名实体识别,数据增广,伪标签的论文, 主要内容为在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。但是在雷达及作战体系领域中,由于领域特殊性、数据敏感性和高标注成本,真实场景无法访问到足够多的无标签领域数据,领域公开标注数据集鲜见,知识库或者领域词典等辅助数据匮乏,因此面向雷达及作战体系领域的NNER面临着低资源挑战。本文针对雷达及作战体系领域的特殊性,研究低资源场景下NNER问题,主要贡献如下:(1)针对无标签领域数据缺乏的问题,提出了两种雷达及作战体系领域的数据增广算法:单程数据自动选择算法SADS(Single-pass Automated Data Selection algorithm)和基于BERT的标签感知上下文增强算法BBLCA(BERT Based Label-aware Contextual Augmentation algorithm)。SADS 算法通过对领域数据集增量聚类来学习领域数据分布特征,接着在相似领域数据上均衡采样,最终获得样本类别均衡的全新领域数据。BBLCA算法基于chinese-BERT-wwm预训练模型,在BERT的编码层输入中将本文的文本生成任务中不重要的“段嵌入层”替换为“标签层”。接着以词语为单位使用掩码语言模型随机遮掩、插入和删除掩码,并预测每个掩码位置的词语,最终获得标签感知的新领域数据。上述两种算法分别被应用在课题组的任务数据集RadarCorpus和相似领域数据集RadarPatentCorpus上,获得了大量语义语法正确的无标签领域数据。实验结果表明,SADS和BBLCA算法获得的无标签领域数据丰富了训练样本多样性,提升了模型性能。(2)针对标签数据不足的问题,本文基于自训练方法提出了 NNER模型-基于差异化多模型协同训练的嵌套命名实体识别模型NNER-DMCT(Nested Named Entity Recognition based on Differentiated Multi-model Cooperative Training),为无标签领域数据自动生成词级别标签。NNER-DMCT模型选用了 BERT-CRF、BERT-SPAN和BERT-TPLinker-NNER三个模型框架,利用本文提出的BL-Tri-training算法进行多模型差异化协同训练来获得多个基学习器,通过基学习器分别对无标签文本进行预测,最后基于多数投票机制对预测结果进行集成,避免了因单一视图导致的歧义性错误。该模型在获得的无标签领域数据上进行验证,实验结果有力证明了 NNER-DMCT模型的有效性。(3)基于NNER-DMCT模型自动标注获得的伪标签数据集,构建了低资源场景下的NNER模型-基于伪标签学习的边界感知跨度表示神经网络模型BASRN-PL(Boundary-Aware Span Representation Neural model based on Pseudo-label Learning),学习伪标签数据的知识并考虑了伪标签数据中的噪声影响。该模型使用动态可学习的权重,使得模型能够充分学习到原始任务数据和正确的增广任务数据信息。此外,模型使用了一个双向LSTM模型和自注意力机制对数据表示进行了增强。通过与主流的NNER模型进行对比,实验结果表明BASRN-PL模型能够较好地学习伪标签数据集的信息,并获得较优的模型效率。

基于深度学习的非平衡文本数据情感分析研究

这是一篇关于情感分析,非平衡,词向量,伪标签的论文, 主要内容为微博、微信等网络社交媒体的兴起标志着自媒体时代的到来,自媒体新闻有着广阔的传播覆盖面,对自媒体新闻进行情感分析有利于了解社会公众对公共事件的整体态度和看法。目前,得益于众多电商平台完备的评价体系,商品、电影评论等领域已经有很多规范的中文情感数据集。然而对于其他非特定领域,由于缺乏相应的评价体系,数据标签的获得只能依赖成本高昂的人工标注,这就导致大量深度学习任务都普遍面临着小数据和非平衡的问题,而且这两个问题往往是相互伴随着出现。因此,对该问题的研究具有重要的应用价值和现实意义。本论文将从算法及数据层面研究如何基于非均衡数据集训练出高效的情感分析模型,本文将从四个方面来展开研究工作。(1)结合CNN、Bi GRU以及Attention机制在文本处理方面的优势,提出了一种新的情感分析模型Conv Bi GRU-Attention。该模型首先利用多核卷积操作来提取多粒度的文本情感特征,然后基于Bi GRU层提取联系上下文的语义特征,最后引入了自注意力机制对语义特征进行加权,使得模型能够更加关注重要的信息特征。通过实验表明,相比于GRU、CNN、Bi GRU等模型,该模型在Dmsc_v2数据集上在准确率和F1值上均有提升。(2)在中文中有很多兼类词,比如“料理”一词,当它作为动词时指“处理、整理”的意思,而其作为名词时又是“菜肴”的意思。针对目前的word2vec等静态词向量无法表示同词不同义的问题,本文提出了一种融合词性特征的词嵌入方法,该方法能使模型更好地学到深层次的句法结构特征。实验证明我们的方法在文本分类任务中是有效的。(3)对于数据非平衡问题,本文从数据层面入手,在分别对各类采样法和数据扩展方法进行分析研究后,提出了一种融合上采样、下采样及数据扩展的采样再平衡同义词替换法。该方法不仅可以使训练集中稀少类和丰富类的数量比例相对平衡,还能同时对两类数据进行数据扩展,从而增加整个训练集规模,有效提高分类效果。(4)对于具有大量数据却只有少量已标注数据的数据集,本文引入了在机器视觉领域广泛使用的伪标签概念,将大量无标签数据利用到了有监督的训练过程中,有效提高了Conv Bi GRU-Attention模型在小数据非平衡数据集上的分类效果。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工坊 ,原文地址:https://m.bishedaima.com/lunwen/50082.html

相关推荐

发表回复

登录后才能评论