基于图数据的小样本论文分类系统的设计与实现
这是一篇关于小样本,元学习算法,图神经网络,论文分类的论文, 主要内容为科学研究方向日渐丰富,论文的精准分类可以给学者做科研带来极大的便捷。目前的论文分类检索系统存在分类粒度大、无法准确检索的问题。系统在处理冷门研究方向的论文时,该类论文的数据量较少,普通的分类模型无法达到令人满意的效果,这样不仅降低了工作效率,也给科研工作者带来了不好用户体验感。本课题设计并实现基于图数据的小样本论文分类系统,解决了在处理样本量较少的论文分类不准确的问题。本课题主要完成的工作如下:第一,设计了一种基于图数据的小样本论文分类的方案。方案先以每篇论文摘要的特征为节点,以论文之间的引用关系为边,建立一个引文网络,然后以图神经网络为训练工具,以基于元学习的小样本算法为训练过程,以n-way k-shot的多任务结构为训练方式,最后根据不同的应用场景训练不同的分类模型,并将模型应用到系统中。针对样本量较少的问题,方案应用小样本元学习Reptile算法,该算法加快了模型的训练过程,避免了在MAML算法上的梯度二次更新,提高了训练效率,同时也达到了相同的训练效果。第二,设计并实现了小样本论文分类系统。用户根据自己需求上传论文,系统根据上传的特点选择不同的分类模型进行分类,最后将分类结果反馈给用户。系统前端基于Vue.js框架,后端基于SpringBoot框架来实现前后端分离。后端分布式服务之间的调用使用Dubbo RPC框架。数据库使用MySQL和Redis,分别对不同类型数据进行存储,使用文件服务器存储用户上传的论文。论文描述了小样本论文分类系统的需求分析,提出了数据库设计和系统架构设计方案,详细介绍并实现了论文上传模块,论文分类模块,论文信息检索模块,系统管理模块。最后该系统测试的结果表明该系统符合预期结果,具有使用价值。
融合匹配网络与原型网络的小样本关系抽取研究与应用
这是一篇关于小样本,关系抽取,匹配网络,原型网络,语言模型,对比学习的论文, 主要内容为随着大数据与互联网的高速发展,由于其过于抽象等原因,结构化数据在总量中的占比越发减少;与之相对的,非结构化数据,如图片、文字、视频、音频等数据形式占据了人们的生活。这种转变也带来了一个新的挑战,即如何从海量的非结构化数据中进行信息抽取。关系抽取就是信息抽取中的关键任务之一,对文本数据中的语义信息和实体信息进行学习,再利用学习到的特征对海量的非结构化数据如文本信息进行批量自动化的关系抽取,来支持知识库、问答系统、信息检索等实际应用。但目前,大多数信息抽取建立于深度学习方法之上,虽然效果显著,但是深度学习模型往往需要大量的、高质量的有标注数据,在实际应用场景中成本太大,如何让模型用少量的样本也能学习并得到更好的关系抽取效果是十分具有意义的研究方向。因此,本文以母婴产品评论为例,通过语言模型配合匹配网络、原型网络等模块,实现了中文语境下的小样本关系抽取。本文的主要研究内容与创新点如下。(1)基于匹配网络的小样本关系抽取。在目前的算法研究中,绝大多数是依托英语语境的,而对于中文语境下涉及的较少,同时中文的语法、文字的形态特征以及发音特征相比英语有更多特点,因此提出融合了字符、字形与字音的中文语言模型。考虑到匹配网络在小样本领域内的表现突出,本文设计了多尾匹配的方式将匹配模板拼接在语料之后,并通过标识符完成关系抽取,相较于其他同类型方法有一定的提升。(2)基于原型网络的小样本关系抽取。原型网络一直是小样本问题下经常被使用的方法之一,其构建原型的思想尤其在关系抽取问题中对关系进行原型建模,因此本文通过语言模型的文本表征能力,结合实体的位置信息、语料的语义信息等特征,配合对比学习以及KL散度的方法,从另一个角度构建了小样本关系抽取,相较于同类方法也同样取得了一定的提升。(3)小样本关系抽取集成框架。本文将基于匹配网络的方法以及基于原型网络的方法通过对类概率求均值的手段进行集成,达到了一定程度的互补作用。(4)基于小样本关系抽取的应用。虽然小样本关系抽取模型目前在识别精度上不及经过大量数据训练得到的关系抽取模型,但小样本关系抽取要求的人力成本与时间成本更少,因此本文设计了基于小样本关系抽取的智能标注系统以及快速构建领域知识图谱的方法。
基于神经网络的小样本关系抽取研究与应用
这是一篇关于关系抽取,小样本,预训练模型,元学习器的论文, 主要内容为随着大数据技术的快速发展,信息抽取通过神经网络模型将信息密度低的非结构化数据信息挖掘形成准确的结构化信息,对大数据技术研究具有重要意义。实体关系抽取属于信息抽取任务中必不可少的一环,近年来引起越来越多的自然语言处理研究人员的关注。关系抽取主要是对非结构化数据中的语义知识信息进行学习,再利用学习到的语义知识对海量的非结构化数据如文本信息进行实体关系抽取,将这些非结构化数据转变为结构化的关系数据,来支持知识库、问答系统、信息检索等实际应用。但是在许多实际应用场景中,并没有足够的数据进行关系抽取训练,且对于一些有足够样本的领域,也存在关系标注成本过高的问题,因此基于小样本学习的关系抽取研究具有重要意义。本文的研究内容如下:(1)对使用上下文相关的预训练模型BERT和静态预训练模型Glove作为词嵌入编码器的模型复杂度进行定量分析,从理论和实验上得出了上下文相关预训练模型的浮点计算量。在此基础上改进使用Glove作为词嵌入编码器的模型,提出可训练的数据增强网络层和上下文相关采样方式使得简单神经注意力元学习器SNAIL作为句子特征分类器在在使用Glove作为词特征编码器相比使用BERT时损失少量准确率,在Few Rel上达到75.71%,但是大幅度提升了模型前向传播速度;说明了将小样本关系抽取应用到实际系统中还需要解决当支撑集中没有查询样本类型时的问题,对现有的简单神经注意力元学习器进行改进使其具有双向结构,并且实验表明本文提出的结构能够提高辅助标注的准确率。(2)将本文模型应用到了精确的知识图谱构建系统中,分析说明了该系统的主要应用场景,说明了系统的功能模块和设计实现。并且使用该系统进行关系抽取智能辅助标注实验,实验表明本系统能够辅助人工构建精确结构化知识库准确率从92.2%提升到99.5%。在实际应用中,本文得到的知识图谱实际上属于比较好的标注样本,但是本文还尚未对其作出充分的应用,未来的研究可以探讨如何将知识图谱输入到模型中,来达到进一步提升模型能力的目的。
基于自适应权重的小样本知识图谱模型研究
这是一篇关于小样本,知识图谱推理,单样本,注意力机制的论文, 主要内容为随着互联网技术以及应用模式的快速发展,知识图谱推理已经在语义搜索、智能问答、智能推荐、军事决策等领域取得了重要成就。由于计算机世界的数据规模爆发式扩大,进一步扩大知识图谱覆盖范围的要求也不断增长。但是,真实世界知识图谱的长尾关系实际上更常见,并且大部分新增的关系往往没有很多已知的训练三元组去提供参考,这种场景对于知识图谱的进一步扩展产生了很大的限制。因此,本文基于自适应权重机制对小样本知识图谱推理进行了如下的研究:(1)本文提出了一种基于混合注意力机制小样本知识图谱学习模型。该模型通过混合自注意力机制和衰弱注意力机制处理实体的权重,获得知识图谱中实体的高阶领域聚合信息,之后通过实体增强编码器获得源实体的隐性特征。然后,邻居编码器获得实体更新后的实体特征去适应不同推理任务。最后,匹配处理器通过候选实体相似性得分去推断真实实体。(2)针对不同训练关系任务场景,为了区分实体的权重和提高方法的解释性,本文提出了一种基于领域编码的小样本知识图谱学习模型。该模型利用Transfomer机制获得不同任务场景下三元组的权重增强单样本训练场景下的学习能力,随后噪声检验器在相似评估层之前进行了实体合理性排名,去除离源实体距离较远的推理结果。最后,相似评估层使用重排名之后候选实体集去推理真实实体。本文在经典的小样本知识图谱推理的数据集NELL-One和WIKI-One上进行了大量的实验。实验结果表明在单样本和小样本场景下模型的实验结果的准确性和解释性都有提高,证明了基于混合注意力机制的小样本知识图谱学习模型和基于领域编码的小样本知识图谱学习框架是有效可行的。
工业产品表面质量检测智能算法研究与系统实现
这是一篇关于表面质量检测,小样本,半监督,GAN,不平衡,检测系统的论文, 主要内容为在工业场景下的深度学习应用中,数据集普遍存在小样本和不平衡的问题。基于神经网络模型的深度学习应用通常需要基于大规模的标签样本进行训练,而小样本问题使模型在训练集上过拟合、泛化性能差,不能很好地应用于目标任务。样本的不平衡使训练集与样本的实际分布存在差异,使其不能很好地应用于目标任务。上述问题导致深度学习模型的训练结果与实际场景存在较大的出入。虽然基于计算机视觉的人工智能算法已经越来越多地应用于工业领域,但是大部分的智能算法都部署在云端服务器,无法及时对采集到的工业数据进行处理。同时,智能算法工作运行的过程中具备收集工业数据的能力,现有的系统没能很好地利用上述数据的价值。因此,目前业界依然缺少一个基于云边协同的高实时性和高可用性的、基于工业数据在线扩充的高通用性和高拓展性的工业产品实时在线表面质量检测系统。论文选题于企事业单位科研合作项目“基于移动边缘智能的智慧工厂产品质量缺陷在线检测技术研究”,从实际应用角度解决技术难题。本文从算法优化的角度出发,引入基于生成数据的重平衡方法,解决工业场景下的样本不平衡问题;从系统优化的角度出发,针对该问题设计实现了工业产品实时在线质量检测系统。论文的主要工作如下:1)综述了目前工业场景下基于计算机视觉的表面质量检测算法与系统的相关研究。首先对基于计算机视觉的工业产品表面质量检测算法研究现状进行了调研,重点介绍了工业数据集中普遍存在的小样本问题和不平衡问题的研究现状。然后介绍了基于计算机视觉的工业产品表面质量检测系统的发展现状,以及涉及到的相关系统开发技术的基本情况。综述研究为论文后续算法优化和系统设计奠定了基础。2)针对工业数据集中常见的小样本和不平衡问题,提出了一种基于重平衡的半监督产品表面质量检测算法,提升工业产品表面图像分类的准确率。首先设计了生成对抗网络框架将重平衡方法融入半监督方法中,然后在判决器中引入三分支结构实现多任务的解耦,并且引入平均教师一致性学习改善训练过程的稳定性。最后在多个公开数据集,以及自建的工厂铜箔表面缺陷数据集上验证了该算法的有效性。3)针对现有系统可用性和实时性差,缺乏通用性和可拓展性的问题,设计并开发了一种工业产品实时在线表面质量检测系统。本系统基于模块化设计思想,设计实现了数据采集模块、数据处理模块、数据持久化模块、通信协同模块、系统管理模块和数据可视化模块六个系统模块。上述模块相互协作实现了以下系统功能:算法自主增量更新,边云协同通信和工业产品实时在线检测。该系统实现了工业金属表面数据的采集、处理和分析,以及告警信息的输出、呈现和管理。同时,系统基于边云协同架构增强检测的可用性和实时性,基于数据扩充和算法自主增量更新增强系统的通用性和可拓展性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://m.bishedaima.com/lunwen/46227.html