B2B平台的反欺诈问题研究
这是一篇关于B2B平台,反欺诈,数据挖掘,类别不平衡,代价敏感性的论文, 主要内容为B2B电商平台上的欺诈问题一直困扰着电商平台的经营者,数据挖掘技术的出现,为电商平台的反欺诈工作带来了很大的帮助,然而数据挖掘技术在解决B2B电商平台的问题上,仍然存在一些不足:第一,在线欺诈问题描述性的研究较多,提出实际解决方案的比较少;第二,缺乏用来进行实验的真实数据;第三,以往研究很少考虑到类别不平衡问题与代价敏感问题。为了能够有效解决B2B平台上的欺诈问题,本研究选择了一个集成的分类算法-EasyEnsemble。EasyEnsemble分类算法在解决类别不平衡问题分类的过程包括两个步骤。第一步利用随机下采样的方法,将大类分成多个子集,每个子集与小类的样本是平衡的,并且每个大类的子集与小类样本结合起来作为训练集得到多个分类器;第二步使用AdaBoost集成技术将这些分类器集合起来。本文所用的数据来自于国内一家大型B2B电子商务平台公司的真实数据,选取2011年和2012年两年的用户信息数据共2760条,其中非欺诈的记录2500条,欺诈的记录260条。然后我们使用这些数据进行实验,通过将EasyEnsemble算法与常用的分类算法进行实验对比,发现EasyEnsemble算法的确是解决数据类别不平衡性问题的一个有效的算法,该方法解决了类别不平衡的分类问题,提高了分类的精确性,降低了误分类的比例,进而也解决了代价敏感问题。最后我们对EasyEnsemble算法处理样本数据得到的实验结果进行了深入的商业分析,这为电商平台的反欺诈工作提供了重要支持。本研究的贡献在于:首先,使用EasyEnsemble算法,有效地解决了类别不平衡问题,提高了分类正确率,降低了两类误判率,并同时解决了代价敏感问题,为今后的研究提供了一种新的思路。第二,本文使用的数据是B2B平台的真实数据,分类的效果更有说服力,实验结果更有商业意义。第三,使用有效算法对真实数据进行处理,并对结果进行了深入的分析,这给国内电商平台网站进行反欺诈的工作提供了实际的指导建议,而且为这些企业更好的进行电子商务给予了重要帮助。
基于深度学习的唐卡图像目标检测技术研究
这是一篇关于唐卡数据集,目标检测,SSD模型,特征融合,类别不平衡,RetinaNet模型的论文, 主要内容为唐卡是藏族文化中一个特殊的艺术类型,有着强烈的地方民族特色和浓厚的宗教色彩,堪称我国少数民族的艺术瑰宝。作为典型的非物质文化遗产,唐卡的数字化保护有着重要的史料、宗教及经济价值。但由于特殊的宗教性和地域性,大众缺乏认知,唐卡保护面临诸多挑战。目标检测作为唐卡数字化不可或缺的步骤,对于唐卡的保护具有重要意义。本文主要研究内容如下:(1)构建了唐卡图像目标检测数据集。目前现有的唐卡数据集较少,因此首先通过了解学习唐卡相关的语义知识,收集唐卡并进行预处理,最后进行标注的过程,建立了一个唐卡图像目标检测数据集,取名为宗教圣像唐卡1(Religious Portrait Thangka version 1,RPTK1),所有标签由人工标注完成,标签更符合佛教专业用语,包含了3338张唐卡图像,共57个种类,包含3类头饰,18类法器,36类主尊。(2)针对SSD模型小目标检测效果差的问题提出改进的SSD方法,即基于改进的特征融合和损失函数的SSD(Single Shot Multi Box Detector with improved feature fusion and loss function,FALSSD)方法。通过在骨干网络Res Net50部分增加特征融合,并提出一个新的损失函数实现唐卡目标检测。实验结果显示本文方法在PRTK1数据集上,目标检测精度达到了83.85%m AP,与其他先进的模型进行比较,本文模型性能表现较好。(3)针对类别不平衡问题将Retina Net模型进行优化。Retina Net模型特征提取不充分,分类不够准确,导致模型检测精度不高。因此,针对类别不平衡,从数据集和目标检测两方面优化,在RPTK1数据集上进行实验,本文方法达到88.87%m AP,与其他先进方法相比,本文方法的检测效果更好。(4)设计开发唐卡图像目标检测系统,并将上述改进的SSD模型和Retina Net模型嵌入其中。
基于双输入图卷积神经网络的方面级情感分析研究
这是一篇关于方面级情感分析,类别不平衡,图卷积神经网络,依存句法分析的论文, 主要内容为随着互联网渗透到社会经济生活的各个领域,网络用户生成的文本数据量呈指数型增长。获取用户生成社交内容的方面级别情感倾向,对于舆情监控、推荐系统、商业决策、信息预测等方面意义重大。方面级情感分析(Aspect Based Sentiment Analysis,ABSA)成为自然语言处理的研究热点。然而方面级情感分析数据大多呈现出类别不平衡的情况,且现有用于方面级情感分析的深度学习方法缺少对文本语法信息的利用,图卷积神经网络的提出为句法信息图表示提供了有效学习方法。因此,本文结合类别不平衡处理和图卷积网络,开展方面级情感分类方法的研究。主要完成工作如下:(1)针对方面级情感分析的数据样本中类别不平衡现象,提出欠采样和过采样相结合的自动权重估计采样法用于方面级情感分类任务中。该技术能够在不平衡数据集采样时自动估计抽样权重,重新平衡类分布;其优点在于无需创建新的平衡数据集,能够通过降低过拟合及数据特征缺失,提高方面级情感分析模型的分类准确率。(2)针对图卷积神经网络模型对文本上下文语义信息和局部特征提取不足的缺陷,提出在图卷积神经网络前加入串行的双向长短期记忆网络与卷积神经网络组合特征提取,以双向长短期记忆网络长距离上下文特征提取优势及卷积神经网络局部特征提取优势来弥补图卷积神经网络的不足。(3)结合基于句法编码及基于自注意力模型的优势,提出包含句法编码和自注意力模块的双输入图卷积神经网络模型,通过将依存句法分析编码得到的邻接矩阵与自注意力机制得到的注意矩阵分别输入到两个并行的图卷积神经网络中,使得模型能够更好学习文本句法信息及语义信息,从而使方面词与情感词建立更好的联系。(4)三个不同数据集的实验结果表明,该模型的准确率和宏平均F1值与相应基线模型相比均有1%至2%提升。此外,论文通过消融实验,验证了上述方法的有效性。
面向数据长尾分布的实体关系抽取研究
这是一篇关于实体关系抽取,深度学习,长尾分布,类别不平衡,少样本学习的论文, 主要内容为现如今人工智能伴随着机器学习和深度学习等相关技术的快速发展,已经在日常生活、工作中处处发挥着便利我们的作用,但是智能机器进一步认知人类世界离不开对知识的理解。知识图谱以结构化的形式存储着数据知识,用于描述客观世界中的抽象概念、命名实体以及相互关联关系。知识图谱构建质量依赖于实体关系抽取的性能。目前基于深度学习的实体关系抽取模型依赖于大量的标注数据,而真实应用落地场景中少样本类别所占比例较大,数据长尾分布的特点不容忽视。数据长尾分布场景下,如何能够合理利用头部常见类别的较多标注数据解决尾部少样本类别抽取性能较差的问题,是目前亟需解决的科研课题。目前面向实体关系抽取数据的长尾分布特点,分别有针对整体分布下类别不平衡场景的研究,以及专门针对长尾部分少样本数据场景的抽取研究。本文基于这两方面研究视角分别提出了数据长尾分布场景下改善实体关系抽取性能的算法模型。在整体分布类别不平衡研究视角,提出解耦现有抽取模型的角度看待抽取问题,从而将提升尾部类别抽取性能的关键放在了分类层模块参数学习上;在针对尾部数据少样本研究视角,提出了充分利用实体和关系的交互信息,通过构建多类型原型的方式桥接文本信息和知识表征信息以提升尾部少样本数据的抽取性能。具体来讲,本文研究内容包括如下两个方面:1.针对整体数据长尾分布导致的类别不平衡研究视角,本文提出了将现有基于深度学习的实体关系抽取模型解耦看待。当模型解耦为用于抽取文本语义信息的表征层和针对特定类别范式的分类层后,观察探针解耦实验结果发现常用的自然采样方式学习到的表征能力高于数据重采样、损失函数重加权等类别重平衡处理技巧。此时进一步提出采用基于关系注意力的路由机制RAR(Relational Attention Routing)分类层参数学习算法,让关系层胶囊更均衡的竞争表征层文本信息胶囊的注意力,并结合关系胶囊层均分初始化及跨胶囊层多次路由迭代的优势,得以提升整体数据的抽取性能。在常用和人为构造的长尾实体关系抽取数据集上进行实验,得到验证所提方法的有效性,在不降低头部类别抽取性能的前提下提升尾部不常见类别的抽取能力。2.针对长尾部分少样本数据研究视角,为了充分利用知识三元组中实体对和关联关系之间的隐式交互,结合知识表示学习中的翻译算法,提出了一种多原型嵌入网络模型MPE-Net(Multi-Prototype Embedding Network)用于解决少样本场景中的实体关系联合抽取问题。具体来说,模型设计了一种混合的原型学习机制,将实体对和关系的文本、知识桥接在一起,从而让模型在学习过程注入实体和关系之间的隐式关联。此外,为了增强模型学习原型的效率和性能,同时引入了一种原型感知的正则约束,使得同类别的原型学习更加集聚,不同类别原型间的空间距离进一步拉大。
基于多层级联结构的输电线路销钉缺陷检测研究与应用
这是一篇关于小目标检测,销钉缺陷,输电线路巡检,类别不平衡的论文, 主要内容为随着十四五规划的展开,稳定的电力供应成为保障经济社会正常运转的关键一环。销钉是输电线路中用于固定螺母的器件,销钉的脱落会导致输电线路的不稳定,极易引起跳闸事故。近几年,基于深度神经网络的目标检测技术获得了飞速发展,尤其在电力运维中与无人机巡检进行结合,提高了巡检人员的巡检效率和人身安全性。因此一种基于深度神经网络的销钉缺陷检测方法对巡检人员完成销钉缺陷的巡检工作,对维护输电安全具有重要的研究意义和应用价值。销钉缺陷检测主要存在三个挑战,最大的挑战在于销钉是绝对意义上的小物体;其次,复杂的自然环境背景和邻近的大量相似机械部件加剧了检测难度;第三,在数据层面上存在正常状态销钉和缺失状态销钉的类别不平衡问题。当前的销钉缺陷检测研究分为基于传统图像处理技术的检测方法和基于深度神经网络的目标检测模型的方法,但检测销钉缺陷的性能依然不能满足工业界的实际需求。本文介绍一种基于多层级联结构的销钉缺陷检测方法,其在性能表现上优于直接使用单个深度神经网络的目标检测模型进行销钉缺陷检测的方法。本文的检测方法分为四个模块,分别为图像预处理模块、冗余滑动窗口分割模块、销钉图像定位模块和销钉状态分类模块。通过多层级联的方式,不仅逐步提高销钉图像在待检测图像中的区域占比,放大销钉图像的特征,还能够过滤掉无关的复杂背景。为训练和测试本文提出的销钉缺陷检测方法,本文构建了三个基于真实输电线路场景下的销钉样本数据集,在构建过程中采用数据增强的方式对销钉样本数据集中的类别不平衡的问题进行了改进。本文提出的基于多层级联结构的销钉缺陷检测方法和其中的重要模块在数据集上进行了大量实验,实验结果表明,本方法在检测缺失销钉上具有很高的准确率,并且针对改进部分的消融实验验证了其有效性。此外,本文面向巡检人员设计和实现了一个销钉缺陷检测系统。系统使用Python语言进行开发,采用B/S架构,前后端分离的开发方式。前端选用Vue等技术实现上传巡检图、调用部署的销钉缺陷检测方法以及查看对销钉的检测结果等界面。后端选用Flask作为Web框架,使用关系型数据库MySQL保存巡检图和检测结果,使用gRPC的方式调用通过Paddle Serving部署的销钉缺陷检测模型。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://m.bishedaima.com/lunwen/48024.html