基于置信度的AUC学习
这是一篇关于机器学习,AUC,置信度,排序,拒绝学习,深度学习,CTR的论文, 主要内容为AUC是机器学习中一种重要的性能评价准则,被广泛应用于医疗诊断、推荐系统、生物信息学等诸多领域。既有AUC学习的研究大多集中于大规模数据的优化求解,而忽略了学习模型的鲁棒性问题,例如在很多实际应用中一个错误的决定往往可能带来严重的后果。本文围绕AUC优化的鲁棒性问题开展研究,提出了基于置信度的AUC优化学习方法,取得了以下创新成果:提出了基于置信度的在线AUC优化算法AUCRO(AUC Optimization with a Reject Option),将拒绝学习与AUC优化学习关联起来,建立了一个带有拒绝机制的AUC优化框架,在此框架下利用嵌入规则和凸放松技术,提出了在线AUC优化算法AUCRO。通过拒绝低置信的示例有效提升了模型的鲁棒性,并使得模型在高置信的示例预测中获得更好的AUC。理论上给出了贝叶斯最优解、以及给出了AUCRO算法的收敛性分析。实验验证了AUCRO算法与既有AUC算法相比通过拒绝了低置信示例有效提升了模型的鲁棒性,与既有拒绝学习算法相比获得了更高的AUC。提出了基于置信度的显著提升AUC的深度点击率预估优化算法DCA(Deep Confidence-Based Algorithm),该算法包括示例置信模块,行为置信模块和基线点击率预估优化框架三部分。示例置信模块为每个示例自适应地学习实数值置信度,并以此作为权重为每个示例重新赋权,同时该模块可以在推断阶段冻结以避免额外的推断开销。行为置信模块利用时序信息为用户的每个历史行为学习置信度向量,提升来自基线点击率预估优化框架的用户兴趣向量的准确性。实验结果表明DCA算法在大型企业的推荐系统点击率预估任务中获得了更高的AUC、以及提升了模型的鲁棒性。
基于置信度的无线网络优化知识图谱评估系统的设计与实现
这是一篇关于置信度,知识图谱质量,无线网络优化知识图谱的论文, 主要内容为随着知识图谱研究热潮的兴起,涌现出了很多大规模知识图谱,包括通用知识图谱和领域知识图谱。其中,领域知识图谱面向军事、交通、网络等特定领域构建,广泛应用于复杂的应用分析或辅助决策等场景,对知识精度和深度具有更高要求。以无线网络优化知识图谱为例,该图谱利用知识图谱以知识的形式组织各类网络相关信息(包括网络优化问题判断规则、网络优化方案制定规则、网络配置资源信息、网络运行质量判断信息等),为网络问题的判断和网络优化方案的制定提供依据,因而无线网络优化知识图谱的质量将对其网络问题判断的准确性等性能造成很大影响。然而,目前采用自动化或者半自动化方式从不同来源提取和融合数据来构建无线网络优化知识图谱,不可避免地会引入潜在的噪声与冲突,无法保证构建的领域知识图谱的质量且无法满足领域知识图谱对知识精度的要求,将对领域知识图谱的可信度和可用性产生很大影响。因此,为了进一步提高无线网络优化领域知识图谱对其应用的支撑性能,知识图谱质量评估的研究具有重要意义。但现有无线网络优化知识图谱质量评估方法中存在如下问题:1)人工质量评估方法成本高,不适用于大规模知识图谱,且其准确性受人工经验等主观因素影响。2)置信度评估是典型的自动化质量评估方法,然而现有置信度评估方法无法检测实体类型匹配错误,且知识图谱内部信息利用不充分。针对现有无线网络优化知识图谱置信度评估方法未考虑实体类型匹配错误、未充分利用知识图谱内部信息等问题,提出一种改进的置信度计算方法,进而全面准确评估无线网络优化知识图谱质量。该方法从局部置信度层次和全局置信度层次综合评估知识图谱质量。其中,局部置信度层次,通过改进置信度能量函数,融入对实体类型匹配的考虑,能够同时检测出三元组错误和实体类型匹配错误两类错误;全局置信度层次,通过TransFormer编码器学习多步路径向量表示,充分考虑所有实体之间的依赖关系和实体类型信息,全面利用知识图谱内部信息对无线网络优化知识图谱质量进行置信度评估。实验仿真结果表明改进的置信度计算方法的可行性和有效性。之后,基于上述对无线网络优化知识图谱置信度评估方法的研究,开展无线网络优化知识图谱质量评估系统的设计与实现。基于软件工程理论完成需求分析、概要设计与详细设计工作,采用Flask、Python、Vue、MySQL、Neo4J、阿里云OSS存储服务技术栈开发实现。本系统融入基于置信度的无线网络优化知识图谱评估算法,从局部置信度和全局置信度两个方面综合评估无线网络优化知识图谱质量并反馈用户结果,同时提供对比方法以验证本文所提方法在无线网络优化知识图谱上的有效性。按照无线网络优化知识图谱评估的流程逻辑,系统实现的主要功能可以分为:图谱展示、图谱查询、图谱数据处理、图谱评估、图谱纠错、模型训练、用户信息管理,并对实现的各个功能设计详细测试用例以验证功能。经测试验证,实现的功能实现结果均符合模块设计目标,能够有效为无线网络优化知识图谱提供质量评估服务。本文重点研究面向无线网络优化知识图谱质量评估系统的全面的准确的评估知识图谱质量的置信度计算方法,并完成相关系统的设计与开发。结果表明,本文所提出的基于置信度的无线网络优化知识图谱质量评估方法能够有效考虑知识图谱三元组错误和实体类型匹配错误两种错误,为后续无线网络优化知识图谱质量提高提供有效参考,具有一定的现实价值与应用意义。
基于用户偏好与特征属性的协同过滤算法研究
这是一篇关于协同过滤,全局项目,用户偏好,稀疏数据,冷启动,置信度,属性特征的论文, 主要内容为协同过滤是推荐系统中最常用和最成功的推荐技术之一。但其一直受到数据稀疏性,冷启动等问题的影响。针对这些问题,本文对传统协同过滤算法进行研究与改进。(1)现实中的数据往往比较稀疏,用户之间缺少共同评定项目,使一些传统的相似性度量无法进行计算;此外,传统的协同过滤算法忽视了用户偏好问题,这样会造成推荐精度的下降。针对这些问题,本文从用户全局项目和地方评级信息分析影响用户兴趣偏好的因素,通过计算用户评级信息在全局的概率分布和使用海明贴进度计算用户的兴趣偏好度,利用Jeffries-Matusita距离得出关于用户偏好的相似度算法,最后将相似度算法与传统相似度算法有效结合,提出了一种在稀疏数据下基于用户偏好的协同过滤算法模型。实验结果表明,改进的算法模型性能优于传统协同过滤算法和文献算法,并且在更为稀疏的数据集上也有着很高的准确率。(2)稀疏数据下,因为缺少用户共同评定项目而造成的相似度计算失真问题。针对该问题,引入了置信度函数思想:一、对比用户的评分项目,把握用户在全局上对项目的偏好程度;二、使用信息熵原理计算用户隐藏在数据中的信息要素;针对冷启动问题,本文考虑了影响推荐性能的隐语义信息,即用户的多特征属性,包括用户的性别,职业,年龄等等。为用户特征属性进行具体划分和赋予权值,使用距离公式计算不同用户间的特征相似度。其次,考虑到时间跨度会对推荐产生影响,利用logistic函数对时间因子进行映射,对时间较为久远的项目评分进行惩罚;最终,结合传统算法,提出了关于多用户特征属性的相似度改进算法。通过在多种数据集上与传统算法进行对比分析,实验结果表明改进算法有着更低的平均误差。
基于用户偏好与特征属性的协同过滤算法研究
这是一篇关于协同过滤,全局项目,用户偏好,稀疏数据,冷启动,置信度,属性特征的论文, 主要内容为协同过滤是推荐系统中最常用和最成功的推荐技术之一。但其一直受到数据稀疏性,冷启动等问题的影响。针对这些问题,本文对传统协同过滤算法进行研究与改进。(1)现实中的数据往往比较稀疏,用户之间缺少共同评定项目,使一些传统的相似性度量无法进行计算;此外,传统的协同过滤算法忽视了用户偏好问题,这样会造成推荐精度的下降。针对这些问题,本文从用户全局项目和地方评级信息分析影响用户兴趣偏好的因素,通过计算用户评级信息在全局的概率分布和使用海明贴进度计算用户的兴趣偏好度,利用Jeffries-Matusita距离得出关于用户偏好的相似度算法,最后将相似度算法与传统相似度算法有效结合,提出了一种在稀疏数据下基于用户偏好的协同过滤算法模型。实验结果表明,改进的算法模型性能优于传统协同过滤算法和文献算法,并且在更为稀疏的数据集上也有着很高的准确率。(2)稀疏数据下,因为缺少用户共同评定项目而造成的相似度计算失真问题。针对该问题,引入了置信度函数思想:一、对比用户的评分项目,把握用户在全局上对项目的偏好程度;二、使用信息熵原理计算用户隐藏在数据中的信息要素;针对冷启动问题,本文考虑了影响推荐性能的隐语义信息,即用户的多特征属性,包括用户的性别,职业,年龄等等。为用户特征属性进行具体划分和赋予权值,使用距离公式计算不同用户间的特征相似度。其次,考虑到时间跨度会对推荐产生影响,利用logistic函数对时间因子进行映射,对时间较为久远的项目评分进行惩罚;最终,结合传统算法,提出了关于多用户特征属性的相似度改进算法。通过在多种数据集上与传统算法进行对比分析,实验结果表明改进算法有着更低的平均误差。
基于置信度的可信图神经网络研究
这是一篇关于图神经网络,可信性,置信度,自训练,长尾分布的论文, 主要内容为近几年来,随着深度学习技术的深入发展,适用于图这种特殊数据结构表示学习方法——图神经网络(Graph Neural Network,GNN)受到了广泛关注。实验表明,图神经网络已经在多种图相关的任务与场景中取得了卓越的成果,包括社交网络分析,交通流量预测,生物医药,推荐系统,计算机视觉等。尽管图神经网络预测性能卓越,但其预测结果是否可信仍有待探索,尤其是当图神经网络涉及到风险敏感场景时,模型的可信性成为一个更加迫切的需求。迄今为止,对可信性的定义仍未形成共识,但深度学习领域的诸多研究,如对模型的鲁棒性、可解释性、分布外泛化性等研究均被认为属于可信性的范畴。在此之中,有一种思想从置信度的角度出发,认为可信的模型应该具有恰当的自我认知能力,能够清楚其预测能力的边界,并通过可信的置信度表现出。换句话说,整体而言,可信模型应该能够对其正确的预测给出较高的置信度,对其错误的预测给出较低的置信度,即模型对预测结果的置信度与其预测准确率一致。先前的研究表明,许多神经网络对预测过于自信,即预测结果的平均置信度高于其平均预测准确率,其置信度是不可信的。然而,还未有研究基于置信度探究图神经网络的可信性,因此本研究旨在弥补该研究空白,从置信度出发,从多种角度探究图神经网络模型与基于图神经网络的学习方法的可信性。本研究首先探究了朴素图神经网络模型的置信度与其预测准确率是否一致,探究结果指出图神经网络模型的置信度是不可信的,这与对传统神经网络模型的实验结果一致。但是本研究额外发现,图神经网络预测结果的平均置信度低于其平均预测准确率,这说明图神经网络是欠自信的,这与传统神经网络模型表现截然相反。进而,本研究设计了拓扑感知的后处理置信度校正函数,以改进置信度的可信性。该校正函数以图卷积神经网络作为骨干模型,并融合了温度缩放方法,以保证置信度校正后图神经网络模型的预测性能不会发生改变,从而得到一种新颖的可信赖图神经网络模型CaGCN,最后本研究通过大量实验验证了 CaGCN在提升置信度可信性方面的有效性。受启发于对图神经网络的置信度不可信的发现,本研究继续探究了置信度在基于图神经网络的学习方法——图自训练学习中的可信性。探究结果表明在图自训练过程引入过多的高置信度伪标签节点并不会为模型带来太多性能增益,而且还会为数据集引入分布迁移问题,本研究因此得出图自训练学习中置信度是不可信的结论。基于此,本研究提出了新型的图自训练学习框架DR-GST,其基于信息增益的损失函数可以消除分布迁移的负面影响,并继续增加了损失修正策略以提升伪标签的正确率,最后本研究通过实验和理论证明了 DR-GST的合理性和有效性。此外,由于受到噪音和隐私保护的负面影响,可信的图神经网络模型并不一定能够获得可信的预测结果,因此本研究进而从置信度的角度出发探究如何提升图神经网络的输入——图数据的可信性。考虑到消息传递机制对图神经网络的决定性作用,本研究从图数据中对消息传递机制最有可能产生负面影响的因子,节点的度入手,探究在度呈现长尾分布的图中如何获得可信的图拓扑。本研究提出了置信度引导的可信拓扑生成方案TNTG,其能够在富含信息的头节点的指导下为信息较少的尾节点生成图拓扑。本研究最后证明了提出的TNTG在改进图神经网络在节点分类尤其是尾节点分类方面的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/47778.html