基于多模态图网络的人物交互检测算法研究
这是一篇关于目标检测,人物交互检测,注意力机制,多模态,图网络的论文, 主要内容为随着人工智能领域以及相关算法的不断发展,人物交互检测技术作为计算机视觉领域中的一项高级任务,在视频监控、自动驾驶和智能医疗等场景中广泛应用。人物交互检测需要检测出场景中的人和与其互动的物体,推断人与物体之间的交互关系。从采用的数据类型来看,看本文提出的模型属于多模态数据研究范畴。本文提出的人物交互检测方法属于二阶段方法,本文从目标检测开始入手,改进了Center Net网络在目标检测中存在的由遮挡以及目标姿态多变等引起的精度下降问题,随后采用图网络对图像特征和文本特征进行融合后推断出最终结果,主要工作如下:(1)对于目标检测阶段,本文采用Center Net作为模型目标检测器基准。由于检测场景较为复杂,目标可能会存在遮挡或者密集等情况,并且人体的姿态是十分多变的。针对上述问题,本文首先在原Center Net的特征提取骨干网络中引入了反转卷积这一模块,融合了图片中的空间特征和通道特征信息,使网络从多种角度学习目标特征;其次本文设计了一种非局部注意力检测头,通过该注意力头可有效的区分遮挡目标;最后为了减少级联误差,本文将目标检测里的分类预测和中心点预测的损失函数合并成一项。实验结果表明上述方法对Center Net的检测精度有所提升。(2)对于人物交互检测阶段,以往的工作大多都采用图像特性来进行检测,然而在现实生活中,人们对一个事物的判断往往来自于多源信息。基于这一思想本文在进行交互检测时引入文本模态数据。采用Word2vec模型产生交互结果的先验,之后与视觉特征信息以图结构的方式相融合,并对每个节点进行更新,获得最终的结果。图网络的结构可以研究其他物体对交互结果的影响,并通过注意力机制不断更新,由此用来消除歧义。通过实验结果表明多模态数据提高了检测精度,图结构有效地消除了检测结果的歧义。(3)以改进的人物交互检测模型为基础,搭建了人物交互检测系统平台。针对平台输入图片质量不高等问题,在进行检测之前加入了图像预处理部分。仿真实验显示该平台具有出色的检测效果。该平台复现了本文的核心研究内容,在人物交互检测领域具有一定的参考价值和意义。
针对稀疏交互数据的多行为商品推荐系统研究
这是一篇关于稀疏数据,多行为推荐,图网络,层级协同系统的论文, 主要内容为在互联网技术急速发展的现代社会中,用户主要关注如何从大量信息中找到自己感兴趣的部分,而消费平台则需要让自己生产的信息脱颖而出进而受到广大用户的关注。对于电商平台而言,用户的购买行为直接决定其总体收益。为了提升用户留存以及商家入驻数,平台可以通过推荐系统建立用户与信息之间的关联关系,将用户的历史交互数据作为媒介,有策略地让用户主动或被动地选择对自己有价值的商品,从而推动平台的更新迭代以及用户的深度消费。在实际场景中,冷启动与样本数据的稀疏性会对推荐系统的效果产生负面影响。为了解决这个问题,本文的主要工作为:1)依托电商推荐背景,设计并构建了名为增强融合转换图网络即IATG的多行为推荐模型。通过融入用户与商品之间除购买行为外其它类型的行为特征来缓解目标行为数据的稀疏性带来的负面影响,该模型对用户在目标行为模式下的交互商品做出预测,获取推荐列表。同时将IATG与多个基准模型进行对比,并从各方面对模型结构与设计理念的合理性做出了解释。实验结果表明,相较次优基准,IATG在两种评测指标上平均获得了 4.5%的性能提升。2)实现了基于层级协同的多行为商品推荐系统,以IATG为核心,结合各对象元素的原始信息与特征语料,从系统层面设计了线下训练与线上推理环节,并对各级模块进行了性能方面的测试。经过验证,该系统实现了从客户端发起请求到服务端返回商品推荐列表的整体流程,在稀疏交互数据的环境下具有良好的推荐效果与可应用性。
结合自编码器和知识图谱的零次学习研究
这是一篇关于分类,零次学习,自编码器,知识图谱,图网络的论文, 主要内容为近年来,深度学习在诸多领域都取得了很好的效果,不过其最大弊端,就是学习过程中需要大量标注好的训练数据,而这会消耗很多的时间和精力。零次学习能够较好的解决这个问题,它通过标注好的可见类的训练集和关于不可见类与可见类语义相关的知识进行学习训练,使得模型能够识别出训练过程中未出现的类别样本。零次学习中有视觉特征与语义特征,这两种特征能否较好地表示相应类别对最后的分类结果有很大影响。因此对特征本身的优化非常重要,尤其是语义特征,因为类别的语义特征大多是人为定义的,不可避免的会存在对图像描述不够准确的问题。另外零次学习还需要将语义特征与视觉特征映射到相同的维度空间,这是零次学习中的关键,不同的映射方式对最终的结果影响很大。本文在对现有工作研究分析的基础上,提出了相关双自编码器方法和基于知识图谱的零次学习方法,主要研究内容如下:(1)针对语义特征对图像描述不够准确的问题,本文提出了相关双自编码器的模型架构。本文对视觉特征与语义特征分别建立了自编码器,这两个自编码器是有联系的,视觉特征自编码器产生的结果会影响下面语义特征自编码器的编码解码过程。这么做能使语义特征中包含图片的视觉信息,使语义特征能更完整更细粒度地描述图片,从而起到提高识别分类准确率的作用。(2)类别之间的连接关系能帮助学习到一些隐藏的语义特征,从而能够更好地与视觉特征进行映射,所以本文利用Word Net知识图谱来构建类别之间的关系图,引入额外的先验知识。然后利用图网络算法Graphsage对关系图进行学习训练,不断吸收学习相邻节点的信息,使得关系图中节点有更完整的语义描述。因为引入了图结构,所以本文通过图卷积神经网络将语义特征映射到与视觉特征相同的维度空间。此外,本文还利用了直推式的学习方式,将测试集中的图片也引入到训练的过程中,这样能让学到的知识更好地从训练集类别迁移到测试集中的类别,能很好的减少过拟合。本文将这两个模型在Aw A、CUB和Image Net数据集上进行了大量的实验,取得了比之前一些模型更好的结果,其中第二个模型方法有着更出色的表现。
基于多智能体深度强化学习的协同策略生成技术研究及实现
这是一篇关于多智能体协作,价值分解,多智能体强化学习,注意力机制,图网络的论文, 主要内容为多智能体协作是人工智能领域中的一个重要问题。多智能体协作技术可以广泛应用于交通灯控制、自主车辆协调、资源管理等应用当中,能够为这些应用任务的实现提供有效支撑。目前,越来越多的科研学者使用多智能体深度强化学习算法来解决多智能体协作问题。在多智能体深度强化学习领域中,多智能体协作问题主要面临着两个挑战:其一是如何在具有部分可观察性的环境中实现智能体之间的相互理解,从而准确判断场上形势并做出最佳决策;其二是如何在只有稀疏奖励的多智能体环境中按照每个智能体所做出的协作贡献合理分配奖励。本文针对对抗场景下的多智能体协作问题展开研究,提出了富有感知力的行动者(Attention-Aware Actor,Tri-A)算法,以及基于图网络的价值分解(Graph Value Decomposition,GVD)算法,并在此基础上进行了原型系统的构建以及研究成果的实验验证。本文的贡献包括以下三点:(1)针对现有方法难以在通信受限且具有部分可观察性的环境中实现智能体之间的相互理解的问题,提出了一个富有感知力的行动者模型。该模型基于集中训练分布执行下的行动者-评判者(Actor-Critic,AC)框架,从智能体自身视角出发,利用视线范围内所观察到的周围智能体的情况进行多智能体相互作用图(Co Co-Graph)的构建,并基于此图重构出具有协作(或攻击)倾向的观察值,而后智能体基于这个重构的观察值进行决策,生成具有协作(或攻击)倾向的动作。该方法仅在智能体的行动者模型中进行改进,可以作为插件插入到任何使用AC框架的多智能体深度强化学习算法当中,提升智能体的决策能力。(2)针对稀疏奖励环境下的信用分配问题,提出了一种基于图网络的价值分解算法,该算法利用多智能体在分布式执行阶段的交互动态将智能体之间的联系建模成一个两层图架构,它能够揭示我方智能体对于攻击敌方智能体所做出的贡献以及每一时刻我方智能体攻击敌方智能体的优先级。在这个两层图架构基础上构建图价值分解网络,将智能体的个体价值融合形成集体价值,并通过反向更新过程训练每个智能体的行动策略,真正实现按劳分配,合理进行信用分配。(3)基于上述研究成果,设计并实现了一个基于多智能体深度强化学习算法的多智能体协作原型系统,并在SMAC开源的星际争霸多智能体强化学习测试平台中对本课题的研究成果进行了实验验证。实验结果表明,相比于现有的方法,本文所提出的模型和算法能够明显提升多智能体系统的协作性能及学习速度。
针对稀疏交互数据的多行为商品推荐系统研究
这是一篇关于稀疏数据,多行为推荐,图网络,层级协同系统的论文, 主要内容为在互联网技术急速发展的现代社会中,用户主要关注如何从大量信息中找到自己感兴趣的部分,而消费平台则需要让自己生产的信息脱颖而出进而受到广大用户的关注。对于电商平台而言,用户的购买行为直接决定其总体收益。为了提升用户留存以及商家入驻数,平台可以通过推荐系统建立用户与信息之间的关联关系,将用户的历史交互数据作为媒介,有策略地让用户主动或被动地选择对自己有价值的商品,从而推动平台的更新迭代以及用户的深度消费。在实际场景中,冷启动与样本数据的稀疏性会对推荐系统的效果产生负面影响。为了解决这个问题,本文的主要工作为:1)依托电商推荐背景,设计并构建了名为增强融合转换图网络即IATG的多行为推荐模型。通过融入用户与商品之间除购买行为外其它类型的行为特征来缓解目标行为数据的稀疏性带来的负面影响,该模型对用户在目标行为模式下的交互商品做出预测,获取推荐列表。同时将IATG与多个基准模型进行对比,并从各方面对模型结构与设计理念的合理性做出了解释。实验结果表明,相较次优基准,IATG在两种评测指标上平均获得了 4.5%的性能提升。2)实现了基于层级协同的多行为商品推荐系统,以IATG为核心,结合各对象元素的原始信息与特征语料,从系统层面设计了线下训练与线上推理环节,并对各级模块进行了性能方面的测试。经过验证,该系统实现了从客户端发起请求到服务端返回商品推荐列表的整体流程,在稀疏交互数据的环境下具有良好的推荐效果与可应用性。
基于向量化的多场景召回方法研究与实现
这是一篇关于推荐系统,行为建模,召回,图网络,向量匹配的论文, 主要内容为本文主要来自于本人在小红书公司的实习项目。该项目基于用户的行为序列、用户画像、笔记画像以及上下文情景,预估用户感兴趣的笔记并完成召回(推荐系统的一部分,为用户粗选一部分待推荐的物品)。平台出于商业化的考量,会在笔记中嵌入信息流广告,因此召回的笔记既要满足用户的喜好,又要最大化平台的利益。本文的主要工作在于笔记推荐系统中的召回阶段,主要是以向量化召回为方式的研究工作。由于召回阶段面对的候选集庞大且对线上的实时性要求较高,当前的召回方式一般采用多路召回的方法,每一路分别用于特定的召回目的。基于策略型(比如按照热度、地理位置的召回等)和统计型(比如协同过滤、矩阵分解等)的召回方式,优点是易于部署、可解释性强,缺点是使用场景有限、难以满足用户的个性化需求;而现有的图表示学习方法受热门物品的影响较大,会出现严重的马太效应。为了有效解决上述问题,本论文在已有方法的基础上,提出了基于向量化的多场景召回方法。该方法包含两类场景:对特定用户的笔记召回(U2I)以及相似笔记之间的召回(I2I)。首先对多种数据源进行分析和处理,根据特征的重要程度进行特征筛选,并对比了负样本的构造方式进行样本集构造。两个场景下分别使用不同的算法进行建模,其中U2I场景下使用双塔DSSM模型优化用户和笔记之间的交互行为,在输入层将数值型特征按照分布情况进行分桶,然后采用Embedding方式将所有特征向量化,可以有效降低模型参数量、加快模型收敛;同时在模型中引入交叉层,从而提高特征提取效率。在I2I场景下,本文使用图注意力网络GAT对笔记之间的邻接关系进行学习,通过多个注意力层聚合的方式更新节点表示,从而使得笔记可以融合全局特征。在产出向量表示之后,进行向量的检索和召回。本文通过对小红书站内7天的用户笔记交互行为进行采样,分别得到了训练集和评估集。评估采用两种指标,包括离线训练指标AUC(Area Under the Curve)、准确率Accuracy;以及产出向量表示后的检索召回指标Recall@K(预测前K个物品在真实的物品序列上的召回率)。在实验过程中,AUC为0.7619,Accuracy为0.763。通过与其他现有的不同方法对比,本论文提出的方法预测误差更低、召回效果更好,从而验证了本论文方法的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://m.bishedaima.com/lunwen/48653.html