6篇关于多模态学习的计算机毕业论文

今天分享的是关于多模态学习的6篇计算机毕业论文范文, 如果你的论文涉及到多模态学习等主题,本文能够帮助到你

基于多模态学习与自监督学习的图推荐算法研究

这是一篇关于推荐系统,多模态学习,自监督学习,图神经网络,胶囊网络的论文, 主要内容为随着互联网时代的来临,信息数量爆炸式增长和信息复杂程度与日俱增,信息超载成为了亟待解决的问题,于是推荐系统在上世纪九十年代就成为一个专门的学科进行研究。然而传统的基于图神经网络推荐算法在冷启动处理、高阶信息聚合、无标签学习等方向上存在不足,因此本文围绕多模态数据推荐问题展开研究,采用多模态学习、自监督学习以及图数据结构增强等方法,并提出了三个算法模型。首先,针对推荐系统冷启动以及传统图神经网络难以自适应捕捉用户偏好等问题,本文面向视频、音频和文本数据,提出了基于多模态学习的图门控注意力网络推荐算法。该方法将多模态表征嵌入到模型之中对用户偏好进行建模,然后将注意机制引入到图神经网络框架中,用于分离用户对不同模态的偏好,并进一步引入了门控机制,对多模态交互图中的信息流进行控制和加权,便于理解用户行为。其次,针对推荐系统高度依赖标签导致的人工标注高成本、图卷积神经网络高阶信息损失、模型泛化能力弱等问题,本文提出了基于自监督学习的胶囊图卷积网络推荐算法,该方法使用胶囊图卷积网络来捕获节点间的高阶关系并构建监督信号,并采用三种数据增强模式来构造对比视图和自监督信号,进一步采用噪声对比估计来构建对比损失,实现自监督学习的引入。再次,本文对多模态与自监督学习基于的图学习推荐进行了一次尝试,旨在解决传统推荐范式受监督数据稀疏和未触及模式和结构的影响的这些局限性,进一步探索推荐系统的潜力。面向视频、音频和文本数据,本文提出了基于多模态学习和自监督学习的图神经网络推荐算法,该方法设计了一个多模态并行的基于图的推荐模型作为主监督学习任务,并根据多通道模式设计了三种不同粒度的数据增强方法来构建多模态自监督组件。最后,本文在Tiktok、Kwai、Movie Lens、Last-FM、Yelp等数据集上进行了广泛的实验,并与先进的基线模型进行了对比,对关键组件和重要参数进行了探索研究,分析和验证了所提出模型的有效性和优越性。

面向微博用户的文本自适应图片推荐

这是一篇关于推荐系统,表示学习,用户建模,深度学习,多模态学习的论文, 主要内容为在社会化媒体时代的社交网络平台上,图文并茂的表达方式已经成为主流。相比于原创一段文字并发布于社交媒体,用户创作图片的过程明显更加复杂。因此,使用已经存在的图片表达自己内容的方式受到了社交网络用户的欢迎。作为人们获取信息、交流、沟通的重要平台,社交网络平台给用户提供了丰富的数据来源、个性化的互动方式,但其数据的爆炸式增长又导致了严重的信息过载现象。如何从海量的源于社交网络的图片中找到符合用户文字表达内容,又与用户使用图片的风格相一致的图片成为了很有挑战性的问题。论文以新浪微博为研究平台,研究基于用户输入文本的图片推荐问题,并尝试提出一套完整的图片推荐体系,主要工作如下:1.借助python爬虫工具,从新浪微博、花瓣网上获取了大量数据。针对原始数据噪音较大的问题,本文基于新浪微博和花瓣网用户数据分布的特点,提出了一套数据清洗方法,对冗余信息进行了清洗,提高了训练数据纯度。进一步,提炼了用户基本信息、社交关系、微博图片、文本内容等信息,建立了用户人口统计学特征、微博内容特征、图片风格特征、影响力特征等特征组,强化了数据的表达能力。2.针对数据集中文本模态数据非常稀疏的问题,本文将图片以及其对应的文本描述转化成了BIW网络图,在对BIW网络图的连接关系与拓扑结构进行分析后,通过一种改进的随机游走算法解决了图片文本描述信息过短和文本描述缺失的问题。进一步,本文设计了一种基于BIW网络图嵌入向量的深度学习框架,获取了微博图片与文本的多模态联合表示。3.提出了三种基于多模态表示的用户风格建模方法。其中注意力模型考虑了在发布不同主题内容时用户风格的多样性,动态的对用户风格进行建模。随后,基于建立的用户风格模型,提出了一种综合利用用户当前输入文本、历史使用图片风格等多种要素的图片推荐框架,通过分析用户特征与候选图片之间的潜在联系,产生最终的图片推荐。实验结果表明,本文提出的特征提取、多模态表示学习、用户建模对于结果提升皆有效果,结合各模块后的推荐算法效果远优于常见算法。

基于多模态学习与自监督学习的图推荐算法研究

文本引导的人像生成系统的设计与实现

这是一篇关于文本生成图像,多模态学习,生成对抗网络,图像潜码,智能创作的论文, 主要内容为随着5G时代的到来,短视频、视频直播、数字人与元宇宙等应用蓬勃发展,其中的核心技术人工智能生成内容(Artificial Intelligence Generated Content,AIGC)更是受到了人们的广泛关注。人们的个性化创作需求与日俱增,为了满足不同用户的广泛需求并激发用户的创意,同时提升内容多样性并降低制作成本,业界广泛探究并应用基于文本引导的图像生成技术来实现自动化生成。在生成过程中,图像与文本的跨模态表征以及相似度特性等信息对于算法模型来说,往往较难以学习,并且缺少良好的图像潜码初始化及迭代优化策略,进而导致图像生成质量、多样性以及文本相关度较低。本文基于上述问题,进行相关研究。首先,本文设计基于多模态对齐融合的图像文本匹配模块。该算法模块使用Transformer架构进行单模态特征对齐与多模态特征融合,进而增强模型的图像文本匹配能力。该模块可以用于计算给定的图像和文本的相似度,既可以用作模型训练时的监督信息,也可以作为一种客观的评价指标,用于评估模型生成图像的文本相关程度。其次,本文提出基于样式的图像潜码初始化模块以及潜码迭代优化机制并设计StylBEF算法模型。采用基于样式的图像生成模型以及潜码空间,设计潜码初始化策略,防止潜码落入潜码空间的低密度表征区域,进而提高图像生成质量。基于初始化策略,设计潜码迭代优化机制,使图像生成的多样性和文本相关性得到进一步提升。一系列对比实验验证了本文提出方法的有效性。最后,本文设计并实现了文本引导的人像生成系统,该系统仅需一张GPU即可部署。系统集成了本文提出的算法模型StylBEF以及基线模型,实现了用户提供文本自动生成对应人像的功能,同时允许用户自定义迭代超参数,满足用户多样的生成需求,辅助用户进行智能创作。

一种基于深度学习和多模态学习的多媒体推荐系统排序算法

这是一篇关于深度学习,推荐系统,对抗学习,多模态学习的论文, 主要内容为得益于互联网和移动设备的广泛应用,以信息流形式为基础的电子商务平台和短视频平台正在占用更多的流量和用户时长。为了解决“信息过载”问题,个性化推荐系统成为了互联网厂商重点发展的核心技术。本文以多媒体推荐系统为研究课题,主要关注大规推荐排序算法中普遍存在的挑战,重点研究了利用深度学习和多模态学习解决用户冷启动,物品冷启动,小样本量等问题。主要内容分为三部分。第一,物品冷启动。物品冷启动指的是新的物品加入推荐系统中,由于不存在过往的用户行为数据,导致系统无法准确将该物品推荐给合适的用户。而传统的推荐算法往往无法高效利用物品本身的多媒体内容信息,例如标题,描述,图片等,因此可以利用对物品内容的刻画预估对该物品感兴趣的用户。相比于对比方法,本文提出一种基于对抗学习的多模态学习方法,为冷启动物品的内容表达自动提升权重,从而提高了冷启动物品的推荐效率。该方法在Pinterest公开数据集上验证了有效性,在点击率和排序效果上均提升超过14%。第二,用户冷启动。用户冷启动指的是新的用户加入推荐系统中,由于系统缺乏其基本信息和过往行为数据,无法准确为其提供推荐。本文提出了一种混合兴趣表达模型,将用户对物品的兴趣分解个性化兴趣与半个性化兴趣,半个性化兴趣被表示成用户到不同群组的相似度与这些群组对物品的加权兴趣概率的乘积。并提出了一种可以端到端训练的用户兴趣建模模型,其中可以按批实现聚类。作为一个兴趣表达框架,混合兴趣表达模型可以融入当前主流的任意推荐算法,并通过用户群组建模推高其结果。该方法在2个公开数据集和1个工业界真实数据集上验证了有效性和普适性,大幅度提高对低活跃度用户和冷启动用户兴趣预估的准度。第三,小数据量场景下的多媒体推荐算法。深度学习尽管在数据量充足且标注准确的情况下,能够超过传统方法,但在数据量不足的情况下,决策树可能更为适合。本文为基于会话的推荐引入了一种称为TSE的新嵌入方法。给定用户的观看列表(会话)和目标物品,TSE将每个物品联合嵌入会话中,同时考虑会话中所有项目之间的相对位置和关系。这种嵌入方法使推荐系统可以对最近的观看项目进行更多加权,并挖掘用户的长短兴趣。同时使用多头注意力对序列嵌入再进行非线性变换。嵌入之后,推荐就归结为分类问题。通过创新的使用梯度提升决策树处理神经网络嵌入,TSE获得了更好的性能。TSE方法在2019年ACM世界多媒体年会和Hulu主办的基于内容的视频关系预测大赛中获得冠军。