基于知识图谱的视觉问答技术研究
这是一篇关于视觉问答,知识图谱,图像理解,多模态融合的论文, 主要内容为视觉问答任务要求模型能够理解输入的图像和文本问题内容,然后给出相应的答案。相比只需要处理单一模态信息的纯文本问答任务,视觉问答要对视觉模态和文本模态的信息进行多模态信息融合处理,这样的任务更符合人类面对问题的真实场景,更接近具有推理能力的人工智能形态,存在较高的研究价值以及在医疗辅助、安防、幼儿教育等领域有着广阔的应用场景。目前,视觉问答任务面临着以下问题与挑战:在模型面对来自图像和文本语言两个不同模态信息的输入时,如何高效的处理多模态信息并得到准确的视觉图像特征表示、自然语言文本特征表示或者是图像文本特征联合表示存在着挑战;模型如何提取高维的图像特征和文本特征以及实现图像文本语义对齐;模型如何根据文本问题来提取图像中相应的物体属性或物体关系特征并进行推理,这些问题都阻碍着视觉问答任务的进一步发展。针对以上问题,本文通过模拟人类在面对现实场景问题时的感知、认知推理过程对视觉问答模型提出了改进方案。主要研究内容如下:(1)本文通过数据集中的标注数据并且提取数据集图像中的物体、属性以及物体关系构建了一个图像关联知识图谱,并结合Word Net中不同的语义相似度计算方法设计了上述知识图谱中的实体关系权重。提出了基于知识图谱特征嵌入及注意力增强的视觉问答框架,将知识图谱中的图像场景结构化知识特征与文本问题特征以及图像特征相结合,在一定程度上解决了图像文本语义对齐问题。(2)本文提出了一种基于跨模态预训练与知识图谱特征对齐的视觉问答框架,通过引入Transformer结构编码图像模态与文本模态信息,以及设计了知识图谱实体预测、关系预测、属性预测、图像ROI区域掩码类别预测、图像文本匹配判断等多个预训练任务让模型学习图像、文本、知识图谱联合特征,有效解决了多模态特征融合和更细粒度的图像文本语义特征提取问题。实验结果表明,在视觉问答模型中加入含有图像场景信息的知识图谱特征能有效的辅助视觉问答任务性能提升。
基于知识图谱的视觉问答系统设计与实现
这是一篇关于视觉问答,知识图谱,三元组知识,SPARQL查询,问题模板,外部知识的论文, 主要内容为现有的视觉问答技术仅能较准确回答可从图像中直接获取答案的问题。对于回答更复杂的问题,目前的视觉问答系统缺少相关数据集,并且其回答具有不可解释性。本文设计了基于知识图谱的视觉问答系统,该系统可以回答更多类型的问题。用户对给出的图像进行随机提问,系统可给出对应答案。系统通过对问题类型进行区分,使不同类型的问题采用最适合方式进行回答。视觉问答中的问题大致分为两类,一类为可直接通过图像直观信息获取答案的问题,一类是需要借助外部知识进行回答的问题。对于第二类问题,借助从实体描述文本中抽取的三元组知识和相关知识图谱进行回答。本系统主要研究工作包含以下三个方面:1)提出了需要借助外部知识进行回答的问题模板的回答方法。使用分类器将全部问题进行区分后筛选出此类问题。采用基于模板的方式进行回答,不同模板对应不同的SPARQL查询模板。借助图像实体信息和问题文本中相关信息,到数据源中查询问题答案。将问题模板按照是否包含明确的被查询实体分为两大类,并设计不同的实体和属性获取方式以及答案查询方式,以便更准确的回答问题。2)设计了需要借助外部知识进行回答的问题的匹配模板方法。视觉问答中的问题采用自然语言进行提问,问题形式多种多样,并且多数情况下问题中不止包含一个实体或者一个属性,而问题模板是最简单的问题样式,只包含一个实体和属性,因此为了将问题准确地和问题模板进行匹配,设计了问题匹配模板的算法,完成对问题模板的匹配。3)根据知识图谱相关知识,设计从数据源中查询答案的方法。需要借助外部知识进行回答的问题的关键是包含哪些外部知识,以及如何从外部知识中获取答案。创建了外部的数据源,数据源由从实体描述文本中抽取的三元组知识和相关知识图谱构成,采用SPARQL查询语句到数据源中进行查询。并设计了在动物领域内的基于知识图谱的视觉问答系统,可回答根据图像提出的问题。
基于LSTM的可解释视觉问答系统设计与实现
这是一篇关于可解释,视觉问答,自然语言处理,多模态,计算机视觉的论文, 主要内容为近年来,随着深度学习的飞速发展,视觉问答领域已经取得了重大进步。视觉问答作为计算机视觉与自然语言处理的交叉领域,其基本任务是观察图像并在此基础上回答文本问题。现有的方法大多是通过预训练的自上而下的注意力机制对图像特征进行表示,然后使用单层门控循环单元(GRU)对文本问题进行编码,最后联合这两种特征得到预测答案。目前,虽然视觉问答系统在准确率上体现出了强大的性能,但无法提供模型决策的过程以及理由,这使得很难诊断系统的决策是否准确。针对上述问题,本文提出了一种基于长短期记忆网络(Long Short-Term Memory,LSTM)的可解释视觉问答模型。该模型的核心为答案预测模块和文本解释生成模块,答案预测模块将图像特征与文本特征融合之后输入到非线性层中,接着使用线性映射来预测答案。文本解释生成模块使用融合语义的词频统计方法,从答案信息中提取主题词,结合LSTM生成文本解释,旨在为视觉问答任务预测答案的同时生成与人类语言一致的解释,从而更好地阅读和理解图像,提高系统的可信性。与传统视觉问答方法相比,本模型能够同时向用户提供模型的预测结果和解释结果,兼顾视觉问答任务答案预测的准确性和可解释性。本文在VQA-X数据集与VQA-E数据集上进行实验评估,实验结果表明,本文提出的基于LSTM的可解释视觉问答模型与目前主流的视觉问答模型相比,本模型在答案预测的准确率上有一定的提升。能够在视觉问答任务中生成高准确率答案的同时生成高质量的文本解释。同时,在本文所提出的基于LSTM的可解释视觉问答模型基础上,基于Python和Py QT相关技术,设计并实现了一种基于可解释的视觉问答系统。此系统可以为用户提供可解释的视觉问答任务,能够保证在生成高准确率的答案同时生成高质量的文本解释。本文对系统进行功能与性能测试,结果表明此系统各个功能模块均能得以实现,系统执行稳定,符合预期需求分析的结果。
基于知识图谱和答案空间优化的视觉问答研究
这是一篇关于视觉问答,知识图谱,图卷积,多模态融合,特征匹配的论文, 主要内容为随着人工智能领域里计算机视觉和自然语言处理这两个技术的不断发展,作为这两个技术的交叉领域之一的视觉问答任务也逐渐兴起。视觉问答任务指的是,给定一张图片和一个与该图片相关的自然语言问题,计算机能输出一个正确的答案。然而,视觉问答任务如果仅仅利用给定的图像和文本中的信息,难以回答需要外部知识的问题,且模型在训练过程中的会依赖数据集中的问题偏差。在深入研究和分析现有的视觉问答方法的基础上,提出了基于知识图谱和答案空间优化的视觉问答方法,同时设计并实现了视觉问答原型系统,主要工作内容如下:1、提出一种基于知识图谱特征嵌入图像和文本表达的视觉问答方法。该方法在传统基于外部知识的视觉问答方法的基础上,增强了对输入图片中隐含的外部知识的挖掘。在处理与图像相关的外部知识时,利用提出的外部知识嵌入方法(KEVR)将知识图谱中的实体节点作为外部知识特征嵌入图像特征表达。而对于文本相关的外部知识,则利用设计的Tansformer块将外部知识特征嵌入文本特征。最后,模型利用一个特征聚合器,聚合来自各个模态的特征用于分类输出答案。实验结果表明提出的方法在两个数据集上分别以0.66%和1.61%的准确率领先最优的基准模型。2、提出一种基于外部知识和语义损失的答案空间优化方法,该方法通过特征匹配的方式输出答案,使模型利用学习到的内容回答问题,而不是数据中的问题偏差。同时,将来自知识图谱的外部知识特征嵌入答案特征表达,使答案包含更多的知识特征从而提升特征匹配的准确率。此外,在特征匹配方法中引入答案语义损失机制,降低了模型训练过程中答案对问题的依赖,缓解了视觉问答中的问题偏差。最后的对比试验和消融实验论证了本方法的有效性。实验结果表明提出的方法在三个数据集上分别以1.25%、2.14%和11.11%的准确率领先最优的基准模型。3、基于以上提出的两种方法,设计并实现视觉问答系统。该系统主要包括数据录入、知识图谱预处理、联合特征生成、答案特征处理、答案输出、结果信息存储这六个模块。该系统具有较为良好的易用性和有效性,适用于各种视觉问答场景,具有较高的应用价值和前景。
基于外部知识和语义理解的视觉问答关键算法研究
这是一篇关于视觉问答,知识图谱,语义理解,知识表示和推理,图神经网络,跨模态融合的论文, 主要内容为视觉问答(VQA)是一个多学科的研究课题,它将计算机视觉、知识表示与推理、自然语言处理等AI领域结合,以正确使用关于现实世界中基本事物或物理现象的常识或知识为目标,努力让深度学习算法在与人类交流时的表现与人类内部之间进行相互交流时一致。具有外部知识的视觉问答任务需要视觉内容和外部知识相互验证来回答有关图像的问题。目前已有的VQA解决方案所面临的问题是,为了降低VQA算法在进行跨模态推理时存在的噪声及难度,它们要求在任务所提供的照片中、在问题及知识图谱上确定任务的相关信息,并需要将信息恰当地融合嵌入到所识别出的各种模态中。但这种对不同模态间信息的合理融合和共同推理,从而发现有关的证据,由此正确地预测出题目的答案,这一过程还值得深入研究。本文提出了一种结合预训练语言模型和知识图谱的双模态图神经网络算法(BIGNN-LM-KG)。研究人员分别通过图像和问题概念构建概念图。在构建概念图时,文章内使用了预训练的语言模型(LM)和知识图谱(KG),从LM中获取隐式知识,从KG中获取显式知识,并结合LM与KG的组合推理优势来对VQA算法进行改进。具体来说,使用KG来联合推断图像和问题中的实体概念,以构建概念图;使用LM计算概念知识图中节点和路径之间的相关性得分,以筛选概念图的节点和路径。然后,本文以经过筛选的图像实体的视觉和空间特征形成视觉图。本文针对已经构建的视觉图和概念图针对性地改进了图神经网络(GNN)来更好地学习两个图的表示,并通过模态融合GNN融合两个不同模态图中的信息,以预测可能性最高的答案。在VQA任务中以知识图谱为基础构建的公共数据集上,本文研究改进的VQA算法获得了良好的实验结果,并且本文也验证了算法中每个组件的有效性和算法的可解释性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://m.bishedaima.com/lunwen/55121.html