生成模型的优化及其在模仿学习中的应用
这是一篇关于机器学习,强化学习,生成模型,示教学习,逆强化学习的论文, 主要内容为生成模型的应用?分广泛,可以用来不同的数据进行建模,比如图像、文本、声音等。其中,深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的分布。强化学习作为机器学习领域一大重要组成部分,在机器人控制、机器翻译以及推荐系统上具有广泛应用。传统强化学习通过不断与所处环境进行自主交互并从中得到策略实现决策过程。然而,目前大多数多步决策问题难以给出传统强化学习所需要的即时反馈信号。这也逐渐成为强化学习在更多复杂问题中实现应用的瓶颈。逆强化学习通过专家决策轨迹在马尔可夫决策过程中设计逆向求解反馈函数的优化模型,从而实现针对具体决策问题的反馈信号的求解。目前,通过将逆强化学习算法和经典强化学习策略搜索技术相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果。这其中包括知名的斯坦福自动直升机项目、HVAC控制、自动驾驶控制等。示教学习因其能够学习人类专家的决策行为数据从而进行辅助决策,因此也越来越受到人们的重视。本文首先提出了一种新的生成对抗神经网络结构SSGAN。它将初始生成的流形不能覆盖所有的例子归咎于模态崩溃问题。SSGAN给GANs增加了一个监督信号,使得生成的流形在初始化时与真实的数据流形保持接近。实验结果表明,该方法在视觉质量和模式捕获两方面均优于其他几种最新的GANs训练方法。本文提出了一种新的未知区域感知的模仿学习算法,它只学习专家数据中转换的分布,不与专家数据相比较。演员将更好地从专家演示中捕捉专家行为。我们通过增加一个自动编码器来预测采样状态和专家状态之间的相似性,将GAIL扩展到了UAIL。因此,可以用一种新的标准来训练判别器。这样,策略也可以更好地捕捉专家的行为,降低环境的影响。实验表明,我们的新方法UAIL可以在数个Atari 2600游戏以及多个Mu Jo Co环境上超过GAIL。本文同时介绍了模仿学习在京东电商平台中的应用。为了克服京东网商品搜索RL训练物理成本高的问题,我们采用GAN-SD和MAIL技术,建立了基于历史数据的虚拟京东模拟器。实证结果表明,该模型能够真实反映真实环境的特性。然后在虚拟京东网中,利用所提出的策略训练出更好的引擎策略,结果表明该策略比传统的监督学习方法具有更好的真实环境性能。
融合检索模型与生成模型的开放域对话系统
这是一篇关于人工智能,深度学习,开放域对话系统,检索模型,生成模型的论文, 主要内容为建立可以与人类进行连续交流的开放域对话系统一直是人工智能的长期目标,同时也是一项极具挑战的任务。不同于帮助人们完成特定目标的任务型对话系统,开放域对话系统旨在让用户在开放域中进行人机对话,以获得娱乐或情感陪伴。基于检索模型或生成模型的端到端方法是当前开放域对话系统的主要实现方式,如何发挥上述两种方法的优势,将其结合是当下研究的重点和难点。本文实现了融合检索模型和生成模型的开放域对话系统,并将其进行评价和演示。本文的研究内容主要归纳为以下三点:(1)设计并实现了控制开放域对话系统策略选择的决策单元。本文所实现的开放域对话系统由决策单元和生成回复单元构成。决策单元对用户输入进行分析,通过用户输入是否命中既定规则、用户输入是否包含实体以及用户输入的情感类别三种方式进行决策,选择生成回复单元中合适的方式进行回复。(2)设计并实现了以检索模型和生成模型为核心的包含四种不同回复方式的生成回复单元。本文实现了基于BM25粗召回与Sim BERT精排序的检索模型,并提出两个检索语料库,通用知识问答语料库和负面情绪问答语料库。同时本文实现了基于GPT的生成式对话模型,利用大规模预训练模型GPT在LCCC多轮闲聊对话数据集和豆瓣单轮鼓励式对话数据集分别训练得到多轮闲聊对话模型和单轮鼓励式对话模型。基于上述模型和数据集实现了基于规则模板的回复,通用知识问答回复,情感支持回复和闲聊回复。(3)完成了开放域对话系统的实现、评价、部署和演示。本文实现了融合检索模型和生成模型的开放域对话系统并将其部署至服务器,设计前端网页便于用户访问。采用客观评价和人工评价两个维度对系统进行评价,实验结果表明,相比于基于单一生成模型实现的对话系统,本文的对话系统在生成多样性及平均回复句子长度指标中表现更优。采用人工设计评分标准,对本次实验所积累的真实对话语料进行评分,本文所实现的对话系统取得了优异的成绩。
融合知识表示的自动问答系统关键技术研究
这是一篇关于自动问答系统,多样化知识表示,深度学习,答案检索,生成模型的论文, 主要内容为近年来随着人工智能和深度学习技术的发展,自动问答系统已经在诸多领域取得了广泛的应用。目前自动问答系统的实现主要有两种技术路线,一是采用检索的方法,包括传统的检索模型以及利用基于深度学习的相似度计算模型检索候选答案文档;二是答案自动生成的方法,该方法利用大量问答语料训练学习得到问题与答案之间的关联模式,自动生成答案序列。在自动问答系统构建过程中,无论是检索还是自动生成的方法都不可避免的面临知识匮乏的问题。首先,如果没有上下文或是相关的知识储备,很难理解问句的含义,这给答案的检索和生成都带来了挑战。另外,由于知识存在形式的多样性,使其在深度语义表示模型中的处理使用方式变得十分困难。针对这些问题,本文对以关键词为代表的特定领域的知识,互联网中广泛大量的相关问答对以及目前广泛研究的知识图谱这三种不同形态的知识信息在问答系统中的融合应用进行了深入广泛的研究,本文研究内容如下:1.为了缓解深度学习模型中对问句表示缺少知识的问题,本文提出了一个带有知识记忆单元的深度学习模型(KM-Bi LSTM),将关键词知识特征加入知识记忆单元,利用其中存储的知识增强问句的表示,使得问句的语义表示更加准确,提高问句与答案之间的相似度度量效果。本文通过在Trec QA和Wiki QA答案选取数据集上的实验验证了该模型在答案选取任务上的有效性。2.针对社区问答检索中单一问题语义表示不充分的问题,本文提出了一个融合外部候选问答对知识的深度语义模型(ECQ-Bi LSTM),来对问句语义表示进行更充分地建模。在该模型中,相关问答对中包含的知识信息将根据相关程度动态地加入到问句表示中。本文通过Trec Live QA竞赛以及Trec QA和Wiki QA上的实验探讨了外部知识信息的获取方法以及问句表示与外部知识信息的有效融合方法。3.为了解决事实类问答答案生成模型中缺少对目标答案生成控制的问题,本文提出了一个融合知识图谱三元组知识信息的答案自动生成模型(KV-Seq2seq)。该模型嵌入了一个key-value结构的三元组知识存储结构,在传统Seq2seq模型的基础上对中间编码状态和知识图谱信息进行了融合,丰富了问句的表示,同时使得答案序列的生成更加准确和富有多样性。综上所述,本文对知识表示在问答系统方向上的应用做了广泛而深入的研究,大量的实验结果表明融合知识表示的问答系统能够更好地提高答案检索和生成的效果,更加准确智能地回答用户的问题。
基于深度学习的智能问答算法研究
这是一篇关于深度学习,知识图谱问答,生成模型,曝光偏差的论文, 主要内容为智能问答是一种人工智能技术,其目的是让计算机能够像人类一样理解并回答自然语言问题。智能问答技术整合了自然语言处理、深度学习和知识图谱等多种技术手段,通过分析和理解用户提出的问题,从知识库中获取相关信息,为用户提供准确、有用和满意的答案。在此过程中,知识图谱发挥着重要的作用,它将来自互联网各种异构非结构化数据融合为一个统一的知识库,为问答系统提供了一个可靠的知识来源。通过与知识图谱的结合,智能问答系统能够更好地理解问题并提供精准的答案。目前,基于知识图谱的问答模型大多基于pipeline形式进行构建,由多个子模型组成,每个子模型负责完成知识图谱问答中的一个或多个子任务。这种方法需要为每个子任务单独设计模型和算法,并对样本进行单独的数据标注。本文在序列到序列框架的基础上提出了一种端到端的生成式知识图谱问答模型,可以更好地适应知识图谱问答任务。同时,本文在模型训练和推理过程中进行了一些创新和改进。本文的改进主要包括以下两个方面。(1)本文提出了GKRE知识图谱问答模型,将知识图谱问答任务看作一个生成式任务,通过端到端的方式进行建模,实现了对整个问答过程的一体化处理。并引入了因果掩码机制,在单个模型中隐式地实现了编码器和解码器的功能。为了保证生成答案的合理性,本文还设计了一种受限集束搜索解码方案,通过压缩后的知识图谱前缀编码表示对解码过程进行约束。(2)本文提出了适用于GKRE模型训练和推理阶段的MIX策略,从模型训练和模型推理两个角度对模型进行优化。GKRE模型基于序列到序列框架进行设计,因此存在着曝光偏差问题。本文设计了一种融合并行采样和正则化方法的训练策略,从而减小模型在训练和推理阶段的不一致性。在模型推理阶段,针对知识图谱问答中不同子任务的差异性,提出了原句增强和局部检索两个新的解码策略。并在此基础上,提出了一种融合多种策略的分阶段的模型推理算法,从而提升模型的答案生成效果。
基于图解耦表征学习的图卷积神经网络的研究
这是一篇关于图卷积神经网络,过度平滑,图解耦表征学习,信息瓶颈,生成模型,Jensen Shannon MI,拓扑度量的论文, 主要内容为图结构数据普遍存在于现实世界中,分别用节点和边描述了一组实体和实体间的关系。图神经网络,包括图卷积神经网络,作为图结构学习的通用网络模型,关注相邻节点信息的传播与聚合,集成图中的节点信息和图拓扑结构信息,并成功应用于多个领域,如推荐系统、社交网络、生物分子领域等。然而,随着图卷积神经网络的深度的增加,模型的性能快速下降,节点之间具有高度相似性,即过度平滑现象。过渡平滑现象普遍存在于图卷积神经网络中,归因于其消息传递机制,即对目标节点的所有邻域节点作为一个整体,采用统一的方式聚集所有邻域节点的信息,以用来更新节点特征。该聚集邻域信息的操作忽视了节点交互之间的细微差别,节点之间通常包含多种复杂的、隐式的相互作用,例如,在社会网络中,由于多种潜在因素,包括工作、学校、亲戚等,使得一个人与其他人存在关系关联,而现有的图卷积神经网络无法识别。解耦的图神经网络模型的出现为应对上述问题提供了新的思路,通过引入图解耦表征学习,实现了对图卷积神经网络的邻域聚集过程的分解,识别图结构数据内部的潜在因素,并在相应潜在因素下学习图特征,从而增强图节点表征的多样性,缓解了过度平滑的问题。目前,图的解耦表征学习方法存在诸多挑战:(1)同一潜在因素的一致性约束,当潜在因素的一致性消失时,这会削弱潜在因素的内在相关性和节点表征的可解释性。(2)潜在因素间的相互独立性,当潜在因素之间存在冗余依赖,产生相似的潜在节点表征。本文对上述问题进行了深入的研究,并提出了基于潜在瓶颈的解耦的图卷积神经网络模型和基于图拓扑度量的全局解耦的图卷积神经网络模型。本文的主要贡献如下:(1)提出了基于潜在瓶颈的解耦的图卷积神经网络模型用于节点级别的图解耦表征学习。该模型引入了潜在的信息瓶颈技术(潜在瓶颈),从输入节点特征信息中识别出潜在特征,在消息传递的过程中限制了仅与特定潜在因素相关的特征信息传递,确保了潜在因素间的相互独立性。通过潜在因素对应的潜在瓶颈分布的定义,保证了不同节点之间同一潜在因素内部的一致性。(2)基于潜在瓶颈的解耦的图卷积神经网络模型在潜在瓶颈的设计上还有待改进,通过引入生成模型,用于建立节点输入信息和潜在因素对应的节点潜在特征之间的对应关系,避免由于预定义的潜在瓶颈的分布导致潜在信息的损失。通过半监督节点分类任务分析、聚类系数分析和解耦性能分析,证明本模型的解耦能力和预测性能,实验结果表明增强节点表征多样性可缓解过渡平滑问题。(3)提出了基于图拓扑度量的全局解耦的图卷积神经网络模型,用于图级别的解耦表征学习。将输入图分解为多个潜在因素对应的因子图,引入了Jensen Shannon MI促进了图卷积神经网络消息传递的解耦性。提出了图拓扑度量评估因子图的图拓扑结构之间的相互独立性。通过实验证明,本模型作为图神经网络模型的通用模型的能力和增强节点表征多样性的能力。
融合检索模型与生成模型的开放域对话系统
这是一篇关于人工智能,深度学习,开放域对话系统,检索模型,生成模型的论文, 主要内容为建立可以与人类进行连续交流的开放域对话系统一直是人工智能的长期目标,同时也是一项极具挑战的任务。不同于帮助人们完成特定目标的任务型对话系统,开放域对话系统旨在让用户在开放域中进行人机对话,以获得娱乐或情感陪伴。基于检索模型或生成模型的端到端方法是当前开放域对话系统的主要实现方式,如何发挥上述两种方法的优势,将其结合是当下研究的重点和难点。本文实现了融合检索模型和生成模型的开放域对话系统,并将其进行评价和演示。本文的研究内容主要归纳为以下三点:(1)设计并实现了控制开放域对话系统策略选择的决策单元。本文所实现的开放域对话系统由决策单元和生成回复单元构成。决策单元对用户输入进行分析,通过用户输入是否命中既定规则、用户输入是否包含实体以及用户输入的情感类别三种方式进行决策,选择生成回复单元中合适的方式进行回复。(2)设计并实现了以检索模型和生成模型为核心的包含四种不同回复方式的生成回复单元。本文实现了基于BM25粗召回与Sim BERT精排序的检索模型,并提出两个检索语料库,通用知识问答语料库和负面情绪问答语料库。同时本文实现了基于GPT的生成式对话模型,利用大规模预训练模型GPT在LCCC多轮闲聊对话数据集和豆瓣单轮鼓励式对话数据集分别训练得到多轮闲聊对话模型和单轮鼓励式对话模型。基于上述模型和数据集实现了基于规则模板的回复,通用知识问答回复,情感支持回复和闲聊回复。(3)完成了开放域对话系统的实现、评价、部署和演示。本文实现了融合检索模型和生成模型的开放域对话系统并将其部署至服务器,设计前端网页便于用户访问。采用客观评价和人工评价两个维度对系统进行评价,实验结果表明,相比于基于单一生成模型实现的对话系统,本文的对话系统在生成多样性及平均回复句子长度指标中表现更优。采用人工设计评分标准,对本次实验所积累的真实对话语料进行评分,本文所实现的对话系统取得了优异的成绩。
基于变分自编码器预测药物—疾病关联
这是一篇关于药物重定位,药物-疾病关联,生成模型,变分自编码器的论文, 主要内容为实验药物开发,代价昂贵,过程复杂,耗时较长,并且经过验证投入应用治疗的药物数量少。最近有研究表明,药物重定位相对传统药物研发,具有成本低,时间短,风险小的特点,受到广泛关注。药物重定位通常被建模为推荐系统问题,药物-疾病相关性的鉴定可以为药物的发现和药物重定位提供重要的信息。目前,计算型药物-疾病关联预测算法主要分为三类,一类是基于网络分析的方法,通常是将已知的药物和疾病信息构建成一个异质网络图,再利用图的拓扑性质和节点信息预测药物-疾病关联;一类是基于机器学习的方法,利用机器学习中的常用模型来建模预测药物和疾病的新关联;最后一类是基于矩阵分解或矩阵补全的方法,基于假设:决定药物-疾病关联的潜在因素是高度相关的,也就是说,待完成的药物-疾病矩阵是低秩的,因此,通过构造与已知药物-疾病关联矩阵近似的低秩药物-疾病矩阵,来发现新的药物-疾病关联。然而,这些方法是在默认无噪声环境下运行的,且对稀疏数据的处理能力不够好,即抗干扰能力较弱,同时上述的算法难以学习到复杂数据的深层次信息,无法充分提取复杂数据的隐含信息。近年来,用于药物和疾病等生物数据研究的大型数据库越来越多。因此,逐渐尝试将深度神经网络应用于生物数据开发。深度神经网络的优点是在于它能够从大规模数据中提取非常有效的特征,可以学习到原始输入特征和输出决策之间的复杂关系。其中,深度生成模型是无监督学习最具有发展前景的方法之一,而其中的主流模型之一就是变分自编码器(variational autoencoder,VAE)。变分自编码器模型学习到的是数据的分布而非数据的唯一的特征表示,所以能够很好地处理原始输入数据中的噪音和缺失,因此该算法可以大大降低噪音和数据的缺失对预测结果的影响,同时由于其强大的学习能力,可以学习到复杂数据的深层次信息。在这里本文提出一种基于变分自编码器的药物-疾病关联预测算法DDVAE(Predicting drug-disease associations based on variational autoencoders),通过学习已知数据的隐变量分布来生成新的数据,实现预测药物-疾病关联的目标。首先根据公共的生物数据库中的药物和疾病信息来构建模型的输入数据:药物特征数据、疾病特征数据和药物-疾病关联信息;其次,对特征进行主成分分析降维后,把已知的药物-疾病关联作为监督信息(即重构已知的药物-疾病关联数据),训练改进的变分自编码器模型;最后提取训练好的药物隐变量层特征向量和疾病隐变量层特征向量,分别生成基于药物特征的药物-疾病关联预测和基于疾病特征的疾病-药物关联预测,再对两个预测结果进行投票得到最终的药物-疾病关联预测结果。最后对预测结果进行了多方面的验证和对DDVAE算法进行了性能分析。在实验中,本文将DDVAE算法与BBNR、Drug Net、MBi RW和DRRS算法在统一的数据集上进行了比较,综合实验结果表明,与这些预测算法相比,DDVAE算法提高了总体的预测。此外,对预测的未知药物-疾病关联进行进一步的分析验证也证明了该方法的实用性。
知识驱动的开放域对话生成方法研究
这是一篇关于人机交互,对话系统,知识驱动,Transformer,生成模型的论文, 主要内容为知识对于智能对话系统生成具有信息量的回复至关重要。这些知识包括各种各样的形式,例如知识图谱(KG),背景文档和对话主题等。然而,如何理解语言和利用不同类型的知识仍然是现有对话生成方法的挑战。一些研究人员试图通过使用预先训练的语言模型来增强模型的语言理解能力,但他们忽略了外部知识在特定任务中的重要性。在本文中,针对这一问题,我们首先提出了一种新颖的基于Transformer的通用对话系统架构,即多知识融合Transformer(MKST),该架构在开放域对话中融合了多种类型的知识。首先,该模型在大规模语料库上进行了预训练,以学习常识知识。然后在微调过程中,我们将知识类型分为两个特定类别,这些特定类别由我们的模型以不同方式处理。编码器负责将具有多种知识的对话上下文一起编码,而具有知识感知机制的解码器则采用注意力机制关注多知识中的重要信息,以促进更好的生成。这是在一个对话模型中融合多知识的首次尝试。实验结果表明,与最新基准模型相比,我们的模型在知识驱动的对话生成任务上实现了显著的改进。与此同时,在对话系统中如何选择恰当的知识是困难的,因为面对大量相关知识,模型通常没有明确的目标并且倾向产生具有随机主题的不太连贯的对话,尤其是在面临长时间的对话的情况下。当前有效的处理方法集中于研究如何在多轮对话中去根据数据库提供的最佳回复去进行知识的选择。一般来讲,他们假设生成的回复仅在与数据库给出的最佳回复应接近时才是合适的,这导致模型对不同主题的鲁棒性不足。而且,对于开放域对话任务,通常会有不止一种合理的响应,这意味着对话系统在选择知识时应该更加灵活。在本文中,我们提出了一种新颖的基于知识的对话系统,该系统整合了基于Transformer的生成器和能够主动构建对特定知识的查询的知识集成器。具体地,在生成阶段,由语言生成器从对话上下文生成知识被掩码的回复。在知识查询阶段,知识集成器可以基于被屏蔽的信息构造查询访问知识库以获得特定知识,这使得生成器在生成回复时避免了过多的噪声干扰,并使集成者在查询特定知识时更具针对性信息。实验表明,与强大的基线系统相比,利用知识整合器的对话系统可以产生更多的信息性和类似人的回复。同时,我们的新方法可以促进该研究领域的进一步研究。
生成模型的优化及其在模仿学习中的应用
这是一篇关于机器学习,强化学习,生成模型,示教学习,逆强化学习的论文, 主要内容为生成模型的应用?分广泛,可以用来不同的数据进行建模,比如图像、文本、声音等。其中,深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的分布。强化学习作为机器学习领域一大重要组成部分,在机器人控制、机器翻译以及推荐系统上具有广泛应用。传统强化学习通过不断与所处环境进行自主交互并从中得到策略实现决策过程。然而,目前大多数多步决策问题难以给出传统强化学习所需要的即时反馈信号。这也逐渐成为强化学习在更多复杂问题中实现应用的瓶颈。逆强化学习通过专家决策轨迹在马尔可夫决策过程中设计逆向求解反馈函数的优化模型,从而实现针对具体决策问题的反馈信号的求解。目前,通过将逆强化学习算法和经典强化学习策略搜索技术相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果。这其中包括知名的斯坦福自动直升机项目、HVAC控制、自动驾驶控制等。示教学习因其能够学习人类专家的决策行为数据从而进行辅助决策,因此也越来越受到人们的重视。本文首先提出了一种新的生成对抗神经网络结构SSGAN。它将初始生成的流形不能覆盖所有的例子归咎于模态崩溃问题。SSGAN给GANs增加了一个监督信号,使得生成的流形在初始化时与真实的数据流形保持接近。实验结果表明,该方法在视觉质量和模式捕获两方面均优于其他几种最新的GANs训练方法。本文提出了一种新的未知区域感知的模仿学习算法,它只学习专家数据中转换的分布,不与专家数据相比较。演员将更好地从专家演示中捕捉专家行为。我们通过增加一个自动编码器来预测采样状态和专家状态之间的相似性,将GAIL扩展到了UAIL。因此,可以用一种新的标准来训练判别器。这样,策略也可以更好地捕捉专家的行为,降低环境的影响。实验表明,我们的新方法UAIL可以在数个Atari 2600游戏以及多个Mu Jo Co环境上超过GAIL。本文同时介绍了模仿学习在京东电商平台中的应用。为了克服京东网商品搜索RL训练物理成本高的问题,我们采用GAN-SD和MAIL技术,建立了基于历史数据的虚拟京东模拟器。实证结果表明,该模型能够真实反映真实环境的特性。然后在虚拟京东网中,利用所提出的策略训练出更好的引擎策略,结果表明该策略比传统的监督学习方法具有更好的真实环境性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码货栈 ,原文地址:https://m.bishedaima.com/lunwen/48866.html