基于python爬虫和NLP的聊天系统设计与实现
这是一篇关于BERT,mask机制,双向注意力,对话系统,背景知识的论文, 主要内容为在社会激烈竞争带来的生活压力变大的背景下,设计一套智能聊天系统可以有效的缓解这一现象。根据聊天系统的实现方式不同,可以划分为基于检索式聊天系统和基于生成式聊天系统,检索式模型的回复语句需要从语料库中检索匹配,匹配的回复语句结构通顺,但是回复的范围有限;而生成式模型生成的语句不受语料库范围的限制,但是通常生成的语句信息量较少。检索式模型和生成式模型相结合的方法能够弥补单种模型的不足,但是模型最终的好坏依赖于结合的方法。若人机对话模型没有设计好,则在实际的聊天系统应用中,用户的体验感会受到很大影响。针对上述问题,论文基于python爬虫和NLP设计和实现了一套智能聊天系统,首先使用双向注意力和随机按比例mask机制来改进聊天系统的机器翻译BERT模型;然后通过引入背景知识和增加通用语料库来改进聊天系统的检索生成对话模型的结合方式。具体内容如下:(1)提出一种加入比例分配mask和编码融合的机器翻译BERT模型。首先计算输入中两个语句的语义关系生成对齐矩阵,使用卷积神经网络提取该对齐矩阵的特征,构造出输入层的句子维度编码,并且使用双向注意力融合词维度编码和句子维度编码,丰富了输入语句的编码信息;在mask掉的15%的单词中,有一半是随机的,另一半则是按照句子成分比例。通过在模型的编码器中加入循环神经网络来分析输入句子的重点部分,重点部分mask掉一半的60%,以提高模型的预测能力。(2)提出一种引入背景知识和通用语料库的DAM和GPT-2融合模型。通过在检索式对话模型DAM的基础上,使用余弦相似度从知识库中选择相关的背景知识,使用注意力机制来分别融合背景知识和输入语句、候选语句,以此方法来提高检索式对话模型回复的准确性;通过使用爬虫技术添加通用语料库和设置阈值的方式改进两种对话模型的结合,计算输入语句与输出语句的相关程度并与阈值比较,若是低于阈值,则去通用语料库里检索和匹配相关的输出。(3)在上述工作基础上,设计和实现了一套智能聊天系统。使用前端的Vue框架制作聊天系统的页面,使用后端Flask框架实现相应的功能,并结合机器翻译模型和检索生成模型,用户信息和聊天记录等数据存储在MySQL数据库,使用Redis数据库缓存cookie等数据,整个聊天系统基于B/S架构实现。
电商客服领域对话系统的设计与实现
这是一篇关于对话系统,客服机器人,自然语言处理,Seq2Seq的论文, 主要内容为随着移动互联网技术的发展,在线购物凭借其低价、方便的优势在人群中广泛普及。电商平台不仅要提供给客户丰富的商品,更要提供优质的客服服务以保障人们能有良好的购物体验。通过引入根据电商业务定制的客服机器人,能够有效提高人工客服的接待效率、减少大量重复工作,促进订单转化。客服机器人的本质是对话系统。系统管理员通常需要预先在系统中对机器人进行问答配置。当客户咨询时,系统通过语义理解、相似度匹配、答案检索等步骤将最佳答案反馈给客户。这种检索式问答的方式一定程度上保证了答案质量,但由于知识库规模的限制,不可能解答所有的客户问题。为提升机器人应答覆盖率,本系统中增加了补充应答模块。该模块能够在客户提问无法命中知识点的情况下回复由模型自动生成的答案。围绕应答能力及对话系统相关功能,本论文的主要工作内容如下。本论文首先分析了电商行业对客服机器人的主要需求点,包括:实现业务知识自动应答、配置系统预设知识、配置自定义知识等需求。为满足以上几点,系统在构建时使用了大量电商数据作为模型训练数据,从而得到用于在本系统中对文本进行表示的词向量模型,再通过短文本余弦相似度计算、相似度排序算法,最终由系统输出相似度最高的知识点答案。该方法能够保证应答准确率及覆盖率。与此同时,系统中加入了生成式问答模块,该模块用于回复未达到相似度阈值的客户提问。模型主要基于Seq2Seq网络结构,它的编码器-解码器结构能够很好的获取问答对间的语义信息,得到生成式答案。通过使用LSTM作为cell结构,能够避免RNN的梯度消失问题。除此之外,通过在模型的Decoder结构中加入Attention机制,能够对输出数据进行权重分配从而得到更好的答案生成效果。最后,本系统中加入了测试窗功能。该功能能够模拟客户提问场景并进行应答结果反馈,便于系统管理者及时对知识库进行调整。本论文的最终成果是可交付使用的电商客服对话系统。系统价值在于通过定制化的客服机器人帮助电商客服提升工作效率、改善回复效果,实现24小时接待。经过评测,系统功能测试全部通过;知识库应答模块准确率为65.37%、补充应答准确率为56.14%。系统具有较大的市场应用价值。
空调智能客服系统的设计与实现
这是一篇关于自然语言处理,对话系统,智能客服,Python的论文, 主要内容为近年来,我国中小企业的数量逐年稳定增长,随之而来的是客服市场同样呈现增长态势,呼叫中心和在线客服的市场规模已经突破千亿元。与此同时,随着移动互联网的发展,人们购物的渠道越来越丰富,客服的需求量也随之增大,如果不能提供高质量的客户服务,企业会面临营业额下降,客户流失等一系列问题。因此,如何以较低的成本提供高效且满足自身发展需求的客户服务成为了很多企业重点关注的问题。传统客服多为人工的形式,但人工客服存在着培训成本高、服务多渠道的能力弱、客服人员效率较低等问题。现有的智能客服大多为预先记录常用的问题,通过提供选项供用户选择的方式进行交互,这样的方式与人们所适应的对话方式有较大差异,而且不能解决用户个性化的需求。因此,开发一个以自然语言的方式进行交互,便于个性化定制和扩展的智能客服系统具有重要的意义。本文介绍了一个空调报障场景下的智能客服系统的设计与实现。系统的主要功能有识别用户所描述的空调故障并提供操作自检方法,记录空调和用户的基本信息,与用户确定上门维修时间等。该系统主要包括四个模块。第一个模块为自然语言理解,运用正则匹配,序列标注,语义分析等技术,将用户输入的自然语言文本转换为用户意图、槽、槽值的三元组;第二个模块为对话状态跟踪,根据用户的语义更新当前的对话状态;第三个模块为策略学习,系统通过预先定义好的规则或者强化学习的方式决策出当前轮对话将要执行的动作;第四个模块为回复生成,根据系统要执行的动作生成自然语言文本返回给用户。系统使用Python语言进行开发,采用B/S架构,前后端分离的开发方式,方便后期对系统的维护和迭代。前端选用Htm15、Bootstrap等技术实现用户登录、交互等界面,后端选用Flask作为Web框架,使用关系型数据库MySQL保存对话记录和用户基本信息,使用Flask-SQLAlchemy作为ORM框架,将数据库中的表与Python中的实体对象建立对应关系。系统使用Gunicorn部署,满足多用户并发访问的需求,并使用压力测试工具Jmeter进行多线程测试。在算法方面,系统将BERT预训练模型加入到自然语言理解模块中,在缺少标注的语料上实现了较高的识别准确率。
基于python爬虫和NLP的聊天系统设计与实现
这是一篇关于BERT,mask机制,双向注意力,对话系统,背景知识的论文, 主要内容为在社会激烈竞争带来的生活压力变大的背景下,设计一套智能聊天系统可以有效的缓解这一现象。根据聊天系统的实现方式不同,可以划分为基于检索式聊天系统和基于生成式聊天系统,检索式模型的回复语句需要从语料库中检索匹配,匹配的回复语句结构通顺,但是回复的范围有限;而生成式模型生成的语句不受语料库范围的限制,但是通常生成的语句信息量较少。检索式模型和生成式模型相结合的方法能够弥补单种模型的不足,但是模型最终的好坏依赖于结合的方法。若人机对话模型没有设计好,则在实际的聊天系统应用中,用户的体验感会受到很大影响。针对上述问题,论文基于python爬虫和NLP设计和实现了一套智能聊天系统,首先使用双向注意力和随机按比例mask机制来改进聊天系统的机器翻译BERT模型;然后通过引入背景知识和增加通用语料库来改进聊天系统的检索生成对话模型的结合方式。具体内容如下:(1)提出一种加入比例分配mask和编码融合的机器翻译BERT模型。首先计算输入中两个语句的语义关系生成对齐矩阵,使用卷积神经网络提取该对齐矩阵的特征,构造出输入层的句子维度编码,并且使用双向注意力融合词维度编码和句子维度编码,丰富了输入语句的编码信息;在mask掉的15%的单词中,有一半是随机的,另一半则是按照句子成分比例。通过在模型的编码器中加入循环神经网络来分析输入句子的重点部分,重点部分mask掉一半的60%,以提高模型的预测能力。(2)提出一种引入背景知识和通用语料库的DAM和GPT-2融合模型。通过在检索式对话模型DAM的基础上,使用余弦相似度从知识库中选择相关的背景知识,使用注意力机制来分别融合背景知识和输入语句、候选语句,以此方法来提高检索式对话模型回复的准确性;通过使用爬虫技术添加通用语料库和设置阈值的方式改进两种对话模型的结合,计算输入语句与输出语句的相关程度并与阈值比较,若是低于阈值,则去通用语料库里检索和匹配相关的输出。(3)在上述工作基础上,设计和实现了一套智能聊天系统。使用前端的Vue框架制作聊天系统的页面,使用后端Flask框架实现相应的功能,并结合机器翻译模型和检索生成模型,用户信息和聊天记录等数据存储在MySQL数据库,使用Redis数据库缓存cookie等数据,整个聊天系统基于B/S架构实现。
知识驱动的开放域对话生成方法研究
这是一篇关于人机交互,对话系统,知识驱动,Transformer,生成模型的论文, 主要内容为知识对于智能对话系统生成具有信息量的回复至关重要。这些知识包括各种各样的形式,例如知识图谱(KG),背景文档和对话主题等。然而,如何理解语言和利用不同类型的知识仍然是现有对话生成方法的挑战。一些研究人员试图通过使用预先训练的语言模型来增强模型的语言理解能力,但他们忽略了外部知识在特定任务中的重要性。在本文中,针对这一问题,我们首先提出了一种新颖的基于Transformer的通用对话系统架构,即多知识融合Transformer(MKST),该架构在开放域对话中融合了多种类型的知识。首先,该模型在大规模语料库上进行了预训练,以学习常识知识。然后在微调过程中,我们将知识类型分为两个特定类别,这些特定类别由我们的模型以不同方式处理。编码器负责将具有多种知识的对话上下文一起编码,而具有知识感知机制的解码器则采用注意力机制关注多知识中的重要信息,以促进更好的生成。这是在一个对话模型中融合多知识的首次尝试。实验结果表明,与最新基准模型相比,我们的模型在知识驱动的对话生成任务上实现了显著的改进。与此同时,在对话系统中如何选择恰当的知识是困难的,因为面对大量相关知识,模型通常没有明确的目标并且倾向产生具有随机主题的不太连贯的对话,尤其是在面临长时间的对话的情况下。当前有效的处理方法集中于研究如何在多轮对话中去根据数据库提供的最佳回复去进行知识的选择。一般来讲,他们假设生成的回复仅在与数据库给出的最佳回复应接近时才是合适的,这导致模型对不同主题的鲁棒性不足。而且,对于开放域对话任务,通常会有不止一种合理的响应,这意味着对话系统在选择知识时应该更加灵活。在本文中,我们提出了一种新颖的基于知识的对话系统,该系统整合了基于Transformer的生成器和能够主动构建对特定知识的查询的知识集成器。具体地,在生成阶段,由语言生成器从对话上下文生成知识被掩码的回复。在知识查询阶段,知识集成器可以基于被屏蔽的信息构造查询访问知识库以获得特定知识,这使得生成器在生成回复时避免了过多的噪声干扰,并使集成者在查询特定知识时更具针对性信息。实验表明,与强大的基线系统相比,利用知识整合器的对话系统可以产生更多的信息性和类似人的回复。同时,我们的新方法可以促进该研究领域的进一步研究。
基于人工智能的医疗诊断和对话系统
这是一篇关于对话系统,症状筛选,疾病诊断,朴素贝叶斯分类的论文, 主要内容为随着线上医疗咨询对话数据的积累和智能对话系统等新兴技术的飞速发展,对话式智能疾病诊断得到业界和学术界的关注,可以缓解医疗资源压力并为用户提供及时有效的医疗保健辅助支持,具有重要的理论和现实意义。在对话式智能诊断系统中,如何选择问询的症状,对诊断性能和对话效率有重要影响。实际诊断过程中,用户主动报告的症状往往不足,难以支持准确诊断,需要通过对话询问用户是否具有其它症状,从而形成诊断结论。现有研究主要采用强化学习方法,通过逐步学习真实就诊场景中医生与患者的对话过程,获得症状询问和疾病诊断的策略。虽然强化学习具有处理顺序决策问题的优势,但诊断准确率仍较低,而且数据依赖性强、启动资源耗费大、模型结果不具可解释性。针对上述问题,本文提出一种基于朴素贝叶斯分类的疾病诊断算法,通过模拟医生询问和诊断过程为诊断结果增加可解释性,并针对症状询问环节提出一种基于症状集差异的症状筛选算法,最后基于真实数据评估了算法。此外,本文实现了一个能够满足居民常见咨询需求的医疗对话机器人。本文的具体贡献如下:(1)针对强化学习在智能诊断过程中存在的可解释性差、启动资源耗费大等不足,提出一种基于朴素贝叶斯分类的疾病诊断算法。该算法以朴素贝叶斯分类为核心诊断环节,通过本文所定义待确认疾病列表的动态更新,将症状询问和疾病诊断分类有机结合,实现智能诊断的全流程。(2)针对疾病诊断算法中的症状询问环节,提出基于症状集差异的症状筛选算法。该算法借鉴了真实医疗诊断过程中排除患病概率次高疾病的思路,结合二分查找思想,通过疾病症状集的交并运算,实现在较少的询问轮数下,筛选出最能区分疾病的症状,为最终的朴素贝叶斯分类提供决策依据。实验证明,本文提出的症状筛选和疾病诊断算法,在MZ数据集和DX数据集上的疾病诊断准确率分别达到了92.25%和95.19%,相较基线模型KR-DS分别提升了19.25%和21.19%。在DX数据集上的平均对话轮数为3.04轮,比KR-DS减少了0.32轮(9%)。(3)具体设计和实现了一个医疗对话机器人。通过构建包含有100个疾病及其药物、食物、症状、科室等属性的知识图谱,使对话机器人能够根据医学知识图谱,实现8种医学咨询功能,涵盖疾病预防、疾病治疗以及疾病就医指导三个场景,满足居民的常见咨询需求。本文提出的症状筛选和疾病诊断算法以及构建的对话机器人,有助于推动医疗对话系统的发展和应用,具有一定的实际意义。图19幅,表15个,参考文献43篇。
知识驱动的人机主动对话策略研究
这是一篇关于对话系统,知识图谱,主动对话,对话管理策略,对话目标规划的论文, 主要内容为用自然语言进行对话是人与人交流的基本方式之一。由于计算机成为一种强大的工具,与人类有着密切的联系,人们希望使用自然语言下达命令,与计算机进行简单、直接的对话。对话系统近年来取得了很大进展,能够与人类进行连贯且有吸引力的对话,但当前对话模式仍处于被动回应的初级阶段,如何满足智能人机对话系统的需求,建立一个具有主动回复能力的对话系统依旧是一个巨大的挑战。为使对话系统具备主动对话的能力,该文分别从主动对话管理策略及对话目标序列规划两个方面进行了研究,主要研究内容如下:针对当前的对话系统主要是被动响应回复,尚不能较好地进行主动式对话的问题,提出一种知识驱动的人机主动对话管理策略,模拟人与人交流过程中,交互双方都可以发挥主导作用围绕话题进行拓展和深入的对话模式,将对话分为话题切换和话题深入两个子任务,设计个性化对话管理策略来实现多轮对话中的主动引导和话题转移。该策略依据人机交互情感状态确定系统主动对话时机,利用知识图谱作为背景知识信息,主动搜索其在知识图谱中触发的对话实体的多跳邻居集合,从而决定下一步交互内容。针对用户情感消极的话题,通过向外传播法来主动寻找新话题;针对用户情感积极的话题,通过向内聚合法来深入响应当前话题。实验结果表明,该策略在平衡全局对话连贯性和局部话题一致性的同时,提高了模型对话的主动性,为人机主动对话系统的发展提供新的参考。针对用户会根据人机实时交互行为动态更新对话目标,但现有对话系统对于动态对话目标规划的适应能力存在局限性的问题,提出一个知识驱动的人机对话目标序列规划策略,通过对话管理来主动控制对话流程,考虑用户的兴趣和在线反馈确定最终目标,并为自然话题转换规划短期目标。具体来说,在对话前根据用户偏好满意度和知识丰富度动态规划对话目标序列,对话中实时检测用户对话目标的完成度,依据预测的知识、要实现的目标和上下文选择最终的响应,当目标改变时,将以新的起点重新规划序列。本框架模拟人类在知识图上引导对话话题的行为,在对话前规划一个完整合理的目标序列,以更加自然平缓的方式引导用户实现对话目标。
对话式音乐推荐技术及系统实现
这是一篇关于推荐系统,音乐推荐,对话系统,知识图谱,在线推荐的论文, 主要内容为音乐作为文化娱乐中最广为人知的一类商品,已经成为当下人们生活中一剂重要而独特的生活调味品。它具有消费代价低、用户偏好多样化以及种类繁杂等特点,这使得传统的离线音乐推荐难以及时响应,但目前的在线音乐推荐交互手段又十分有限。对话式推荐系统是近几年来备受关注的创新性课题,该场景通过与用户的对话式在线交互完成推荐任务,并给予了用户更加丰富的表达空间。本文将音乐推荐融入对话系统之中,围绕对话式音乐推荐系统展开了全面的分析、研究与实现。不同于常见音乐推荐场景的延迟更新和隐式反馈,对话式音乐推荐可以及时而准确地捕捉用户的偏好,并主动获取用户准确的喜好反馈,这一点可以很好地解决用户变化的音乐偏好。本文从构建音乐推荐系统的数据层,到分析、设计对话式音乐推荐算法,再到支持对话式实时音乐推荐的系统搭建三个层面进行了研究与实现。本文主要工作和贡献总结如下:·音乐知识图谱的构建本文构建了一个音乐领域的知识图谱,不仅包含歌曲、专辑、歌手这类典型音乐实体,还增加了更符合推荐场景的风格实体。音乐知识图谱采用自顶向下的构建方式从零搭建,融合了流行音乐平台的音乐实体内容,并补充了包含通用知识图谱等多个数据来源。最终音乐知识图谱的实体数量达到百万级,关系数量达到千万级。音乐知识图谱利用图数据库Neo4j进行存储和查询。·适合的对话式在线音乐推荐算法本文将对话式在线音乐推荐场景划分为用户实时音乐需求获取和在线推荐两个阶段。针对第一阶段,本文采用了基于强化学习的方法来解决系统询问、用户回复的多轮对话交互的连续策略选择。在线推荐方法采用了满足交互性、实时性和探索性的基于Bandit的音乐推荐算法。此外,由于缺少对话式音乐推荐数据,本文利用离线数据进行对话式音乐推荐的用户模拟实验,验证了上述两个阶段选择的算法的有效性。·对话式在线音乐推荐系统的设计与实现基于上述的音乐知识图谱和对话式音乐推荐算法,本文设计并实现了对话式在线音乐推荐系统。在音乐推荐功能中,不仅包含普通音乐实体推荐,还设计了基于情绪的歌曲推荐。此外,为了提高系统的完备性与丰富度,系统还提供了记忆、问答和闲聊的功能,系统存储的用户画像可以辅助无约束的音乐推荐。系统用Python语言开发,并以微信公众号的方式进行了发布。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://m.bishedaima.com/lunwen/45358.html