基于小样本学习的文档查重系统的设计与实现
这是一篇关于抄袭检测算法,Document-Encoder,语义匹配,文档查重系统,SDSMM模型的论文, 主要内容为随着互联网技术的高速发展,资源获取和信息共享的途径越来越多,带来便利的同时降低了抄袭的成本,使得近些年来抄袭乱象频现。高校课程教学过程中,学生提交的作业文档也存在抄袭行为。由于抄袭手段存在多样性,传统的基于表层字符匹配的抄袭检测算法未考虑文本的词序信息和语义信息,难以检测出隐蔽的抄袭手段。近些年提出的语义匹配算法虽然考虑了文本的语义信息,但长文本的语义表示有效提取较为困难,在长文本的抄袭检测任务中效果欠佳。论文在研究长文本语义表示算法和语义匹配算法的基础之上,完成了如下的工作:1)针对长文本语义提取,提出一个基于XLNet的文档语义表示模型Document-Encoder,通过引入段建模机制和层级注意力机制,使模型具备提取文档语义表示的能力,解决了长文本语义提取中存在的长程依赖问题和上下文碎片化问题;2)提出了一个文档抄袭检测模型SDSMM(Siamese Document Similarity Match Model),该模型采用孪生网络的匹配架构,在表示层引入Document-Encoder提取文档的语义表示,在匹配层使用多层感知机对文本的语义表示进行充分的信息交互。在公开数据集LCQMC和私有数据集SDSMC上和Sentence-BERT模型以及一些传统的抄袭检测算法进行对比实验,验证了 SDSMM的有效性。3)设计并开发了校内使用的文档查重系统。系统采用B/S应用架构,使用Vue.js框架和Element-plus组件开发系统的前端界面,使用SSM框架和MySQL数据库开发系统后端接口,实现了用户登录、个人中心、发布作业、上传作业、作业查重等核心功能模块,并对系统功能进行了测试。
基于神经网络的中文知识图谱问答研究
这是一篇关于知识图谱问答,问题分类,语义匹配,语言模型,注意力机制的论文, 主要内容为问答系统是信息检索、人工智能和自然语言处理领域中的一项热门研究任务,并且具有非常广泛的发展前景。知识图谱问答是该研究的一个重要分支,即给定一个自然语言问句,问答系统从已有知识库中搜索相关的实体或文本作为该问句最后的答案。在理解问句和搜索答案的过程中,涉及到问题分类、实体提及识别、实体链接、候选关系识别和语义解析等多个自然语言处理任务。而问题分类是问题理解的核心环节,问答系统的质量直接受到分类精度的影响。候选关系识别是一种语义匹配任务,比较问题和候选关系的语义相似性,是答案搜索的关键步骤。本文基于神经网络的方法,针对中文知识图谱问答这一任务进行了相关研究,主要内容如下:(1)基于语言模型和注意力机制的中文问题分类针对中文问句的长度普遍较短、含有的语义特征信息较少以及疑问词在句中的位置不确定等问题,本文提出了一种新的分类模型。相比于传统的词嵌入模型,该方法借助最新的预训练语言模型进一步增强了问句中每个词的分布式表示,然后通过双向长短期记忆网络获取上下文的语义特征,最后利用注意力模型加强了对句子中疑问词信息的关注。在三份数据上的实验结果表明,提出的模型比基准模型可以获得平均3.63%的性能提升,体现了良好的分类性能。(2)基于语义相似度计算的候选关系识别方法传统方法大多是将句子看成是一系列分词的集合,通过计算句中每个词出现的频次来构建特征向量,然后使用余弦距离等评价方法比较句子相似度。然而这些方法仅仅考虑了句子中单词级别的特征,而不是语义级别,忽视了很多句法和单词顺序等重要信息。本文提出了一种新的神经网络框架,该框架基于孪生网络设计了多种注意力机制,实现了句子对之间的语义相似度匹配。实验结果表明,所提模型可以充分利用文本的语义信息,在CCKS2018语义匹配评测任务提供的数据集上F1值为84.59,排名第四。(3)基于多标签策略的中文知识图谱问答系统目前很多已有方法只能处理仅需一个三元组知识就能回答的简单问题,而对于问句中涉及到多个三元组知识的复杂问题却无法解决,包括多个实体和多个关系。本文提出了一个新的基于多标签策略的问答系统,该系统包含问题处理和答案搜索两个主要模块。在问题处理模块中,分别对问题的主题实体提及识别、实体链接和候选关系识别三个任务提出了不同的模型框架。借助多个标签的策略,将现有中文问句分成简单问句、链式问句和多实体问句。在答案搜索模块中,针对前面三种问题分别设计了不同的解决方案。实验结果表明,所提方法能够获得较好的性能,在CCKS2019-CKBQA公开评测数据的验证集上平均F1值为66.76,排名第二。
基于知识图谱及工程语义的船舶舾装设计经验知识检索方法
这是一篇关于船舶舾装设计,知识图谱,语义匹配,知识检索,知识管理的论文, 主要内容为舾装设计人员需要充分调研相关的设计知识和历史经验,才能做出符合规范的设计工作。研发活动产生的大量经验知识造成“信息过载”,降低了设计人员知识重用的兴趣和效率。如何帮助设计人员理解和利用已有的船舶舾装设计经验知识,是提高企业知识重用效率和质量的关键。因此,为提高船舶舾装设计中的知识利用水平,本文从以下方面研究船舶舾装设计经验知识的获取和重用:研究船舶舾装设计经验知识的获取,提出一种基于深度学习的知识图谱自动构建方法,解决船舶舾装设计经验知识抽取中工作量巨大、领域专家依赖性高的问题。自顶向下地构建船舶舾装设计经验知识图谱,设计船舶舾装设计经验知识图谱的数据模式。基于深度学习研究船舶舾装设计经验知识的自动抽取方法,运用实体边界嵌入、实体遮罩、两阶段训练等改进从语料中抽取实体和关系。通过对比试验,证明了本文船舶舾装设计经验知识自动抽取方法的可行性和有效性,并从语料中构建船舶舾装设计经验知识图谱。研究船舶舾装设计经验知识检索中的语义匹配,通过建立知识超网络和设计工程语义相关性的计算方法,解决知识检索中复杂工程语义建模及匹配问题。借助领域知识图谱和深度学习模型计算概念、内容间的关联强度,构建船舶舾装设计质量案例的知识超网络,挖掘船舶舾装设计经验知识的复杂工程语义。基于贝叶斯推理预测已有船舶舾装设计质量案例解决新问题的可能性,从产品等三个要素维度匹配工程语义相似的知识单元,提高检索中知识推荐的准确性。最后,开发一个船舶舾装设计经验知识检索和知识地图应用。以某大型船厂设计质量案例文档的具体检索案例,展示了知识检索应用向设计人员推荐既有舾装设计经验知识的过程。
基于语义匹配的电力审计问题文本分类系统的设计与开发
这是一篇关于电力审计,审计问题文本,文本分类,语义匹配的论文, 主要内容为审计是对企业财务状况和经营活动的一种独立评估,通过审计可以发现问题和风险,并提出改进建议,帮助企业更好地管理风险、提高业务效率和效益,进而增强企业的竞争力和可持续发展能力。电网企业内部审计的对象主要包括企业财务报表、内部控制、业务运营和风险管理等,审计人员需要对上述因素进行人工审查,发现并记录其中的问题及异常情况。随后,根据问题的基本性质、影响范围、产生原因和解决方法的异同,审计人员会对其进行汇总和归类,总结各类问题背后共同的原因,并提出有针对性的建议和改进措施,从而提高审计工作的质量和效率。传统的电力审计问题分类方式主要依靠审计人员的个人经验和能力,个体主观上的差异往往会导致分类不规范、结果不一致等诸多问题,从而影响审计的效率和准确性。为解决上述问题,一个具有标准参考意义的统一审计问题分类标签库是非常必要的。基于此标签库,使用文本分类技术即可对电力审计中发现的问题进行更为有效和统一的规范化定性以及归类。无论是传统的机器学习文本分类算法,还是当前基于深度学习或预训练语言模型的文本分类算法,都需要一定数量的训练样本。然而,由于电力审计问题文本的专业性和复杂性,需要专业的审计人员进行标注,标注大量数据的成本高昂。同时由于审计问题文本涉及企业敏感信息,很多公司和组织不愿意分享这些数据,因此无法获取类别全面且数量足够的审计问题文本数据。为解决缺少训练样本的问题,本文基于预训练语言模型强大的语义表示能力,以语义匹配的方式,设计电力审计问题文本分类模型,并基于分类模型构建了分类系统,一方面帮助审计人员规范化整理历史电力审计问题文本,以建立类别全面和数据量丰富的电力审计问题文本数据集,为训练高精度的分类模型奠定基础;另一方面对未来新增的电力审计问题文本规范归类,减少电力审计问题分类的主观性和不一致性。本文的主要内容如下:首先,为解决训练分类模型缺少样本的问题,提高语义匹配的准确率,本文结合数据集的情况,设计了加权交叉匹配模型和选择ROM中文语义相关模型,用于整理历史电力审计问题文本和归类新增电力审计问题文本。加权交叉匹配模型将历史数据中审计人员主观定性的层次标签与标准库中分类标签的层次标签进行交叉匹配,对深层次的匹配结果赋予较高权重,减少审计问题划分中两类标签不一致对语义匹配带来的影响。使用ROM模型对短文本的分类标签和长文本的审计问题进行语义匹配,利用其在百度搜索集上训练和考虑词语权重掩码策略的优势,减少长度差异和语义差异对语义匹配带来的影响。接着,基于上述模型,本文采用Vue和Spring Boot框架,设计并实现了一套电力审计问题文本分类系统。其中审计人员可在分类系统中上传和管理电力审计问题文本,查询问题文本对应的标准分类标签,确认分类标签时,审计人员可以查看标准分类标签下的电力审计问题文本以辅助判断。对于系统分类错误情况,审计人员可对该问题文本进行反馈并提交至系统,由管理员登录系统对反馈的分类标签进行确认。同时,系统建立了一些数据统计指标并对其可视化,以便更好地了解电力审计问题文本数据集的数量和类别分布情况,以及系统的分类性能。最后在国网某电力公司审计问题汇总表对本文设计的分类模型进行实验,实验验证了两种模型的有效性以及不错的准确率;对整个电力审计问题文本分类系统进行了功能性测试,结果表明该系统满足使用需求,具有一定的实用性。
火灾应急领域知识图谱问答方法研究
这是一篇关于火灾应急,知识图谱问答,信息检索,实体识别,语义匹配的论文, 主要内容为火灾是最常见的威胁公众安全与社会发展的主要灾害之一,对火灾进行及时准确的应急处置对于减小损失、挽救生命财产具有重要作用。火灾应急的相关知识和火灾事故应急预案常常以多元、非结构化的形式分布在互联网和相关书籍中,基于传统的搜索方式和问答系统针对特定场景进行精确搜索的难度较大,给火灾应急预案科学、合理的编制、应急知识的传播带来困难。因此本文研究了一种火灾应急领域知识图谱问答方法,基于传统信息检索式的知识图谱问答Pipeline进行改进,主要工作如下:首先,针对传统的基于信息检索的中文知识图谱问答方法中,上游实体识别和实体链接错误,进而传播至下游推理阶段造成严重影响的问题,本文采用了Task Specific的思想,让知识图谱问答的每个阶段任务专门化,以减弱对上游任务的依赖,并将每一阶段模型的输出视为特征,采用特征融合算法对特征进行整合,从而对知识三元组进行排序。其次,针对传统Pipeline搜索效率低下的问题,本文在路径排序中引入了Beam Search算法对路径排序方法进行优化,通过对算法中阈值K取值的尝试实验,在确保准确率的前提下,进一步减少路径排序模型预测结果的响应时间,显著提升了问答系统的问答效率。另外,针对特定领域的小规模知识图谱进行大规模预训练语言模型训练的过拟合问题,本文采用了迁移学习的策略,通过在通识领域的知识图谱问答语料下对大参数量的训练,解决了火灾应急领域小样本模型学习问题,同时显著增强了模型的准确率、可迁移性和可扩展性。最终,将本文提出的方法在火灾应急领域知识图谱问答语料下进行实验验证及系统实现。结果表明,其性能超越了传统信息检索的Pipeline做法,并在火灾应急领域超过了部分知识图谱问答竞赛的Top方案。通过模型选型实验也证明了本文各个阶段模型的先进性与有效性。基于本文方法实现的火灾应急知识问答系统可以帮助人们更快更准确地获取火灾应急知识,指导火灾应急预案的编制。图[29]表[17]参[59]
基于LSTM的智能客服系统设计与实现
这是一篇关于人工神经网络,客服系统,语义匹配,词向量的论文, 主要内容为目前,大部分企业还在使用人工客服处理客户的诉求,面对数量庞大的用户,使用人工客服意味着大量的人力和物力投入,特别是像中国移动这种拥有几亿用户的企业,如果能用机器代替人工来完成一些常规的、重复的客服工作,将极大节省企业的成本。基于此本文设计并实现了基于LSTM的智能客服系统。通过对企业业务流程的了解,并考虑到系统实际部署和应用,以及系统以后的升级改造,本文采用B/S三层应用体系架构来构造系统,前端使用Vue.js等技术,后端使用Django框架,数据库采用流行的MySQL。本文首先分析了智能客服系统开发的背景和意义,然后对智能客服系统进行了详细的需求分析,并设计了系统的功能模块,之后本文对每个功能模块进行了详细的设计和实现。企业用户可以使用本系统配置业务和对话流程并为业务指定少量人工客服,还可以根据实际情况自主训练语义匹配模型。本文核心工作是神经网络语义匹配模型的设计和训练,本文参照目前学术界比较流行的神经网络模型并根据业务实际情况设计了语义匹配模型,使用大量实际业务数据训练取得了非常好的效果。本文所设计和实现的智能客服系统具有可移植性、可扩展性等优点,经过反复的系统测试和实际使用的反馈,本文所设计和实现的智能客服系统运行稳定,基本符合预期的设计目标。
基于大规模知识图谱的自动问答技术研究
这是一篇关于自动问答,知识图谱问答,深度学习,语义匹配,多任务学习的论文, 主要内容为随着大规模知识图谱的构建,基于知识图谱的自动问答成为自然语言处理领域的研究热点。该任务旨在用知识图谱中的三元组回答用户问题,使用户能够高效、准确地获取知识。然而,知识图谱问答由于知识图谱规模庞大、问题和答案数据异构而存在挑战。目前大量工作关注于分段式建模问题与三元组的局部匹配,从而进行答案选择。然而这样忽略了不同匹配子任务之间的关联,容易带来误差传播问题。此外,由于缺乏大规模无偏标注数据,模型遇到低频或者未登录关系时效果容易变差。因此,本文利用深度学习方法进行模型改进,利用外部数据和逆任务进行模型提升。本文主要工作包括如下几个方面:·基于序列标注模型的子图检索 利用整个知识图谱作为候选答案是不切实际的,因此需要检索出与问题相关的子图,减小模型的搜索空间。本文首先构建了基于Bi-LSTM的序列标注模型识别问题的主题实体,接着设计了启发式算法进行主题实体和知识图谱中候选实体的匹配,该算法结合了融入先验知识的扩展匹配和基于Jaccard的模糊匹配,旨在修改该阶段的误差,从而扩大实体召回,产生高质量的候选答案集合。·基于多任务学习的候选重排模型 在候选答案重排阶段,本文针对现有的问题答案匹配框架进行改进,缓解其中的误差传播问题。其一,基于多任务学习构建一个具有共享编码层的联合匹配模型,使实体匹配和关系匹配两个子任务共同学习。其二,我们在模型中设计了一个对称互补注意力机制模块,旨在捕捉两个子任务之间的关联信息,区分问题的在不同子任务中的语义表示。实验证明模型在整体任务和各个子任务上都有效果的提升。·融入外部文本和逆任务的模型提升 为缓解缺乏标注数据问题,本文探究了两种模型提升方法。其一是融入外部文本数据的模型改进,其中主要包括融入文本信息的关系编码模块和融入子图信息的实体编码模块,使三元组考虑上下文环境得到更准确的编码表示。其二是利用知识图谱问题生成模型自动生成问答数据进行数据增强,然后对原预训练好的问答模型进行微调。最后实验分析了两种提升方法的有效性。
基于查询图的知识图谱问答研究
这是一篇关于知识图谱问答,查询图生成,查询图排序,查询图选择,语义匹配的论文, 主要内容为知识图谱问答以结构化的知识图谱作为答案来源回答用户提出的自然语言问题。在已有的知识图谱问答方法中,基于查询图的方法广受关注。基于查询图的知识图谱问答方法包含查询图生成和查询图选择两个主要模块。其中,查询图生成实现问句的语义解析,将问句转换为一组候选查询图;而查询图选择是从候选查询图集合中选出最优查询图,并从知识图谱中检索答案。尽管基于查询图的知识图谱问答方法取得了一定的进展,但其在复杂问句的语义解析以及问句和查询图语义匹配中仍面临一定挑战。本文对查询图生成和查询图选择分别展开研究,主要内容包括如下:(1)节点与边联合约束的查询图生成方法针对已有查询图生成方法在复杂问句解析中的局限性,本文提出一种结合节点约束和边约束进行查询图生成的方法。该方法通过引入基于边的搜索操作、边约束挂载以及组合操作,能够更准确地生成查询图候选。此外,本文构建了一个包含多种复杂问句类型的中文知识图谱问答数据集。在两个基准数据集上的实验结果表明,所提查询图生成方法明显优于已有方法,并提升了问答系统的最终性能。(2)基于全局排序的查询图选择方法本文提出基于全局排序的查询图选择方法以进行最优查询图选取。首先将查询图转换为序列,使得问句和查询图的匹配问题转换为两个序列之间的匹配问题。然后采用预训练语言模型编码问句和查询图序列并引入两者之间的交互信息。最后通过结合正例查询图和负例查询图的关联进行得分优化。在中英文数据集上的实验结果表明,基于全局排序的查询图选择方法取得了良好的系统性能。(3)基于重排序的查询图选择方法已有的查询图选择方法通常基于单阶段排序的方式,这种方式在top-1性能和top-k性能之间存在较大差异,即许多正确的查询图能排在前列,但不总是排在第一位。针对这个问题,本文提出重排序方法,针对top-k数据进行二次排序。在重排序过程中,一方面依据第一阶段的排序结果进行数据重采样,另一方面引入答案类型信息设计新的编码方案。在中英文数据集上的实验结果表明,采用重排序方案能够缓解单阶段排序造成的错误情况,进一步提升系统性能。(4)基于查询图的中文知识图谱问答系统中文知识图谱问答系统大多基于信息检索的方法,并且能够处理的问题类型相对有限。本文在上述研究的基础上构建基于查询图的知识图谱问答系统,实现了一个更可靠的在线问答系统。综上,本文针对知识图谱问答任务首先提出一种查询图生成方法来更好地解析复杂问句,并且构建了一个复杂问答数据集验证查询图生成方法的有效性。然后研究基于全局排序的查询图选择方法,并进一步提出基于重排序的方法。最后通过结合上述三点内容构建一个中文知识图谱问答系统。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/lunwen/47868.html