基于BERT的电商评论观点挖掘系统设计与实现
这是一篇关于观点挖掘,预训练,BERT模型,电商评论,Flask框架的论文, 主要内容为电商行业的兴起,各类货品的流通速度加快。既方便了消费者购买,又让人们对商品的品质产生更高的要求。基于电商平台的载体,一种评论导向的消费方式逐步在市场上扩充开来。消费者购物时候,会参考以前买过该商品用户提供的评价信息,从而调整自己的消费意愿。这意味着电商评论数据对商品销量、商家利益产生了直接的影响。当前,电商平台上存在着庞大的评论文本数据,其中涵盖着店家想要急切知道的用户观点等信息。这些信息可有效帮助商家进行舆情分析、用户理解、产品优化和营销决策等,具有非常大的实用价值和应用前景。本文针对电商产品评论进行了方面级的观点挖掘,首先利用Bert预训练模型在Pytorch框架上使用监督学习的方法,训练出一个深度神经网络模型,并使用交叉验证的方法进行验证。实验结果证明,对于化妆品领域和笔记本电脑领域的精准率和召回率都可以达到70%以上,F1-score也因此达到了75%左右,这是一个十分理想的结果。但是化妆品领域的F1结果总是高于笔记本电脑领域,这是因为笔记本电脑的有标注数据集只有约900条,在数量上远小于14000条化妆品的有标注数据集。针对有标签的训练数据集数量小、训练效果欠佳的缺陷,提出一种基于深度迁移学习的改进方法,即基于不同的预训练模型,使用其他领域的数据重新对模型进行预训练,然后通过微调过程将模型迁移到目标领域,并通过集成学习的方法合并各模型,进一步改进了模型。实验结果表示,在精准率上,改进后的模型有5%-6%的提升,召回率有4%-7%的提升,F1-score值有5%左右的提升。无论是精准率、召回率还是F1-score值,经过再次预训练的模型的各项得分都远高于未经改进的Bert模型,特别地,经过集成学习以后,模型的F1-score值达到了82%,相较于改进前有8%的提升。本文最后设计并实现了一个B/S架构的基于Flask的电商评论观点挖掘系统,该系统包含注册登录、用户管理、观点挖掘、后台管理等模块,重点将改进后的深度神经网络模型部署到系统中,用户可以在友好的界面下与系统各模块进行交互,对商品评论数据进行观点挖掘,最终结果以图形化方式展现给用户。
图文联合表征与检索研究及应用
这是一篇关于多模态,预训练,语义融合,可解释性,图文联合表征,图文检索系统的论文, 主要内容为图文联合表征是指对图像和文本信息进行联合语义表示。图像和文本是常见的两种模态,同时模态间的联合表征是支持下游任务的基础。因此图文联合表征是多模态领域最重要的研究课题之一。然而,由于图像文本之间存在信息粒度差异与语义匹配歧义,使得图文特征抽取和语义交互面临诸多困难。论文重点研究图文信息的特征抽取与语义交互,以提升图文检索的召回率,同时研究和实现了论文方法在工业系统中的应用。在图像文本信息嵌入方面,主要在信息嵌入层对图文表征进行优化。在图像侧提出一种动态极大极小池化网络,解决图文之间的信息粒度差异问题,得到图像嵌入向量。在文本侧采用门控递归单元进行编码,得到文本嵌入向量。最终通过计算图文嵌入向量的余弦距离表征图文相似性。此外,对图文信息嵌入的可解释性进行了研究。在图像文本语义融合方面,分别对联合嵌入层和信息嵌入层的图文信息进行融合。在联合嵌入层提出了一种深层语义融合方法,该方法首先在图像侧采用自底向上的注意力网络,文本侧采用简单递归单元(SRU)网络,然后在联合嵌入层采用双向注意力机制对图文高级语义进行融合。在信息嵌入层提出了一种浅层语义融合方法,该方法首先采用双向注意力机制进行浅层细粒度语义交互,并采用门控融合模块解决图文之间的语义匹配歧义问题。然后通过多层感知机直接输出图文匹配概率,避免了相似度计算造成的信息损耗。在多模态预训练联合语义表征方面,通过BERT网络对图像和文本原始信息直接进行建模,实现端到端的图文语义全面交互。在网络侧,多层Transformer对图文信息进行充分融合。在输入侧,采用线性编码加速图像特征抽取,实现准实时图文检索。此外,对工业电商数据集进行图文检索实验,同时提出一种基于用户历史搜索行为的多模召回模型,并构建亚马逊电商数据集进行实验。最后搭建并部署了云端图文检索系统,该系统搭载了论文所采用的所有图文检索算法,并提供以图搜图,以文搜图两种功能。
习题表示增强的深度知识追踪方法研究
这是一篇关于知识追踪,校正Q矩阵,图卷积网络,习题表示,预训练的论文, 主要内容为知识追踪是教育数据挖掘领域的重要研究方向之一,其任务是从学生的历史学习轨迹信息中挖掘出潜在的学习规律,并建立随时间变化的学生知识状态模型,然后对其未来的表现进行预测。通过知识追踪,在线平台可以实时掌握学生对知识点的掌握情况,并以此做出个性化的学习资源推荐。同时,对知识状态的进一步分析还可以构建出知识图谱,帮助平台制订更合理的教学计划。已有的知识追踪方法主要考虑了学生和习题之间的交互,未建模习题与知识点间更加内在的关联信息,或者仅利用习题和知识点间的折叠二部图信息,无法细粒度地捕获学生-习题-知识点三者交互的语义信息,这都将影响知识追踪的准确性。为此,本文从两个主要角度研究基于习题表示增强的深度知识追踪方法,一是校正Q矩阵中存在的主观性,二是预训练得到具有丰富语义信息的习题表示,取得了如下进展:(1)提出基于校正Q矩阵增强习题表示的知识追踪方法。该方法考虑了习题与知识点间关联的重要性,同时削弱专家在Q矩阵标注中的主观倾向性。具体来说,该方法首先利用图卷积网络来捕捉习题与知识点之间的潜在关联,并进一步设计了成对的偏序关系对Q矩阵进行校正以削弱领域专家在定义Q矩阵时的主观倾向性。最后利用校正的Q矩阵结合知识追踪模型,实现对学生知识状态的追踪。(2)提出基于图注意力网络增强习题表示的知识追踪方法。该方法设计了一种通用的习题表示预训练方法以增强知识追踪性能。具体来说,首先从两种语义角度(共现角度和作答一致角度),挖掘习题(知识点)之间的关系作为先验信息。随后,通过从学生-习题-知识点交互中提取习题-知识点二部图,利用具有先验信息的双层注意力聚合机制来获得习题与知识点的节点嵌入。此外,为了获得最终的习题嵌入,该方法还考虑了习题难度约束和习题-知识点关系结构约束来解决组合优化问题。本文在三个公开的教育数据集上进行的大量实验表明了本文所提出的两种方法在性能上优于文中比较的其余方法,验证了模型的有效性和合理性。
基于深度学习的无监督图像异常检测方法研究
这是一篇关于异常检测,预训练,模式崩溃,对比学习,聚类的论文, 主要内容为图像异常检测在自动驾驶、智能监控、智能工业等场景中有着广泛的应用需求。虽然基于深度学习的图像异常检测算法取得了良好的检测效果,但无样本标签信息的无监督图像异常检测仍然存在较大的改进空间,成为当前计算机视觉领域内极具挑战性的任务之一。无监督图像异常检测包含单类图像异常检测和多类图像异常检测两大任务。单类图像异常检测在训练阶段仅包含一类数据,极大限制了模型的表征能力;多类图像异常检测虽然包含多类数据,但是无标签信息的约束,使其仅能从数据角度挖掘实例级表征。针对上述两个任务的局限,本文分别构建了可以有效提升检测效果的算法框架。具体工作如下:(1)针对单类图像异常检测方法缺乏有效的训练优化目标,模型在训练过程中面临模式崩溃,丧失表征能力的问题,本文提出了一种基于局部优化的预训练特征微调算法框架。通过分析模式崩溃的本质原因,该框架引入了一个局部的优化中心,并设计了正常样本K近邻索引模块、适应投影模块和正常自注意力模块,这些模块可以提升微调特征的表征能力。此外,该框架还引入了一个微调约束,确保模型训练的有效性。在多个单类图像异常检测标准数据集上的实验表明,本文提出的算法框架优于目前的其他代表性方法,有效提高了单类图像异常检测性能。使用AUROC指标,该算法框架在CIFAR10,CIFAR100,MVTec数据集上分别达到了97.0%,96.5%,89.9%。(2)针对现有的多类图像异常检测工作仅从数据角度出发挖掘实例级特征、忽略了语义类别信息的现状,本文提出了一种基于聚类感知的对比学习算法框架。该框架基于传统的对比学习框架,利用聚类算法挖掘正常样本的语义中心,并且设计了包含语义中心对比损失和伪监督对比损失的语义级对比损失函数,以充分挖掘语义级特征。此外,本文对比分析了引入不同层特征、聚类中心迭代更新以及预训练对模型效果的影响,确保了算法框架模型的有效训练。在多个标准数据集上的验证实验表明,本文提出的基于聚类感知的对比学习算法框架优于其他对比学习策略。使用AUROC指标,该算法框架在LSUN(Fix),Image Net(Fix)数据集上分别达到了97.3%,95.9%。
融合语言知识的文本蕴含识别研究
这是一篇关于文本蕴含,《词林》,HowNet,注意力机制,预训练的论文, 主要内容为文本蕴含的定义是如果从前提句P能够合理推理得到假设句H,则称P蕴含H。文本蕴含识别(Recognizing Textual Entailment,RTE)的目的是推理给定的前提句和假设句之间的蕴含关系。文本蕴含识别能够帮助计算机从真正意义上深刻地理解文本和语言的深层含义,故被应用于多个自然语言处理任务中,例如问答系统、机器翻译、信息检索、文本摘要、关系抽取等。与英文RTE相比,中文的研究进展缓慢。首先针对数据自身的知识特征不够丰富的问题,本文使用《词林》中的同义词对数据集进行扩展。随后针对模型捕获的句子语义信息能力较弱的问题,本文提出了结合预训练模型和注意力机制的RoCo模型(RoBERTa fused with Co-Attention),增强模型学习句子之间语义关系的能力。最后针对句子编码能力有限的问题,本文使用融合HowNet中的义原信息和上下文的向量表示对模型的编码层进行改进。主要的工作如下:(1)提出了基于同义词扩展的文本蕴含识别方法。该方法首先对文本蕴含数据集CNLI和XNLI-ZH进行《词林》中同义词的扩展,得到经过单义词与多义词扩展的数据集CNLI-m-p和XNLI-m-p。然后提出了RoCo模型,通过结合预训练模型和注意力机制共同增强模型捕获句子语义信息的能力。实验结果表明,各个模型使用同义词扩展的数据集能更有效地识别文本蕴含关系。而与仅使用注意力机制的模型或者预训练模型相比,RoCo模型的识别效果较好。并且该模型在CNLI-m-p和XNLI-m-p数据集上分别达到了80.50%和80.02%的准确率,说明了在同义词扩展的数据集上使用RoCo模型对于识别文本蕴含关系是有帮助的。(2)提出了基于义原增强的方法。为进一步增强句子的编码能力,本文提出了RoCo-Sem(RoBERTa fused with Co-Attention based on Sememe embedding)模型。该模型的编码层分别使用基于How Net中的义原信息和上下文的词向量和词义向量对句子进行编码,然后将前提句和假设句的注意力计算的结果做聚合操作。RoCo-Sem模型在原始数据集上取得了较好的效果,说明使用基于How Net中的义原信息的向量表示能够增强模型的编码能力。该模型在CNLI-m-p和XNLI-m-p数据集上分别达到了81.33%和80.74%的准确率,说明了在同义词扩展的数据集的基础上使用基于义原的向量表示能够有效地提高模型识别的效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码货栈 ,原文地址:https://m.bishedaima.com/lunwen/47907.html