虚假评论识别及评论有用性分析
这是一篇关于虚假评论识别,半监督,图模型,评论有用性的论文, 主要内容为互联网技术的不断普及和发展,使得越来越多人通过网络进行和衣食住行相关的消费。为了帮助用户更好的进行消费抉择,大部分的电商平台都向用户提供了评论评星的途径,甚至有类似yelp的评论平台。消费用户或发表评论用户提供分享的信息会间接影响其他用户,因此商家越来越重视在线评论,甚至有些店铺或商家会请人刻意的发布大量赞美评论或进行高星级的评分以此来间接谋取利益,而这带来诸多问题,例如减低了评论平台的存在价值,使消费者受骗等。除此之外,评论量的巨幅增加,即使评论全部是真实的,用户也要耗费很多时间筛选对自己有用的评论。这些对于用户体验来讲都是负面的影响。本文针对评论的虚假性识别及有用性的分析进行了研究。对于评论的虚假性判别,本文从四方面进行了研究,(1)本文将用户、评论、店铺信息映射到图结构中,通过捕获三者之间的潜在关联,借助迭代算法来最终判别评论的真实性。结果表明先验概率的设定对图模型的效果影响较大,应用MRF能量函数可对模型效果有一定的提升。(2)提取了TF-IDF,unigram,LDA,POS四种特征,并使用机器学习模型分别在这些特征上进行实验,后续结合上述特征和图模型中提取的行为特征进行了进一步实验,证实了行为特征优于文本特征,两种特征结合的效果优于单特征。(3)从文本语义的角度,本文使用CNN、LSTM、GRU等经典模型、由经典模型构建的组合模型及较为新颖的VDCNN模型对虚假评论判别问题进行了实验。(4)探究了多种半监督模型在虚假评论判别问题上的应用,实验表明Co-training模型结合文本特征和行为特征后得到最优准确率74.38%。在评论有用性分析的问题上,本文分别从分类问题的角度和回归问题的角度对其进行了研究。实验结果表明联合训练模型的效果要优于单模型,SVR模型下评论有用性预测的结果最好。
结合强化学习的半监督知识获取算法研究与实现
这是一篇关于知识图谱,关系抽取,实体对齐,半监督,强化学习的论文, 主要内容为随着互联网的快速发展,网络数据量呈爆炸式增长。如何对海量数据中的知识进行组织和表达,以更好地对知识进行分析和应用,逐渐成为学术界和工业界所关注的热点。知识图谱由<头实体,关系,尾实体>形式的三元组构成,能够将海量数据中的知识以图的方式进行组织,从而为智能服务的实现提供支持。然而相比于现实中的海量数据和知识,知识图谱仍是十分稀疏和不完备的。因此,如何从外部数据源获取三元组以扩充知识图谱,是当前亟待解决的一个关键问题。通过关系抽取和实体对齐能够从不同外部数据源中获取三元组。关系抽取从文本中获取给定头尾实体间的关系,进而获得三元组;实体对齐能够在不同图谱中发现指向真实世界中同一事物的实体,之后可从外部图谱中获得三元组。现有的关系抽取和实体对齐算法,多为监督场景下提出,而实际场景中并没有充足标签信息,更多是半监督场景。此外,半监督的方法中,Bootstrap类的迭代式方法在少量种子的情形较为适用,但若前面轮次出现错误,后面的轮次会将错误放大。强化学习对于状态-动作的探索过程,可用于迭代中对于种子是否扩充的探索,从而减少错误在后面轮次的扩展。本文设计并实现了半监督场景下,结合强化学习的关系抽取和实体对齐算法。针对半监督场景下的关系抽取,本文提出了结合强化学习的基于Bootstrap的关系抽取算法。在该算法中,为提高文本的表示质量,提出了基于自动编码器的半监督场景下的文本表示方法;为了防止语义漂移,提出了 Bootstrap框架下的策略梯度方法。在真实数据集进行实验测试的结果表明,本文提出的关系抽取算法与现有工作相比,显著提高了 F1等指标,验证了所提算法的优越性。针对半监督场景下的实体对齐,本文提出了结合强化学习的基于迭代式的实体对齐算法。在该算法中,为提高图谱的表示质量,提出了基于图神经网络的半监督场景下的联合映射方法;为防止错误传播,提出了迭代式框架下的策略梯度方法。在真实数据集进行实验测试的结果表明,本文提出的实体对齐算法与现有工作相比,显著提高了Hits@k等指标,验证了所提算法的优越性。
工业产品表面质量检测智能算法研究与系统实现
这是一篇关于表面质量检测,小样本,半监督,GAN,不平衡,检测系统的论文, 主要内容为在工业场景下的深度学习应用中,数据集普遍存在小样本和不平衡的问题。基于神经网络模型的深度学习应用通常需要基于大规模的标签样本进行训练,而小样本问题使模型在训练集上过拟合、泛化性能差,不能很好地应用于目标任务。样本的不平衡使训练集与样本的实际分布存在差异,使其不能很好地应用于目标任务。上述问题导致深度学习模型的训练结果与实际场景存在较大的出入。虽然基于计算机视觉的人工智能算法已经越来越多地应用于工业领域,但是大部分的智能算法都部署在云端服务器,无法及时对采集到的工业数据进行处理。同时,智能算法工作运行的过程中具备收集工业数据的能力,现有的系统没能很好地利用上述数据的价值。因此,目前业界依然缺少一个基于云边协同的高实时性和高可用性的、基于工业数据在线扩充的高通用性和高拓展性的工业产品实时在线表面质量检测系统。论文选题于企事业单位科研合作项目“基于移动边缘智能的智慧工厂产品质量缺陷在线检测技术研究”,从实际应用角度解决技术难题。本文从算法优化的角度出发,引入基于生成数据的重平衡方法,解决工业场景下的样本不平衡问题;从系统优化的角度出发,针对该问题设计实现了工业产品实时在线质量检测系统。论文的主要工作如下:1)综述了目前工业场景下基于计算机视觉的表面质量检测算法与系统的相关研究。首先对基于计算机视觉的工业产品表面质量检测算法研究现状进行了调研,重点介绍了工业数据集中普遍存在的小样本问题和不平衡问题的研究现状。然后介绍了基于计算机视觉的工业产品表面质量检测系统的发展现状,以及涉及到的相关系统开发技术的基本情况。综述研究为论文后续算法优化和系统设计奠定了基础。2)针对工业数据集中常见的小样本和不平衡问题,提出了一种基于重平衡的半监督产品表面质量检测算法,提升工业产品表面图像分类的准确率。首先设计了生成对抗网络框架将重平衡方法融入半监督方法中,然后在判决器中引入三分支结构实现多任务的解耦,并且引入平均教师一致性学习改善训练过程的稳定性。最后在多个公开数据集,以及自建的工厂铜箔表面缺陷数据集上验证了该算法的有效性。3)针对现有系统可用性和实时性差,缺乏通用性和可拓展性的问题,设计并开发了一种工业产品实时在线表面质量检测系统。本系统基于模块化设计思想,设计实现了数据采集模块、数据处理模块、数据持久化模块、通信协同模块、系统管理模块和数据可视化模块六个系统模块。上述模块相互协作实现了以下系统功能:算法自主增量更新,边云协同通信和工业产品实时在线检测。该系统实现了工业金属表面数据的采集、处理和分析,以及告警信息的输出、呈现和管理。同时,系统基于边云协同架构增强检测的可用性和实时性,基于数据扩充和算法自主增量更新增强系统的通用性和可拓展性。
工业产品表面质量检测智能算法研究与系统实现
这是一篇关于表面质量检测,小样本,半监督,GAN,不平衡,检测系统的论文, 主要内容为在工业场景下的深度学习应用中,数据集普遍存在小样本和不平衡的问题。基于神经网络模型的深度学习应用通常需要基于大规模的标签样本进行训练,而小样本问题使模型在训练集上过拟合、泛化性能差,不能很好地应用于目标任务。样本的不平衡使训练集与样本的实际分布存在差异,使其不能很好地应用于目标任务。上述问题导致深度学习模型的训练结果与实际场景存在较大的出入。虽然基于计算机视觉的人工智能算法已经越来越多地应用于工业领域,但是大部分的智能算法都部署在云端服务器,无法及时对采集到的工业数据进行处理。同时,智能算法工作运行的过程中具备收集工业数据的能力,现有的系统没能很好地利用上述数据的价值。因此,目前业界依然缺少一个基于云边协同的高实时性和高可用性的、基于工业数据在线扩充的高通用性和高拓展性的工业产品实时在线表面质量检测系统。论文选题于企事业单位科研合作项目“基于移动边缘智能的智慧工厂产品质量缺陷在线检测技术研究”,从实际应用角度解决技术难题。本文从算法优化的角度出发,引入基于生成数据的重平衡方法,解决工业场景下的样本不平衡问题;从系统优化的角度出发,针对该问题设计实现了工业产品实时在线质量检测系统。论文的主要工作如下:1)综述了目前工业场景下基于计算机视觉的表面质量检测算法与系统的相关研究。首先对基于计算机视觉的工业产品表面质量检测算法研究现状进行了调研,重点介绍了工业数据集中普遍存在的小样本问题和不平衡问题的研究现状。然后介绍了基于计算机视觉的工业产品表面质量检测系统的发展现状,以及涉及到的相关系统开发技术的基本情况。综述研究为论文后续算法优化和系统设计奠定了基础。2)针对工业数据集中常见的小样本和不平衡问题,提出了一种基于重平衡的半监督产品表面质量检测算法,提升工业产品表面图像分类的准确率。首先设计了生成对抗网络框架将重平衡方法融入半监督方法中,然后在判决器中引入三分支结构实现多任务的解耦,并且引入平均教师一致性学习改善训练过程的稳定性。最后在多个公开数据集,以及自建的工厂铜箔表面缺陷数据集上验证了该算法的有效性。3)针对现有系统可用性和实时性差,缺乏通用性和可拓展性的问题,设计并开发了一种工业产品实时在线表面质量检测系统。本系统基于模块化设计思想,设计实现了数据采集模块、数据处理模块、数据持久化模块、通信协同模块、系统管理模块和数据可视化模块六个系统模块。上述模块相互协作实现了以下系统功能:算法自主增量更新,边云协同通信和工业产品实时在线检测。该系统实现了工业金属表面数据的采集、处理和分析,以及告警信息的输出、呈现和管理。同时,系统基于边云协同架构增强检测的可用性和实时性,基于数据扩充和算法自主增量更新增强系统的通用性和可拓展性。
面向电商文本的问答对抽取方法研究
这是一篇关于非正式文本,半监督,注意力机制,上下文相关的论文, 主要内容为随着互联网技术和电子商务平台的迅猛发展,学术界对于问答对抽取的研究兴趣呈现爆发式增长。此外,问答对抽取方法研究在工业界具有众多应用,如对话系统、阅读理解系统等。本文旨在开展面向电商文本的问答对抽取方法研究,其目的是从电商平台的问题文本以及答案文本中抽取出问答对。以往问答相关的研究通常面向正式文本,然而电商平台上的问答文本都是非正式文本。因此,传统的问答对抽取方法并不适用于本任务。本文主要针对电商文本展开粗粒度以及细粒度的问答对抽取方法研究,具体内容包括如下三个方面:首先,本文提出了一种基于变分自编码器的问题识别方法。在电商平台的问答文本中,存在问题文本中包含多个子问题的情况。在此情况下,问题识别任务旨在将每个子问题从整个问题文本中识别出来。针对该任务,为了解决标注样本匮乏的问题,本文提出了一种半监督深度学习方法进行问题识别。具体而言,首先,使用结合了软注意力机制的长短期记忆网络实现分类器;其次,使用变分自编码器实现数据生成器;最后,通过全局损失函数联合学习分类器以及生成器。实验结果表明,该半监督学习方法能够利用未标注样本显著提升问题识别性能。其次,本文提出了一种基于注意力机制的一对多问答匹配方法。问答匹配任务旨在针对问题文本的每一个子问题,判断答案文本是否回答了该问题。本文将该任务定义为粗粒度的问答对抽取。具体而言,首先,将问题与答案文本中每一个句子进行一次匹配,并利用词语级别注意力机制生成匹配向量;其次,将问题与答案文本中所有句子生成的匹配向量进行拼接,并利用句子级别注意力机制生成问答向量;最后,利用该问答向量进行分类。实验结果表明,基于注意力机制的一对多问答匹配方法能够有效提升电商文本的问答匹配性能。最后,本文提出了一种基于注意力机制的上下文相关的问答配对方法。问答配对任务旨在针对问题文本中的每个子问题,从答案文本中找出具体回答了该问题的句子。本文将该任务定义为细粒度的问答对抽取。具体而言,首先,利用软注意力机制生成答案文本当前句子的上文向量表示和下文向量表示并拼接到当前句子的时间步矩阵上;其次,利用互注意力机制生成当前子问题以及当前答案句子的问答向量;最后,利用该问答向量进行分类。实验结果表明,基于注意力机制的上下文相关的问答配对方法能有效提升电商文本的问答配对性能。
基于主动式半监督协同过滤的推荐算法研究
这是一篇关于推荐系统,半监督,协同过滤的论文, 主要内容为随着信息技术(特别是互联网技术)的发展,人们在享受信息获取便利的同时也面临着越来越严重的信息过载问题。在此背景下,个性化推荐系统作为解决信息过载的有效技术手段由此产生,并已成为人们生活中不可或缺的一部分。协同过滤是构建推荐系统的核心技术之一,近年来受到学术界和工业界的高度重视,但其性能严重受制于数据稀疏问题。鉴于此,文本提出了一种面向评分预测任务的主动式半监督协同过滤模型。该模型同时使用标记样本和未标记样本学习用户偏好,以此缓解数据稀缺性问题。该模型在协同训练框架下使用两种基于邻域的协同过滤算法构建基础推荐器,每个推荐器独立对未标记样本进行预测,并将其预测置信度较高的样本填入对方训练集用于模型下一次迭代训练;重复该过程,两个推荐器通过样本交换彼此可以互相促进,不断朝着性能优化的方向发展。迭代过程中,基础推荐器采用主动学习思想优先选择对模型预测性能具有积极作用的未标记样本用于标记,以期加速模型收敛。同时,本文还设计了置信度预估策略,用以保障被填充到训练集中的伪标记样本不会衰减模型性能。除此之外,我们设计了两种方法来对模型进行效率优化,分别是增量式相似度计算方法和邻域范围优选方法,其中前者是从原有相似度计算公式中将变化部分从整体计算中分离出来,后者是缩小近邻搜索范围,这两种方法从不同的角度缩减了模型的时间开销。通过三个数据集上实验验证结果表明,利用未标记数据可有效缓解协同过滤推荐方法所面临的数据稀疏问题,所提出模型以少量的额外计算开销为代价取得了比其他同类方法更好的推荐性能。
基于半监督异常检测系统的研究与实现
这是一篇关于分类,半监督,异常检测,深度学习,支持向量数据描述的论文, 主要内容为近年来随着互联网的时代到来,数据量级呈现了爆炸式的增长,大数据的时代随之到来。由于传统框架无法很好的处理海量数据的计算,新型的计算框架应运而生,这些框架的出现为数据的并行计算提供了极大的帮助,为数据科学的各个领域奠定了基础,加快了各领域的发展。然而随着数据量的不断增大,异常数据,恶意攻击也越来越多。异常数据在很多情况下可以对系统造成极大的危害,所以异常的检测也显得越来越重要,异常检测的相关方法也同时受到了更多的人的关注。异常数据也可以理解为不符合预期的数据,需要被识别出来。因为异常检测识别的对象是高维样本特征,所以这种情况下首先考虑使用机器学习算法。在实际的应用场景中,受检测的数据可以分类为有标记数据和无标记数据。获取大量有标记数据的难度较大,一般都需要经过专家的人工标记才能获得数据对应的标记,而这个过程需要耗费大量的资源才能完成,然而获取少量有标记数据的难度较低,比较容易实现。但是传统的机器学习算法并没有很好的利用大量未标记数据,只能运用少量有标记数据,因此在实际运用中表现不佳。按照训练过程中数据的标记有无,机器学习算法分为无监督学习算法、有监督学习算法、半监督学习算法。有监督算法要求受训练的数据都具有标记,但是这种条件很难达到,无监督算法虽然不需要数据具有标记但是整体的效果表现不如有监督学习,而介于有监督和无监督的半监督算法则综合了两种学习的优点,很好的发挥两者的优势。因此本文使用了一种近年提出的半监督模型Deep SAD并结合线性判别分析(LDA)模型中的分类功能对部分未标记数据进行预处理的方法来进行异常检测。Deep SAD模型是在Deep SVVD的基础延伸的,该模型在一定的程度上可以将标记的异常数据和正常数据都进行合理的运用。本文的主要工作如下:1.将线性判别分析模型与Deep SAD模型结合,先利用线性判别分析模型中的分类功能为未标记数据生成近似标签,用生成的近似标签来指导网络训练。再使用Deep SAD模型中的目标函数来提升异常检测的效果。同时对Deep SAD模型中的重要参数进行调整,来获得该模型能够达到最好效果的参数值,并将结合了线性判别分析模型后的Deep SAD模型与其它部分已知的模型横向对比,综合测试该模型的效果。2.基于结合了线性判别分析后的Deep SAD模型的异常检测系统开发。使用结合了线性判别分析模型后的Deep SAD模型开发了基于Spring Boot框架的异常检测系统。此系统提供了人工标记数据的接口,当系统中产生大量未标记的数据时,分析人员可以使用该接口进行部分数据的人工标记,再将未标记的数据和人工标记的数据共同传入异常检测模块中进行异常检测、并将检测结果进行存档以便于后续的异常追踪。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://m.bishedaima.com/lunwen/48652.html