依存句法对领域知识图谱构建质量的影响研究
这是一篇关于依存句法,命名实体识别,关系抽取,知识图谱质量的论文, 主要内容为大数据时代,技术日新月异,互联网支持下的资源呈指数增长,爆炸式呈现给用户。面对如此海量的数据,即使是数据的原住民,仍然在数据获取、加工、处理等方面存在一定的困难。如今快速有效选择数据,对目标数据整理从而服务于自身需求成为重中之重。基础领域作为较为特殊的领域,其受众群体除教师外,还有学生,大多学习者还没有足够的能力从海量数据快速获取自己需要的内容。在其他领域通过知识图谱构建来梳理该领域的资源,系统整合成领域知识库为搜索引擎、领域知识问答、语义搜索提供了很大的帮助。基础教育领域也有人尝试构建学科知识图谱,来梳理知识结构、方便知识检索和知识问答,但基础教育领域知识图谱构建存在一些问题,主要集中在构建技术选择和构建质量上,具体问题为:(1)基础教育领域知识图谱所使用的技术有效性和适用性有待考量。虽有大量技术可以达到知识图谱构建的目的,但是技术有效性和适用性并没有人深入研究,而基础教育领域各学科特点较为鲜明,如果可以研究一套适用于各学科的知识图谱构建体系和技术将大大减少知识图谱构建的难度。(2)知识图谱构建质量水平层次不齐。已经有较为权威的大学对基础教育领域的学科进行知识图谱构建,但构建质量究竟怎样,并没有深入研究。其研究仅在构建前期为知识图谱构建设了一些假设性条件,而知识图谱应用于各个领域的前提是其权威性可以保证,其质量需要经得起考量的,目前似乎还未针对此深入剖析。具体体现在领域知识图谱领域性不强、全面性不够、准确性不高等。本研究分析知识图谱构建两大环节中典型性方法,结合依存句法在句子结构方面的优势,假设依存句法在知识图谱构建质量上有积极影响。为验证假设针对知识图谱构建两大流程设计四个对比试验,对构建过程和构建结果数据统计分析具体影响。为得到较为准确的结论,文章对实体抽取、实体扩充、实体关系抽取和最终构建的知识图谱进行领域性、准确性、覆盖性和全面性进行量化表示和分析,最终发现依存句法在知识图谱构建质量上有优势,在实体抽取和实体关系抽取上都取得不错的效果。今后,可将其应用于其他领域的知识图谱构建中,为其他领域知识图谱质量提供一定的参考。
基于深度学习的方面级情感分析研究与应用
这是一篇关于方面级情感分析,图卷积网络,注意力机制,依存句法的论文, 主要内容为随着全社会的数字化转型,人们在日常生活中越来越依赖社交网络、电商网站、短视频影音软件等互联网平台。在这些互联网平台上留存着丰富的用户评论信息,挖掘这些信息对市场营销、舆情分析、以及辅助决策具有重要价值。文本情感分析作为NLP领域的一个子任务,研究人员对其的研究由来已久,但传统的粗粒度分析方式已不能满足人们日益增长的分析需求,细粒度的方面级情感分析是近几年研究的重点。本文针对方面级情感分析中该如何建立方面词与上下文的联系以及如何挖掘深层次句法信息的两大问题,提出了相应的解决方案,主要工作如下:(1)针对现有文本情感分析方法因使用单一注意力机制而无法很好地获取方面词与上下文各种关联的问题,本文提出了一种基于多交互注意力图卷积的方面级情感分析模型。首先,该模型在特征提取层使用一个Bi-GRU来获取方面词以及上下文的隐藏特征向量;然后,在图卷积层中利用句法依存树来获取上下文中的句法结构信息,并且利用多交互注意力机制来分别提取方面词和上下文的语义特征、句法特征;最后,使用一个门控机制将语义特征和句法特征进行融合,判断方面词情感极性。为验证模型的有效性,本文在SemEval以及Twitter等一系列公开数据集上进行实验。实验结果表明,该模型在方面级情感分析上的效果有明显提升。(2)针对模型中无法充分利用句法依赖信息,缺乏发掘深层次句法信息能力的问题,提出了一种基于预训练模型BERT和强化依赖图卷积的方面级情感分析模型。该模型使用预训练模型BERT作为词嵌入层模型,以解决一次多义问题。同时基于依存句法树,将文本词语间的依赖关系、依赖类型和依赖距离都纳入考量,从而使模型能够充分利用所有的依赖信息,准确的掌握文本语句中的各种句法结构。并且模型中还加入了一个关注特定方面的注意力层来关注与方面有关的上下文信息。根据在多个公开数据集上的对比实验结果显示该模型优于大多数最新的有效模型。(3)基于本文研究的模型,设计实现了一个面向酒店评论的方面级情感分析系统,对酒店评论文本的方面词进行情感极性判断,为酒店业者根据消费者需求反馈,改善服务质量提供帮助。
面向汉越社交媒体文本的跨语言情感倾向性分析方法研究
这是一篇关于汉越社交媒体文本,跨语言情感倾向性分析,图卷积神经网络,依存句法的论文, 主要内容为随着互联网的迅速发展,针对特定的商品或同一热点事件下汉越社交媒体数据进行情感分析,能够把握两国舆情动态从而进一步开展关于热点事件分析、监测和预警任务,具有重大的研究价值和应用价值。面向社交媒体文本的汉越跨语言情感倾向性分析,存在越南语标注数据稀缺,情感表征映射难以对齐,评论特征学习不充分、语言知识利用不充分、语义表征不准确等研究问题,导致面向社交媒体的跨语言情感倾向性分析的准确率很低,针对以上问题,本文面向汉越社交媒体文本,主要完成了以下工作:(1)汉越社交媒体数据获取及情感语料库构建方法由于语言障碍和汉越社交媒体数据语料匮乏,并且很难获得高质量的汉越社交媒体数据标注语料,影响对于越南语情感倾向性分析的准确性。为了支持模型训练,通过爬虫技术,从微博、twitter搜集与关键词相关的社交媒体数据。根据不同应用场景下的汉越情感分类任务需求,研究设计相应的数据标注方法,构建汉越情感分类数据集,并根据任务需求进行数据标注。本章工作对后面的情感倾向性分析打下基础。(2)基于情感语义对抗的汉越跨语言情感倾向性分析方法任务旨在针对越南的商品评论进行情感倾向性分析,现有模型难以解决情感表征学习不充分,汉越跨语言情感表征映射不准确的问题,导致越南语等低资源语言的情感倾向性分析准确率较低。而情感词可以加强情感表征学习,对抗网络可以减小语言差异,因此考虑将情感词与评论特征进行融合,利用对抗的思想缩小汉越情感特征的差异。提出一种基于情感语义对抗的跨语言情感倾向性分析模型,将情感词与评论特征进行融合,利用对抗的思想缩小汉越情感特征的差异。利用对抗学习使模型学习到语言分布差异最小的表征,最终通过中文评论标签训练模型分类器完成情感分类任务。实验结果表明本文模型可以很好的实现双语情感语义对齐,相比最优基准模型准确率提高了2个百分点,取得了较明显的提升,且本文方法在差异性不同的语言对上都具有明显的优势。(3)基于图神经网络的汉越跨语言情感倾向性分析方法任务旨在对同一热点事件下的越南语评论进行情感倾向性分析,社交媒体评论存在表达形式多样化,上下文关系弱,表意不充分等问题,可利用汉越双语的正文来辅助对越南语评论的理解。同时评论文本数据中是存在一定的句法信息的,可以利用句法信息,帮助模型进一步理解其语义信息。因此本文提出了一种基于中越正文信息与越南语句法指导的跨语言情感倾向性分析方法,首先利用编码器及交叉注意力网络得到融合中越正文信息的越南语评论表征,然后应用图卷积模块对越南语评论的句法信息进行建模,提升了模型对越南语评论语义的理解,从而提高情感倾向性分析的准确率。结果表明提出方法相比最优基准模型准确率提高了2个百分点,取得了较明显的提升。(4)搭建面向汉语和越南语的社交媒体文本情感倾向性分析原型系统利用以上研究成果,设计并实现了面向汉越社交媒体文本的跨语言情感倾向性分析原型系统。该系统可以通过爬虫技术,根据用户给定的关键词,从微博、推特两大社交媒体平台采集关键词相关的社交媒体数据。系统利用本文提出汉越跨语言情感分析模型对收集到的数据进行分析和处理,为用户提供所需的商品及热点事件情感倾向性分析结果。系统采用B/S(浏览器/服务器)架构,集成了数据获取模块、数据分析模块以及页面展示模块,为用户提供了可视化的信息获取平台。
基于知识图谱的自动问答系统
这是一篇关于问答系统,知识图谱,实体识别,实体消歧,依存句法,语义相似度的论文, 主要内容为基于知识图谱的问答系统是实现知识问答和自动化问答的重要途径。伴随着知识图谱的不断发展和壮大,其准确率和覆盖面也变得越来越高,因此在很多领域都被重视起来。本文对基于知识图谱的自动问答系统中所涉及到的实体链接和问句与知识图谱信息匹配进行了研究。问答系统中的实体链接首先要识别出问句中的实体字符串作为实体提及,然后在知识图谱中通过实体映射找出实体提及对应的所有候选实体,最后对这些被找出的候选实体进行实体消歧,进而完成问句的主题实体链接。本文针对实体链接中的难点——实体消歧提出了一种基于多特征的实体消歧模型。本文在问句与知识图谱信息匹配模块引入了依存句法来对问句进行语义表示,并且针对不同的语义表示进行建模,通过比较来选取出最优的问句语义表示,从而提升系统的整体性能。本文还搭建了一个基于问句多分类的中文知识图谱问答演示系统,已经上线并且可以提供问答服务。本文的主要内容分为如下几个方面:(1)研究基于多特征策略的实体链接。本文针对由于知识图谱中实体自身描述信息含量少而导致的低质量实体链接的问题,提出了一种基于多特征的实体链接方法。实体链接主要分为实体识别和实体消歧,由于知识图谱中含有实体解释的信息非常少,导致实体链接部分最难处理的就是实体消歧。本文提出的方法就是充分提取问句与实体的自身特征,以及利用实体在知识图谱中的边和节点信息,来进行实体消歧。并在CCKS2019-CKBQA公开的测试集上面进行实验,在实体链接部分的准确率高于当时参赛第一名,体现了本文所提方法的优异性能。(2)研究问句与知识图谱信息的最优匹配。关于知识图谱问答的研究表明,如果能够对问句进行更好的解析和理解,知识图谱问答系统的性能会得到不错地提升。本文提出了一种基于依存句法的问句解析方法,通过加强问句的语义表达,来提高问句与知识图谱信息匹配模型。首先考虑问句的依存句法树中关键字之间的最短依存路径,对句法树中的路径上节点间的依存关系进行编码。其次对于整棵句法树的表达,本文提出了两种编码策略。最终结合基于最短依存路径的向量表示和基于整棵句法树的向量表示,进一步改进了问句与知识图谱信息匹配模型的性能。最终在一个广泛使用的基准数据集上进行了大量的实验。实验结果表明,与其他匹配模型相比,本文提出的基于依存句法的匹配模型能够更好地解析问句,并且取得更好的效果。(3)构建基于问句多分类的中文知识图谱问答系统。本文结合前两点的研究,针对当前中文知识图谱问答关于复杂问句的性能不好的问题,实现了一个基于问句多分类的知识图谱问答系统。系统包含实体识别、实体链接、以及问句与知识图谱信息匹配的功能。系统还能够对简单问句与复杂问句进行分类处理,并且对于分类后的问句,采用了不同的解决方法去完成问答。除此之外,系统内部的各模块功能也经过测试与调试,目前该系统已经开始上线,供用户进行知识图谱问答。
电商虚假评论识别
这是一篇关于隐含语义分析,虚假评论识别,依存句法,错位级别的论文, 主要内容为电子商务迅速发展,消费者开始热衷于网上购物和发表评论,这些评论为店家、生产厂家以及潜在的消费者提供了重要的参考信息。然而评论有可能是虚假的,虚假评论的存在在一定程度上会影响评论的参考价值,因此识别出虚假的电商评论显得极为重要。本文主要针对电商评论,围绕评论显式特征、隐含特征以及显式特征和隐含特征结合的方式展开研究,主要完成了以下研究工作:(1)针对目前虚假评论识别都是通过评论者或评论文本的显式特征来进行的,但是没有考虑评论文本的语义信息,分析结果不够准确,因此提出基于隐含语义分析的电商虚假评论识别方法。该方法在基于用户行为特征分析的基础上增加了评论文本的语义分析信息,使得能在文本语义层次上识别虚假评论,提升了识别准确性。(2)利用依存句法分析评论文本,提取出评论中的属性值对,然后通过依存关系、词性规则和词典三种方法进一步过滤得到更有参考价值的特征值对。特征值对的多少是识别虚假评论的重要参考项。(3)使用错位级别的方法来评估实验结果。由于实验方法的特殊性,不便于使用传统的的评估方法,因此本文使用了错位级别的评估方法。(4)最后设计并实现了电商评论分析系统,为进一步分析评论及研究虚假评论的识别方法提供便利。
融合依存句法信息的命名实体识别研究
这是一篇关于命名实体识别,依存句法,图卷积神经网络,注意力机制,语言模型的论文, 主要内容为大数据时代的快速发展,使得非结构化文本数据呈指数级增加。海量的文本数据中包含着大量有价值的信息,因此对于文本信息抽取的研究有着巨大的价值和深远的意义。作为信息抽取的核心任务之一,命名实体识别(Named Entity Recognition)在知识图谱、自动问答、机器翻译等领域应用广泛,其识别性能的好坏直接影响到自然语言处理下游任务的性能。目前针对命名实体识别任务的研究,主要是将句子看作一个序列进行处理,忽略了句子中潜在的依存句法信息。本论文则针对在命名实体识别任务中如何充分利用依存句法信息展开研究,应用基于深度学习的方法,从词表示和命名实体识别模型结构两个方面进行改进,并在三种语言的数据集上进行实验,实验结果表明本文提出的模型在命名实体识别任务中具备一定优势。主要研究工作和创新点包括:1.在词表示中融合单词的字符级特征和依存句法信息。1)利用Bi LSTM模型获取单词字符级特征信息,更多地学习单词的形态学特征;2)文本的依存句法通常使用依存树来表示,本文针对依存树中父节点和孩子节点分别进行编码。对于父节点,直接将父节点及节点与父节点之间的依存关系融入词表示中;对于孩子节点,基于图卷积神经网络来聚合每个节点的多个孩子节点及节点与孩子节点之间的依存关系。通过设计多组实验表明,融合字符级特征信息可以提高模型对低频词和未登录词的处理能力,在此基础上分别融合依存父节点和依存孩子节点信息,均可以进一步提升模型命名实体识别性能。2.构建了融合依存节点信息的Bi LSTM-CRF模型。基于一个两层的Bi LSTM-CRF模型进行研究,重点对模型的层间传播方式进行改进,并分别使用融合依存父节点和依存孩子节点信息的词表示。其中针对模型中依存孩子节点信息的聚合问题,在层间信息传播的过程中使用加权求和的方式来聚合依存孩子节点信息。实验表明,通过改变Bi LSTM的层间传播方式可以增强模型学习词间依存关系的能力,使模型在解决长距离依赖问题上得到改善,并进一步提高了模型学习依存句法信息的能力,为后续在模型中融合完整依存句法信息奠定了基础。3.提出了融合完整依存句法信息的命名实体识别模型(CPBi LSTM-Att-CRF)。该模型将分别融合依存父节点和依存孩子节点信息的Bi LSTM-CRF模型进行合并,基于注意力机制对两部分进行动态选择,从而学习到文本中的完整依存句法信息。通过设计多组实验进行对比,CPBi LSTM-Att-CRF相对于仅融合依存父节点或仅融合依存孩子节点信息的Bi LSTM-CRF模型在三种语言数据集上的性能均得到提升,F1值分别达到了88.94%、77.42%和84.38%。其中模型对于长实体的识别表现尤为出色,且在与现有方法对比中具有一定的优势。4.提出了将动态词向量和完整的依存句法信息同时应用于命名实体识别任务中。本文使用语言模型来获取含有上下文信息的动态词向量,并分别将其与融合依存父节点和依存孩子节点的词表示拼接,放入CPBi LSTM-Att-CRF进行训练,探索使用动态词向量和依存句法信息对命名实体识别任务的共同影响。实验表明,动态词向量的加入可以进一步提升模型命名实体识别性能,且解决了模型在中文数据集中出现的精确率降低的问题。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://m.bishedaima.com/lunwen/56159.html