9篇关于中文命名实体识别的计算机毕业论文

今天分享的是关于中文命名实体识别的9篇计算机毕业论文范文, 如果你的论文涉及到中文命名实体识别等主题,本文能够帮助到你 基于改进Transformer的中文命名实体识别研究 这是一篇关于中文命名实体识别

今天分享的是关于中文命名实体识别的9篇计算机毕业论文范文, 如果你的论文涉及到中文命名实体识别等主题,本文能够帮助到你

基于改进Transformer的中文命名实体识别研究

这是一篇关于中文命名实体识别,Transformer,自注意力机制变体,混合头机制的论文, 主要内容为命名实体识别能智能识别出文本内所包含的各种实体信息,是自然语言处理领域中基础且重要的研究方向。为事件抽取、关系抽取、知识图谱和问答系统等其他任务提供研究基础和关键信息。目前,深度学习技术已经在命名实体识别领域取得了突破性进展,但针对中文文本的命名实体识别效果仍不够理想。主要原因在于中文特有的以字词为单位的语言结构,且文本中词汇前后不存在明显边界符号,影响模型对中文文本中实体识别的性能。目前针对上述问题常用的解决方法主要是采用晶格结构来有效地利用文本中的词汇信息。Transformer已经成为自然语言处理领域最常用的神经网络模型,得益于其强大的全局特征提取与并行计算能力,基于Transformer的模型已经在多个自然语言处理领域取得最好的研究效果。但现有的注意力机制无法有效地利用晶格结构的位置信息,因此命名实体识别的精度仍有待进一步提高。这将影响例如事件抽取、知识图谱等下游任务的研究效果,如何提高中文文本的命名实体识别效果已经成该自然语言处理领域亟待解决的关键科学问题。针对以上问题,本文对改进Transformer来更充分地利用晶格结构中的位置信息进行研究,研究工作包括以下两个部分。1、目前基于Transformer的模型使用的自注意力机制变体存在对晶格结构中位置信息利用不充分的问题。晶格结构中的位置信息通常会被抽取为一条距离特征信息流输入到Transformer中,在计算两个字或者词之间的注意力得分时,通过使用Transformer-xl中提出的自注意力机制的变体,同时将距离特征对前面的字/词的影响包含在内。但该自注意力机制变体存在对距离特征利用不充分的问题,本文提出了一种改进的自注意力机制变体,同时考虑了两个字或者词间距离特征对前面和后面的字或者词的影响,充分利用了距离特征。基于该机制改进的Transformer模型,对晶格结构中位置信息的利用能力更加优秀。在两个开源的数据集上测试了模型的性能,证实了本文提出的改进的注意力机制的有效性。2、在使用上述改进的自注意力变体时,由于距离特征和语义特征二者来源相互独立,Transformer多头机制下距离特征在不同头上的影响不同会干扰到模型对语义信息部分的局部信息关注能力,本文提出一种融合多头机制与单头机制的混合头机制。该方法在计算距离特征的影响时使用单头模式,在计算语义信息之间的注意力得分时使用多头模式,有效的解决了距离特征在不同头上的影响不同引起的干扰噪声问题。本文通过在三个权威的公开数据集上进行测试,证明了本文所提出的混合头注意力机制的有效性,并在中文命名实体识别领域中达到了较为先进的识别效果。

面向企业图谱构建的中文命名实体识别技术研究

这是一篇关于中文命名实体识别,Self-Attention,迁移学习,自学习,主动学习的论文, 主要内容为命名实体识别是信息抽取、机器翻译、知识图谱等应用领域的重要基础工具,在自然语言处理技术走向实用化过程中有着重要地位。在中文命名实体识别研究落后于英文命名实体识别研究以及深度学习兴起的背景下,本文面向企业图谱的构建这一目标,基于深度神经网络模型,深入研究了图谱构建过程中涉及的中文命名实体识别技术。论文的主要工作如下:在经典的BiLSTM-CRF命名实体识别模型的基础上融入Self-Attention,提出了SA-BiLSTM-CRF模型。实验证明该模型能够有效提取远距离依赖信息,有着更好的识别效果。并且发现BiLSTM与Self-Attention结合时使用双向结合的方式比单一结合的方式效果更好。验证了SA-BiLSTM-CRF模型中能够较好地通过LSTM学习到单词位置信息而不需要Positin Embedding。发现Multi-Head机制则能够提升模型效果,但是抽头过多容易过拟合。为了将SA-BiLSTM-CRF模型应用于标注语料较少的企业领域,针对标注语料少、深度网络模型难以训练的问题,分别基于迁移学习、自学习、主动学习、自学习与主动学习相结合四种思路提出了四种优化策略。实验验证了四种优化的有效性。同时,在基于迁移学习的优化策略中,发现最适合的迁移学习方式是迁移和微调整个模型的参数。在其他三种优化策略中,发现使用自学习与主动学习相结合的算法能够优势互补,优化效果要比单一使用其中一种算法的效果更好。在SA-BiLSTM-CRF模型的训练流程中,引入基于迁移学习优化策略和基于自学习与主动学习相结合的优化策略,提出了一个适用于企业领域的命名实体识别系统,并完成了企业图谱的构建。

石油化学文本的命名实体识别研究及应用

这是一篇关于信息抽取,中文命名实体识别,多特征融合,知识图谱可视化的论文, 主要内容为石油化学文本的命名实体识别研究旨在从非结构化文本中抽取实体信息并高效地管理它们。对比通用领域,石油化学实体信息抽取任务存在两个方面的问题。一是缺乏模型训练和测试过程中所需的石油化学领域标注语料。二是石油化学领域的命名实体包含长实体和短实体类型,且石油化学实体之间的关系多种多样,这些特征会影响实体信息抽取模型的性能。在非结构化文本信息管理工作中,现有的管理方法通常是利用非结构化数据库存储信息,难以直观地观察到多组信息之间的关联性,不利于对数据的整合、应用和共享。针对以上问题,本文通过引入计算机技术对海量非结构化文本进行实体抽取和对实体信息高效地管理。首先,针对实体长度不一致、文本数据特征单一的问题,本文提出了一种基于多级语义特征融合及注意力机制的实体抽取模型。模型中通过多尺寸CNN语义网络对专业词汇内部组成的语义特征提取,缓解了实体长度不一致带来的边界位置难以捕捉的现象,并通过注意力机制计算上下文特征与词汇语义特征的相似度,给上下文特征赋予不同权重,实现字词特征融合,弥补了文本数据特征单一的问题。其次,针对缺乏标注语料的问题,本文构建了石油化学数据集。并在石油化学数据集上和CMe EE、Rusume两个公共数据集上与其它模型进行对比实验,通过评价指标来验证本文提出的模型的有效性和泛化性。其次,针对石油化学文本中存在多组实体关系的问题,本文提出基于特征聚合的实体关系抽取模型,本模型的输入层组合文本中实体类型嵌入、实体位置嵌入和上下文嵌入,利用胶囊网络学习实体之间的空间信息,并预测实体关系类型。通过设计实验来验证模型的有效性。最后,为了通过知识图谱直观地观察出实体信息,本文设计了石油化学文本命名实体识别系统。该系统可以查询石油化学文本中的实体信息和可视化展示实体关系信息,为大众提供一个可靠的石油化学知识科普服务平台,实现了对非结构文本有效的管理与应用。

名人专题数据平台知识图谱构建方法研究与应用

这是一篇关于中文命名实体识别,依存句法分析,知识图谱构建,名人专题数据平台的论文, 主要内容为21世纪以来,依托新一代信息技术与已有馆藏资源,建立具有区域文化特色的名人专题数据平台,已成为数字化人文建设的重要任务之一。名人专题数据平台是通过收集、整理、开发和利用具有公众效应的名人资料,进而推动地方经济发展、宣传特色区域文化所打造的特色馆藏资源数字化平台。由于传统的名人数据资料大多是以分散独立的非结构化的形式存在,例如,文献与文献之间、文献与事迹之间、事迹与事迹之间、事迹与地点、人物、日期之间等。因此,存在着无法便捷、有效、准确获取二者相互关系,难以构建内部联系紧密、整体性强的名人专题数据平台的问题。针对上述问题,本文通过研究中文命名实体识别任务与知识图谱构建方法,更有效地识别了名人文献中的命名实体,完成了名人专题知识图谱的构建,并应用图谱实现了文献、事迹、地点、人物、日期等之间具有紧密联系的陈毅专题数据平台。本文的研究工作如下:(1)设计并提出了基于BILSTM和多头注意力机制的特征增强模块,解决了基于字符进行模型训练方法中存在的无法将句子整体特征或字的邻域特征融入字向量的问题,增强了模型的特征提取能力;提出将对抗训练作为模型的正则化方法,解决了自建数据集样本不完善的情形下模型泛化能力差的问题,增强了模型的抗干扰能力。实验结果表明,模型在加入对抗训练与特征增强模块后,F1值、召回率、精确率都得到提高。(2)设计并提出了基于依存句法分析与中文命名实体识别模型相结合的三元组抽取模型DSTE。DSTE模型实现了在使用训练后的中文命名实体识别模型和根据句式结构不同设计的8种三元组抽取模式的情形下,完成三元组的抽取。解决了名人文献文本中描述性实体和关系抽取难以用预定义数据集来限定的问题。实验结果表明,模型DSTE在陈毅事件库数据集上的f1-score可以达到78%,能有效为陈毅专题数据平台提供数据服务。(3)设计并实现了知识图谱构建系统和陈毅专题数据平台。知识图谱构建系统负责为开发人员提供本文到结构化数据的服务,包括语法分析、图谱展示、三元组抽取、文本上传等功能模块,实现了知识图谱的构建。陈毅专题数据平台负责为用户提供多样化的陈毅元帅数据服务,包括生平列表、事件树、可视化地图等功能模块,完成了陈毅特色馆藏资源信息的整合。

网络金融领域知识图谱构建关键技术研究

这是一篇关于金融领域知识图谱,中文命名实体识别,关系抽取,BERT模型,神经网络的论文, 主要内容为随着大数据技术的发展,网络环境日益复杂,网络信息中关于金融的信息量呈爆炸性增长,如何从海量信息中获得有用的信息并构建金融领域的知识图谱成为研究焦点。金融领域知识图谱可帮助金融从业者根据图谱中的知识进行分析、投资、交易等操作,也能够使普通民众清晰了解各类金融企业的内在关系,在一定程度上降低金融投资风险。本文主要研究如何从海量的金融文本数据中获取金融领域实体识别以及关系抽取,以完成信息抽取工作,进一步构建金融领域的知识图谱。(1)传统的命名实体识别技术难以识别金融领域中新的或中英文混合的金融实体,并且不能准确地提取特征,从而难以识别出全部的金融领域实体。为了能够准确地提取中文金融实体,本文提出了BERT-Bi LSTM-CRF命名实体识别模型。该模型在Bi LSTM-CRF传统模型中,考虑到一词多义加入了BERT模型,能够更好地分析上下文信息,有效地提取金融实体。实验结果证明,该模型在中文金融领域命名实体识别任务中取得了良好的效果,准确率、召回率、F1值三方面都有很好的结果。金融领域命名实体识别任务准确度的提高,对进一步构建网络金融知识图谱、金融知识库等任务有很大帮助。(2)传统的关系抽取模型需要人工抽取句子特征,这样获得的特征并不充分。为了解决这一问题,本文在远程监督PCNN-ATT模型的基础之上,提出了一种深度学习神经网络模型—Bi LSTM-ATT-PCNN模型,它能够自动抽取特征,避免了人工抽取特征的不确定性。实验结果表明,该模型在一定程度上能够解决传递损失问题,也可以提高序列特征提取的准确度。(3)通过完成金融领域命名实体识别以及关系抽取这两个信息抽取子任务,使用图数据库Neo4j构建一个简单的网络金融领域知识图谱。

基于改进Transformer的中文命名实体识别研究

这是一篇关于中文命名实体识别,Transformer,自注意力机制变体,混合头机制的论文, 主要内容为命名实体识别能智能识别出文本内所包含的各种实体信息,是自然语言处理领域中基础且重要的研究方向。为事件抽取、关系抽取、知识图谱和问答系统等其他任务提供研究基础和关键信息。目前,深度学习技术已经在命名实体识别领域取得了突破性进展,但针对中文文本的命名实体识别效果仍不够理想。主要原因在于中文特有的以字词为单位的语言结构,且文本中词汇前后不存在明显边界符号,影响模型对中文文本中实体识别的性能。目前针对上述问题常用的解决方法主要是采用晶格结构来有效地利用文本中的词汇信息。Transformer已经成为自然语言处理领域最常用的神经网络模型,得益于其强大的全局特征提取与并行计算能力,基于Transformer的模型已经在多个自然语言处理领域取得最好的研究效果。但现有的注意力机制无法有效地利用晶格结构的位置信息,因此命名实体识别的精度仍有待进一步提高。这将影响例如事件抽取、知识图谱等下游任务的研究效果,如何提高中文文本的命名实体识别效果已经成该自然语言处理领域亟待解决的关键科学问题。针对以上问题,本文对改进Transformer来更充分地利用晶格结构中的位置信息进行研究,研究工作包括以下两个部分。1、目前基于Transformer的模型使用的自注意力机制变体存在对晶格结构中位置信息利用不充分的问题。晶格结构中的位置信息通常会被抽取为一条距离特征信息流输入到Transformer中,在计算两个字或者词之间的注意力得分时,通过使用Transformer-xl中提出的自注意力机制的变体,同时将距离特征对前面的字/词的影响包含在内。但该自注意力机制变体存在对距离特征利用不充分的问题,本文提出了一种改进的自注意力机制变体,同时考虑了两个字或者词间距离特征对前面和后面的字或者词的影响,充分利用了距离特征。基于该机制改进的Transformer模型,对晶格结构中位置信息的利用能力更加优秀。在两个开源的数据集上测试了模型的性能,证实了本文提出的改进的注意力机制的有效性。2、在使用上述改进的自注意力变体时,由于距离特征和语义特征二者来源相互独立,Transformer多头机制下距离特征在不同头上的影响不同会干扰到模型对语义信息部分的局部信息关注能力,本文提出一种融合多头机制与单头机制的混合头机制。该方法在计算距离特征的影响时使用单头模式,在计算语义信息之间的注意力得分时使用多头模式,有效的解决了距离特征在不同头上的影响不同引起的干扰噪声问题。本文通过在三个权威的公开数据集上进行测试,证明了本文所提出的混合头注意力机制的有效性,并在中文命名实体识别领域中达到了较为先进的识别效果。

暗网交易链知识图谱关键技术研究与应用

这是一篇关于暗网,知识图谱,中文命名实体识别,中文关系抽取的论文, 主要内容为知识图谱能从海量文本和图像中提取出需求的信息,有着广阔的应用场景。领域知识图谱作为知识图谱中的一种,由于存在数据难以获取和处理等问题,故当前对领域知识图谱的相关研究较少。暗网作为一个神秘的领域,和明网不同,暗网中进行的交易大部分存在违法的情况,甚至对国家安全造成了一定的威胁,故进行暗网领域的知识图谱构建迫在眉睫。针对上述问题,本文的研究重点集中在暗网中文交易链知识图谱的知识获取和应用方面。主要研究内容包括:(1)设计并实现了一种暗网中文命名实体识别模型。首先,针对暗网领域缺少明确的实体分类的问题,通过对暗网进行调研,将暗网交易链可识别的实体分为9类。随后,对数据集进行预处理和命名实体识别数据标注,以获取到实验语料。接着,使用基于transformer的双向编码器模型,获取到结合位置信息的暗网中文交易数据的字向量,并将字向量输入双向长短期神经网络中,获取到具有上下文语义的字向量。最后,将上述字向量通过条件随机场,保证了预测的标签的合理性。通过上述训练达到识别出暗网领域内实体的目的。该模型在暗网中文命名实体识别任务上相较于其他传统方法效果显著,其正确率、召回率和F1值分别取得了74.9%、76.2%和75.5%的成绩。(2)设计并实现了一种暗网中文关系抽取模型。首先,通过调研,将暗网交易链可抽取的关系分为5类。随后,对数据集进行关系抽取数据标注,以获取到实验语料。接着,本文使用Word2Vec进行词向量训练,并将词向量结合位置信息作为输入放入双向门控单元网络中,获取到具有上下文语义的词向量。随后,将词向量通过注意力机制,增加了句子局部特征的权重。最后,将上述结果输入到分类器,得到句子的关系类别。通过上述训练达到识别出暗网领域内关系的目的。经过对比实验验证,该模型能够有效地抽取暗网实体之间的关系,其正确率、召回率和F1值分别取得了65.1%、62.3%和63.7%的成绩。(3)设计并实现了暗网交易链知识图谱系统。首先,进行暗网交易链知识图谱的初步构建,并将上述获取到的三元组知识,结合实体补充和关系补充,存入Neo4j数据库中。随后,以知识图谱的知识查询为基础,进行暗网交易链知识图谱相关应用的实现和可视化展示。最后,达到呈现暗网交易链,对暗网内重点目标进行追踪的目的,并保证系统的各个功能在2秒内完成响应。

基于知识图谱的地铁出行问答系统的构建

这是一篇关于知识图谱,知识推理,中文命名实体识别,问句属性链接的论文, 主要内容为随着人工智能技术的发展和智慧出行理念的贯彻,利用智能产品实现智慧出行已经成了现代生活的一部分。尤其对于上班族和出外旅游的人群来说,公司和景点附近一般都有地铁或公交站点,但相比于公交,乘坐地铁最重要的一点是不会堵车,因此工作通勤和旅游出行搭乘地铁几乎成了最佳选择。而对于出外旅行的人来说对于外地的地铁线路是十分陌生的,需要快速了解地铁线路以及周边信息,还有老年人或者孩童,打字不便但需要查询地铁信息,本文所构建的系统就是为了解决这些需求设计和实现的。在以往问答系统实现的相关技术支持下,提出基于地铁出行知识图谱的问答系统,并对其相关的理论和方法进行了研究和实现,主要工作可分为以下几方面:(1)构建地铁出行问答知识图谱。本文首先使用Web Scraper从互联网中收集地铁数据,并做了预处理,然后进行了地铁出行问答知识图谱本体的确立与搭建。(2)使用基于表示学习的推理模型对地铁出行知识图谱进行知识推理。本文的知识推理模型是利用Trans E来建立的,并且实现了对地铁站点和站点周边景点、美食和购物中心之间潜在关系的推理,实现了地铁出行知识图谱的丰富与扩展。(3)提出基于地铁出行知识图谱的智能问答算法。命名实体识别算法和属性链接算法是支撑问答模块的重要基础。本文提出N-gram Mask策略进行预训练的Ro BERTa来实现命名实体识别任务以完成问句实体的获取。实验表明,使用N-gram Mask Ro BERTa在地铁出行领域完成地铁出行命名实体识别任务中取得了较好的成果,F1值为92.46%,在同组实验模型中得分最高。本文提出BERT模型实现属性链接任务,同组实验还选择了双向LSTM模型,并对两者最后的得分进行对比。结果表明,BERT模型在进行用户意图分析时能取得更好的成绩。(4)设计并实现了交互式地铁出行问答系统。能够支持地铁站点基本信息问答,对用户提出的地铁领域问题能给出准确的答案。

基于语言模型嵌入的中文命名实体识别

这是一篇关于中文命名实体识别,BERT,双向门控单元,膨胀卷积,语言模型嵌入的论文, 主要内容为命名实体识别旨在识别非结构化文本中具有实际意义的实体,是很多自然语言处理任务的基础,在机器翻译、知识图谱构建、信息抽取、自动摘要、语义分析、自动问答等任务中都有广泛应用,命名实体识别的准确率直接影响上层应用的效果好坏。随着计算力的提升和数据量的增长,深度学习被广泛应用于信息处理之中。基于神经网络的命名实体识别方法能够自动完成实体的识别,可以有效避免手工特征抽取,且超过了传统的浅层机器学习模型,逐渐成为研究热点。在基于神经网络的中文命名实体识别方法中,字的向量化表示是重要一步,传统的词向量表示将字映射为单一向量,这种方法无法对字的多义性建模。针对这个问题,提出了基于BERT-BiGRU-CRF模型的中文命名实体识别方法。该方法通过BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型增强字的语义表示,根据字的上下文动态生成语义向量,然后再将字向量序列输入BiGRU-CRF中进行训练。因为通过BERT层计算得到的字向量是上下文相关的,所以同样一个字在上下文不同时,在向量空间中的位置也不相同,一定程度上表征了字的多义性。训练时可以有两种训练方式,第一种训练方式是训练整个BERT-BiGRU-CRF模型,第二种训练方式是固定BERT层,只训练BiGRUCRF部分。实验表明,该模型的两种训练方法在MSRA语料上分别达到95.43%F1值和94.18%F1值,在2018年最新发布的简历数据集上可以达到95.43%和95.24%的F1值,均优于此前最优的Lattice-LSTM模型。第二种训练方式相对于第一种训练方式更省时间。针对BERT-BiGRU-CRF训练效率低的问题,提出了基于BERT-IDCNN-CRF的中文命名实体识别方法,通过BERT预训练语言模型表征多义性的同时,利用膨胀卷积容易并行的特性,加速训练过程。该模型在MSRA语料上可以达到94.41%F1值,在OntoNotes数据集上达到82.63%F1值,均优于此前的模型,并且相对于BERT-BiGRU-CRF方法,训练速度得到了提高。本文研究了语言模型嵌入在中文命名实体识别中的使用,通过将BERT预训练语言模型嵌入BiGRU模型和IDCNN模型,提高了中文命名实体识别的效果,有一定的使用价值且为其它序列标注类任务提供了思路。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://m.bishedaima.com/lunwen/49205.html

相关推荐

发表回复

登录后才能评论