基于XLNet的农业命名实体识别方法研究
这是一篇关于农业命名实体识别,XLNet,迭代膨胀卷积网络,条件随机场,深度学习的论文, 主要内容为随着农业信息化的推进和自然语言处理相关技术的快速发展,越来越多的基层农户和相关从业者通过互联网提出问题,获取知识。农业文本中命名实体识别是其他任务开展的基础之一,可以从各类非结构化问答数据总识别实体,获取相关信息。农业命名实体识别技术可以帮助从业人员在海量的农业文献中快速找到所需信息,例如识别特定农作物的病害、适宜的农药肥料等信息,从而更加高效地解决农业生产中的各种问题。此外,农业命名实体识别技术还可以辅助相关领域的研究工作,例如对农业领域的知识图谱构建、领域专家智库建设等方面提供支持,进一步促进农业领域的发展与创新。因此,在农业领域中使用农业命名实体识别技术具有重要的实际意义。目前农业领域命名实体识别技术发展还处于初期阶段,尽管已经有一些研究工作涉及该领域的命名实体识别,但是相较于其他领域,农业领域命名实体识别还存在一些挑战和困难,例如语料库的缺乏、领域术语的多样性和复杂性、同一实体名称的歧义等问题。基于以上问题,本文旨在研究农业领域命名实体识别相关内容,具体研究内容如下:(1)目前,农业领域缺乏成熟的命名实体识别数据集,针对这一状况,本文以期刊文献、网络文本作为数据源,整理收集农业领域的文本语料,梳理了农业领域常见的实体类别,对基础文本进行数据预处理清洗后,用标注工具进行半自动化标注,后期人工审查核对,创建了包含20835个实体的农业领域标注语料库。(2)基于XLNet预训练模型,对常用的BERT模型和Bi-LSTM模型进行了替换,XLNet是一种结合了排列语言模型的预训练技术,不同于其他传统的预训练模型,吸收了了大量词元的排列顺序信息,具有更强的编码能力,能够更充分的捕捉文本的语义信息,缓解一词多义问题,XLNet还利用了Transformer-XL模型来增强模型的长距离依赖关系捕捉能力,更好地获取长文本实体之间的关联,并将词向量表示输入到迭代膨胀卷积网络(IDCNN)进行上下文编码,在充分利用GPU能力的情况下,同时提高了准确性和效率,最后通过条件随机场识别标签信息,输出最优序列。(3)将构建的XLNet-IDCNN-CRF模型在构建的农业领域语料库上进行实验,分别从性能和效率两个方面与其他众多主流模型进行对比,结果表明,性能方面该模型实体识别的准确率,召回率与F1值均优于其他模型;在效率方面,在收敛速度差别不大的情况下,单次迭代的时间也为多模型中最短,该模型的效率也表现出一定的优越性,从而证实了该模型的有效性。同时对模型本身特性进行分析,以便今后工作开展的便利。本研究有效地提高了农业领域命名实体识别任务的性能,但仍存在可以改进和展望的方向,未来可以进一步加强相关研究,提高命名实体识别的准确率和效率,为农业相关从业人员提供更准确、更全面的信息支持,帮助他们更好地解决生产中的各种问题。同时,还需要与农业领域相关的其他技术和领域进行交叉融合,才能更好地发掘农业领域的数据价值和应用前景。
基于医疗数据的文本挖掘研究与实现
这是一篇关于糖尿病医学知识图谱,命名实体识别,关系抽取,XLNet,Neo4j图数据库的论文, 主要内容为随着互联网信息技术的突飞猛进,临床医学相关的文本资料数量在网络上激增,医疗文献记载了大量相关研究领域的学术成果,为从事医学研究的科研人员提供了大量有价值的参考。这些医疗文献所记载的知识信息大多是半结构化和非结构化的数据格式,不利于科研人员快速查询所想学习的知识,若采用传统的人工方式去整理信息定会占用人们很多的精力;后来逐渐使用机器学习的方法进行文本挖掘,但是运用浅层模型对文本语句进行向量表示的能力有限,所以导致模型最终的挖掘效果也受到了一定的限制。因此,为了推动医学领域的文本挖掘更进一步迫切需要一种高效的文本挖掘方法。随着近年来硬件设备的升级换代,计算机的性能尤其是算力方面得到很大的改善,加上深度神经网络相关算法的不断提出,学术研究者们在语音识别、图像处理和文本挖掘等任务上运用深度学习相关的算法都取得了不错的研究进展。因此,本研究将以糖尿病为研究对象,利用文本数据挖掘技术中命名实体识别和关系抽取的方法从糖尿病医学文本数据中高效识别并抽取出医疗实体及它们之间的关系,利用图数据库对抽取出的医疗信息进行存储,同时搭建可视化查询系统,成功完成了非结构化文本数据的结构化转变。通过糖尿病知识图谱查询系统的构建可以提高科研人员或医务人员对糖尿病相关知识的查询获取,这对糖尿病的预防和诊治工作提供了巨大的帮助,也为其他领域的文本挖掘研究提供了技术参考。本文主要的研究内容有以下几点:1.提出XLNet-Bi LSTM-Attention-CRF模型对糖尿病相关医学文献进行命名实体识别。首先从文本结构和语言特点的角度对糖尿病相关医学文献进行分析,把命名实体识别任务当作序列标注任务来处理,另外根据模型训练需求构建了糖尿病医学信息语料库。其次,在命名实体识别常用模型Bi LSTM-CRF的基础上,引入预训练模型XLNet对文本语句进行向量化表示,更好地结合上下文的语义信息,充分解决一词多义等问题;通过引入Attention机制,可以让模型对长文本训练语料中的语义特征信息更加充分的提取。通过实验对比,结果表明本研究提出的模型在糖尿病医学文本命名实体识别上优于其他基准模型。2.提出XLNet-Bi GRU-Attention-Text CNN-Softmax模型充分挖掘糖尿病医学文本中医学实体之间存在的关系。首先将糖尿病文本语句输入进XLNet模型,模型利用内部的Transformer-xl模块和相对位置编码机制对文本语句进行编码表示,从而捕捉到更加全面的特征信息;接着采用Bi GRU模型提取上下文特征信息并输入给融合Attention机制的Text CNN模块有选择性的抽取特征;最后,为了优化模型的训练,降低关系类别标签不均产生的影响,本研究选用标签平滑交叉熵作为损失函数进行模型调优。通过设置4种不同关系抽取模型的实验进行比较,验证了该糖尿病关系抽取模型可以获得较高的准确率、召回率和F1值。3.利用Spring Boot框架和Vue框架实现了糖尿病医学知识图谱查询系统的设计与实现。本研究将识别抽取出的15种医学实体和10种医学关系生成csv文件,同时选取合适的数据导入方式将糖尿病知识存放入Neo4j图数据库中。由于图数据库在数据存储、检索和处理等方面上有较强的能力,所以运用Spring Boot框架和Vue框架搭建了糖尿病知识图谱查询系统,该系统的成功搭建可以进一步帮助医疗工作者和科研人员快速便捷的查询糖尿病相关的医学知识并进行可视化分析,对糖尿病的预防、诊治有重要的帮助。
基于医疗数据的文本挖掘研究与实现
这是一篇关于糖尿病医学知识图谱,命名实体识别,关系抽取,XLNet,Neo4j图数据库的论文, 主要内容为随着互联网信息技术的突飞猛进,临床医学相关的文本资料数量在网络上激增,医疗文献记载了大量相关研究领域的学术成果,为从事医学研究的科研人员提供了大量有价值的参考。这些医疗文献所记载的知识信息大多是半结构化和非结构化的数据格式,不利于科研人员快速查询所想学习的知识,若采用传统的人工方式去整理信息定会占用人们很多的精力;后来逐渐使用机器学习的方法进行文本挖掘,但是运用浅层模型对文本语句进行向量表示的能力有限,所以导致模型最终的挖掘效果也受到了一定的限制。因此,为了推动医学领域的文本挖掘更进一步迫切需要一种高效的文本挖掘方法。随着近年来硬件设备的升级换代,计算机的性能尤其是算力方面得到很大的改善,加上深度神经网络相关算法的不断提出,学术研究者们在语音识别、图像处理和文本挖掘等任务上运用深度学习相关的算法都取得了不错的研究进展。因此,本研究将以糖尿病为研究对象,利用文本数据挖掘技术中命名实体识别和关系抽取的方法从糖尿病医学文本数据中高效识别并抽取出医疗实体及它们之间的关系,利用图数据库对抽取出的医疗信息进行存储,同时搭建可视化查询系统,成功完成了非结构化文本数据的结构化转变。通过糖尿病知识图谱查询系统的构建可以提高科研人员或医务人员对糖尿病相关知识的查询获取,这对糖尿病的预防和诊治工作提供了巨大的帮助,也为其他领域的文本挖掘研究提供了技术参考。本文主要的研究内容有以下几点:1.提出XLNet-Bi LSTM-Attention-CRF模型对糖尿病相关医学文献进行命名实体识别。首先从文本结构和语言特点的角度对糖尿病相关医学文献进行分析,把命名实体识别任务当作序列标注任务来处理,另外根据模型训练需求构建了糖尿病医学信息语料库。其次,在命名实体识别常用模型Bi LSTM-CRF的基础上,引入预训练模型XLNet对文本语句进行向量化表示,更好地结合上下文的语义信息,充分解决一词多义等问题;通过引入Attention机制,可以让模型对长文本训练语料中的语义特征信息更加充分的提取。通过实验对比,结果表明本研究提出的模型在糖尿病医学文本命名实体识别上优于其他基准模型。2.提出XLNet-Bi GRU-Attention-Text CNN-Softmax模型充分挖掘糖尿病医学文本中医学实体之间存在的关系。首先将糖尿病文本语句输入进XLNet模型,模型利用内部的Transformer-xl模块和相对位置编码机制对文本语句进行编码表示,从而捕捉到更加全面的特征信息;接着采用Bi GRU模型提取上下文特征信息并输入给融合Attention机制的Text CNN模块有选择性的抽取特征;最后,为了优化模型的训练,降低关系类别标签不均产生的影响,本研究选用标签平滑交叉熵作为损失函数进行模型调优。通过设置4种不同关系抽取模型的实验进行比较,验证了该糖尿病关系抽取模型可以获得较高的准确率、召回率和F1值。3.利用Spring Boot框架和Vue框架实现了糖尿病医学知识图谱查询系统的设计与实现。本研究将识别抽取出的15种医学实体和10种医学关系生成csv文件,同时选取合适的数据导入方式将糖尿病知识存放入Neo4j图数据库中。由于图数据库在数据存储、检索和处理等方面上有较强的能力,所以运用Spring Boot框架和Vue框架搭建了糖尿病知识图谱查询系统,该系统的成功搭建可以进一步帮助医疗工作者和科研人员快速便捷的查询糖尿病相关的医学知识并进行可视化分析,对糖尿病的预防、诊治有重要的帮助。
基于医疗数据的文本挖掘研究与实现
这是一篇关于糖尿病医学知识图谱,命名实体识别,关系抽取,XLNet,Neo4j图数据库的论文, 主要内容为随着互联网信息技术的突飞猛进,临床医学相关的文本资料数量在网络上激增,医疗文献记载了大量相关研究领域的学术成果,为从事医学研究的科研人员提供了大量有价值的参考。这些医疗文献所记载的知识信息大多是半结构化和非结构化的数据格式,不利于科研人员快速查询所想学习的知识,若采用传统的人工方式去整理信息定会占用人们很多的精力;后来逐渐使用机器学习的方法进行文本挖掘,但是运用浅层模型对文本语句进行向量表示的能力有限,所以导致模型最终的挖掘效果也受到了一定的限制。因此,为了推动医学领域的文本挖掘更进一步迫切需要一种高效的文本挖掘方法。随着近年来硬件设备的升级换代,计算机的性能尤其是算力方面得到很大的改善,加上深度神经网络相关算法的不断提出,学术研究者们在语音识别、图像处理和文本挖掘等任务上运用深度学习相关的算法都取得了不错的研究进展。因此,本研究将以糖尿病为研究对象,利用文本数据挖掘技术中命名实体识别和关系抽取的方法从糖尿病医学文本数据中高效识别并抽取出医疗实体及它们之间的关系,利用图数据库对抽取出的医疗信息进行存储,同时搭建可视化查询系统,成功完成了非结构化文本数据的结构化转变。通过糖尿病知识图谱查询系统的构建可以提高科研人员或医务人员对糖尿病相关知识的查询获取,这对糖尿病的预防和诊治工作提供了巨大的帮助,也为其他领域的文本挖掘研究提供了技术参考。本文主要的研究内容有以下几点:1.提出XLNet-Bi LSTM-Attention-CRF模型对糖尿病相关医学文献进行命名实体识别。首先从文本结构和语言特点的角度对糖尿病相关医学文献进行分析,把命名实体识别任务当作序列标注任务来处理,另外根据模型训练需求构建了糖尿病医学信息语料库。其次,在命名实体识别常用模型Bi LSTM-CRF的基础上,引入预训练模型XLNet对文本语句进行向量化表示,更好地结合上下文的语义信息,充分解决一词多义等问题;通过引入Attention机制,可以让模型对长文本训练语料中的语义特征信息更加充分的提取。通过实验对比,结果表明本研究提出的模型在糖尿病医学文本命名实体识别上优于其他基准模型。2.提出XLNet-Bi GRU-Attention-Text CNN-Softmax模型充分挖掘糖尿病医学文本中医学实体之间存在的关系。首先将糖尿病文本语句输入进XLNet模型,模型利用内部的Transformer-xl模块和相对位置编码机制对文本语句进行编码表示,从而捕捉到更加全面的特征信息;接着采用Bi GRU模型提取上下文特征信息并输入给融合Attention机制的Text CNN模块有选择性的抽取特征;最后,为了优化模型的训练,降低关系类别标签不均产生的影响,本研究选用标签平滑交叉熵作为损失函数进行模型调优。通过设置4种不同关系抽取模型的实验进行比较,验证了该糖尿病关系抽取模型可以获得较高的准确率、召回率和F1值。3.利用Spring Boot框架和Vue框架实现了糖尿病医学知识图谱查询系统的设计与实现。本研究将识别抽取出的15种医学实体和10种医学关系生成csv文件,同时选取合适的数据导入方式将糖尿病知识存放入Neo4j图数据库中。由于图数据库在数据存储、检索和处理等方面上有较强的能力,所以运用Spring Boot框架和Vue框架搭建了糖尿病知识图谱查询系统,该系统的成功搭建可以进一步帮助医疗工作者和科研人员快速便捷的查询糖尿病相关的医学知识并进行可视化分析,对糖尿病的预防、诊治有重要的帮助。
一种面向文本分类的机器学习平台的设计与实现
这是一篇关于机器学习平台,XLNet,文本分类,Flask框架,模型定制的论文, 主要内容为随着互联网技术的高速发展,评论、新闻、舆论等文本数据也呈爆炸式增长。如何在巨大的文本数据源中准确、快速的挖掘到有价值的信息成为人们迫切的需要,这也是工业界和学术界一直关注的热点问题。机器学习和深度学习的发展为文本挖掘提供了有力的技术支持,文本分类相关算法也大量应用于各行各业。但是由于算法学习的门槛较高,非计算机相关从业人员难以直接使用相关算法工具开展自身业务的分析。本论文设计并实现的机器学习平台可以将复杂的算法调用转变为简单的图形化界面操作,用户只需上传数据集,即可定制自身领域的算法模型,进而帮助用户提升工作效率。本文研究了当下分类效果极佳的文本分类模型XLN et,并且对XLNet模型进行改进,与LSTM、GRU、CNN等深度神经网络进行融合。利用中英文数据集分别训练得到分类效果最佳的中文分类模型XLNet与英文分类模型XLNet-LSTM。以上述模型作为平台的中英文基础分类模型,本文基于B/S架构提出了一种面向文本分类的机器学习平台的设计与实现方案,结合相关图表对机器学习平台的需求分析、概要设计以及详细设计与实现进行了充分的说明。平台以Python作为主要开发语言,Flask轻量级框架作为平台的后台框架,Tensorflow作为文本分类模型的开发框架,结合前端相关技术设计并实现了模型定制、文本分类、文本检索、平台管理、个人中心等功能模块。本文设计并实现的一种面向文本分类的机器学习平台,为需要借助算法模型提升自身业务的非计算机从业人员降低了技术门槛,为提高企业、政府等机构的智能化水平提供了技术支持,对同类平台的开发及应用具有参考价值。
云环境下的入侵检测系统设计与实现
这是一篇关于云计算,入侵检测,卷积神经网络,XLNet,Webshell检测的论文, 主要内容为云计算技术的飞速发展为人们生活带来便利的同时也带来了巨大的网络安全隐患,越来越多不具备网络安全意识和网络安全技能的人开始成为网站的管理员。黑客随时可能对这些管理员所管理的服务器发起攻击,而这些不具备安全技能的管理员往往毫无抵抗之力。入侵检测系统能够发现网络入侵,并及时提醒用户或对黑客攻击进行阻断。由云服务提供商使用入侵检测系统来为用户提供统一的安全保护无疑是缓解这种安全隐患的最好解决方案。但云环境下存在大量软件自定义网络,网络环境复杂,检测数据采集较为困难。且虚拟机数量庞大,系统环境复杂多变,传统入侵检测系统无法适用。并且传统的入侵检测方法召回率低、误报率高。为了解决上述问题,本文分析了现有针对云环境下入侵检测系统的系统架构以及入侵检测算法。基于对现有系统架构和方法的总结,设计了一种适用于云环境的基于网络的入侵检测系统。该系统具有不占用租户计算资源、攻击召回率高、误报率低等优势。本文所设计的系统主要包含以下三个功能模块:流量镜像模块、入侵检测模块及Webshell上传检测模块。流量镜像模块主要负责采集检测数据。云环境下存在大量虚拟网络,并且系统可能存在多个互联网出口,较传统物理网络而言网络环境更加复杂。为了实现全部虚拟主机双向流量的镜像,本文以Openstack系统为例深入分析了云计算系统的虚拟网络架构及实现方式,并对现有的流量镜像方案进行分析。根据对云环境下软件自定义网络的深入了解和现有方案优劣的总结,本文设计了一种基于流表转发的流量镜像模块,用于为后续检测模块提供检测数据。相比于现有方案,本系统架构简单,实现了生产流量和镜像流量的物理分离,避免了镜像流量过程中生产网络流量翻倍的问题。并且本文所使用的方案中实现了将虚拟网络中的流量转发至物理网络中,从而解决了现有方案中对流量检测的机器必须为云环境中虚拟机的问题。入侵检测模块主要负责根据流量镜像模块中采集到的网络数据包进行攻击检测。卷积神经网络中的卷积运算本质上是一种特征提取操作,可以有效避免传统机器学习方法中的特征降维过程,因此本文采用卷积神经网络作为入侵检测模块的核心分类算法。为了解决训练数据不均衡对卷积神经网络带来的负面影响,本文引入了果蝇算法对模型训练过程进行数据均衡。经过果蝇算法的数据均衡,本文所实现的基于卷积神经网络的入侵检测系统对攻击的平均召回率远超现有方案。Webshell上传检测模块主要用于防止黑客绕过入侵检测模块对系统发起攻击后上传Webshell对受害主机进行持久化控制。目前Web应用程序作为云环境中的热门应用场景,也同时成为了黑客攻击的首要目标。任何入侵检测系统都存在被绕过的可能,当攻击成功后,黑客往往会上传Webshell对主机进行持久化控制。因此,本文结合脚本语言与自然语言的相似性,实现了一种基于XLNet的Webshell上传检测模块用于抵御这种持久化控制。通过实验对比,与基于传统机器学习方法的Webshell检测方法相比,本文所实现的Webshell检测模块对Webshell的召回率及误报率均有一定的优越性。
基于神经网络的汉—马机器翻译优化方法研究
这是一篇关于自然语言处理,机器翻译,Transformer,XLNet,汉语-马来语的论文, 主要内容为神经机器翻译已成为主流方法,但其依赖于大量的平行语料数据来进行训练,这对于低资源语言来说是一个挑战。在汉语-马来语(汉-马)这一典型的低资源语言对中,神经机器翻译的性能并不理想。为了提高汉-马低资源机器翻译的翻译效果,本文主要从语料获取、轻量级模型设计、迁移学习、预训练模型等方面研究了汉-马机器翻译的优化方法。具体研究内容如下:(1)针对汉-马语料匮乏的问题,研发了分布式爬虫程序,用于采集低资源的汉-马平行语料,形成了18万对语料数据,并进行了预处理、数据清洗和向量化处理等,为后续机器翻译研究提供了语料数据。(2)针对Transformer模型参数过多、解码时间慢的问题,提出了基于Transformer双端注意力优化的TEAT模型,该模型分别对编码端和解码端的注意力进行优化。此外,为了进一步提升TEAT模型的翻译质量,提出了基于TEAT模型的双端对齐迁移学习优化方法,该方法采用了基于对齐词表和多轮对齐迁移的方法,将高资源语言对的汉-英翻译模型和英-马翻译模型的训练参数分别对齐迁移至汉-马翻译模型。实验结果表明,TEAT模型在保证翻译质量的情况下,有效缓解了Transformer模型参数过多和解码速度慢的问题,并且采用迁移学习的方法,相比于基线Transformer模型,该方法的BLEU分数提升了4.56。(3)针对Transformer模型在汉-马低资源机器翻译中表现欠佳,以及迁移学习成本较高的问题,提出了EXDT混合模型。该模型使用XLNet预训练模型重构Transformer编码器,提高输入序列建模能力。同时,提出AISL算法,自适应设置最佳输入句子长度,以及“渐进式解冻”优化方法,分步解冻EXDT网络中的参数,释放性能。实验结果表明,相较于基线Transformer模型,BLEU分数提升6.39。(4)基于以上研究,设计并实现了一个汉-马低资源神经机器翻译原型系统。该系统基于Vue和Flask框架构建,其中,翻译处理模块以本文提出的优化模型(加载最优模型参数)作为核心的翻译功能。最后,系统展示了各模型的翻译效果对比,并证明了本文优化模型的可行性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://m.bishedaima.com/lunwen/47744.html