文本分类方法及其四险一金领域应用研究
这是一篇关于中文文本分类,四险一金,关键模式信息,词间结构信息,实体解释的论文, 主要内容为近年来,随着互联网的发展,越来越多的人参与到互联网中,随之产生了海量的文本数据。为了发掘文本中所蕴含的价值,越来越多的学者开始专注自然语言处理领域。尽管神经网络技术在文本分类领域展现出强大的性能,但是目前针对中文文本分类的研究偏少,且传统的中文文本分类模型大多是直接沿用英文文本的处理方式,直接以词作为模型的输入,但是中文文本需要分词,如果仅仅以分词器的分词结果作为输入,可能会因为分词器分词错误而导致错误的传播。因此本文首先介绍了中英文文本分类的研究背景与现状,分析了中英文之间存在的差异以及中文文本分类主要存在的困难,提出了一种针对中文的文本分类模型,并进行了大量的实验证明了模型的有效性。四险一金是关于保障民生的政策,关系到生活中的每个人,虽然近年来自然语言处理发展迅速,但是其在四险一金领域中的应用研究却较少。构建四险一金领域知识图谱,不仅可以提高工作效率,而且有利于人民群众获取自己想要了解的知识,同时还能够减轻工作人员的负担。在构建四险一金领域知识库的过程中往往需要得到实体的解释信息,而目前获取实体解释信息的方法大多是直接从百科类网站上爬取,这样对于百科类网站中没有收录的实体将无法得到解释。因此本文还探索了直接从语料库中得到实体解释的方法。本文的主要贡献有以下两点:(1)本文提出了一种基于字词联合训练的神经网络模型,并把它应用在中文文本分类上,它同时以字和词作为模型的输入,使用卷积神经网络和最大池化技术提取中文文本的关键模式信息,使用双向长短期记忆网络提取文本的词间结构信息,最后使用注意力机制进行信息融合,使得字与词之间相互补充,进一步提高了中文文本分类模型的性能。通过在三个数据集上的实验表明,与现有的一些模型相比,本文提出的模型能够达到更高的分类准确率。(2)本文探索了使用文本分类的方式从语料库中获取实体解释,通过把句子分成包含实体解释的句子和不包含实体解释的句子,并构建了四险一金领域句子分类数据集,又根据该数据集的特征提出了基于字词联合训练的双向LSTM模型进行训练,并把训练好的模型应用到四险一金领域语料库中来获取实体解释。最后还针对该方法存在的问题,例如该方法不能处理一个实体解释包含多个句子的情况,提出基于语义相似度的解释扩充算法,进一步扩充了四险一金领域知识库中的实体解释信息。
面向合同领域的中文文本分类系统的研究与实现
这是一篇关于合同领域,中文文本分类,合同词向量,多层注意力机制的论文, 主要内容为随着信息技术的飞速发展,企业进入信息化时代,合同签订模式趋于多元化,与此同时,海量合同管理问题日益严重。相较于过去合同管理模式,主要依靠人工阅读理解方式,这导致合同分类非常耗时耗力,而且缺乏统一的分类标准,为了提升企业办公效率,迫切需要对合同进行自动化分类。基于以上问题,本文利用中文文本分类技术对合同领域的非结构化文本进行算法研究,提出了四种面向合同领域的中文文本分类方法,针对合同文本的特殊性,重点研究基于BERT和分层词嵌入的合同文本中文文本分类方法,最后开发出基于B/S架构的面向合同领域中文文本分类系统。本文研究内容具体分为以下三个部分:1.针对合同分类的特殊性,提出了三种面向合同领域的中文文本分类方法。在合同分类中,可以基于合同标题和合同文本来判断合同类别,本文基于合同标题设计了两种分类方法:一是对合同标题制定关键词匹配规则,判断合同类别,二是对合同标题进行模型学习,识别合同类别;基于合同文本设计一种分类方法,对合同文本进行模型学习,通过加入大量语料训练,提升模型泛化能力,确保模型分类准确率,准确识别合同类别。为了探究上述分类方法准确率,本文提出基于规则匹配和合同标题的中文文本分类、基于Bi LSTM和合同标题的中文文本分类和基于Bi LSTM和合同文本的中文文本分类三种分类方法。2.针对合同文本规模量大,无法充分识别词汇之间的语义信息等问题,提出了基于BERT和分层词嵌入的合同文本中文文本分类方法。通过预训练得到大规模合同词向量,以合同词向量为词典,对输入句子所匹配到的词汇进行语义表征,将表征词汇进行权重分析,然后拼接多层注意力机制,赋予不同语境下的关键词不同的权重,增强单词和句子级别的序列学习性能。对比实验表明,本文提出的模型具有很好的分类效果。3.构建了基于B/S架构的面向合同领域中文文本分类系统。以提出的合同分类模型为核心,通过集成框架Django,实现了合同标题分类和合同文本分类等核心功能。系统总体架构分为数据层、模型层、业务层、展示层,数据层为模型层提供合同数据支撑,模型层训练模型,为业务层提供服务,业务层为用户提供具体功能,展示层为用户提供系统可视化界面展示。
文本分类方法及其四险一金领域应用研究
这是一篇关于中文文本分类,四险一金,关键模式信息,词间结构信息,实体解释的论文, 主要内容为近年来,随着互联网的发展,越来越多的人参与到互联网中,随之产生了海量的文本数据。为了发掘文本中所蕴含的价值,越来越多的学者开始专注自然语言处理领域。尽管神经网络技术在文本分类领域展现出强大的性能,但是目前针对中文文本分类的研究偏少,且传统的中文文本分类模型大多是直接沿用英文文本的处理方式,直接以词作为模型的输入,但是中文文本需要分词,如果仅仅以分词器的分词结果作为输入,可能会因为分词器分词错误而导致错误的传播。因此本文首先介绍了中英文文本分类的研究背景与现状,分析了中英文之间存在的差异以及中文文本分类主要存在的困难,提出了一种针对中文的文本分类模型,并进行了大量的实验证明了模型的有效性。四险一金是关于保障民生的政策,关系到生活中的每个人,虽然近年来自然语言处理发展迅速,但是其在四险一金领域中的应用研究却较少。构建四险一金领域知识图谱,不仅可以提高工作效率,而且有利于人民群众获取自己想要了解的知识,同时还能够减轻工作人员的负担。在构建四险一金领域知识库的过程中往往需要得到实体的解释信息,而目前获取实体解释信息的方法大多是直接从百科类网站上爬取,这样对于百科类网站中没有收录的实体将无法得到解释。因此本文还探索了直接从语料库中得到实体解释的方法。本文的主要贡献有以下两点:(1)本文提出了一种基于字词联合训练的神经网络模型,并把它应用在中文文本分类上,它同时以字和词作为模型的输入,使用卷积神经网络和最大池化技术提取中文文本的关键模式信息,使用双向长短期记忆网络提取文本的词间结构信息,最后使用注意力机制进行信息融合,使得字与词之间相互补充,进一步提高了中文文本分类模型的性能。通过在三个数据集上的实验表明,与现有的一些模型相比,本文提出的模型能够达到更高的分类准确率。(2)本文探索了使用文本分类的方式从语料库中获取实体解释,通过把句子分成包含实体解释的句子和不包含实体解释的句子,并构建了四险一金领域句子分类数据集,又根据该数据集的特征提出了基于字词联合训练的双向LSTM模型进行训练,并把训练好的模型应用到四险一金领域语料库中来获取实体解释。最后还针对该方法存在的问题,例如该方法不能处理一个实体解释包含多个句子的情况,提出基于语义相似度的解释扩充算法,进一步扩充了四险一金领域知识库中的实体解释信息。
文本分类方法及其四险一金领域应用研究
这是一篇关于中文文本分类,四险一金,关键模式信息,词间结构信息,实体解释的论文, 主要内容为近年来,随着互联网的发展,越来越多的人参与到互联网中,随之产生了海量的文本数据。为了发掘文本中所蕴含的价值,越来越多的学者开始专注自然语言处理领域。尽管神经网络技术在文本分类领域展现出强大的性能,但是目前针对中文文本分类的研究偏少,且传统的中文文本分类模型大多是直接沿用英文文本的处理方式,直接以词作为模型的输入,但是中文文本需要分词,如果仅仅以分词器的分词结果作为输入,可能会因为分词器分词错误而导致错误的传播。因此本文首先介绍了中英文文本分类的研究背景与现状,分析了中英文之间存在的差异以及中文文本分类主要存在的困难,提出了一种针对中文的文本分类模型,并进行了大量的实验证明了模型的有效性。四险一金是关于保障民生的政策,关系到生活中的每个人,虽然近年来自然语言处理发展迅速,但是其在四险一金领域中的应用研究却较少。构建四险一金领域知识图谱,不仅可以提高工作效率,而且有利于人民群众获取自己想要了解的知识,同时还能够减轻工作人员的负担。在构建四险一金领域知识库的过程中往往需要得到实体的解释信息,而目前获取实体解释信息的方法大多是直接从百科类网站上爬取,这样对于百科类网站中没有收录的实体将无法得到解释。因此本文还探索了直接从语料库中得到实体解释的方法。本文的主要贡献有以下两点:(1)本文提出了一种基于字词联合训练的神经网络模型,并把它应用在中文文本分类上,它同时以字和词作为模型的输入,使用卷积神经网络和最大池化技术提取中文文本的关键模式信息,使用双向长短期记忆网络提取文本的词间结构信息,最后使用注意力机制进行信息融合,使得字与词之间相互补充,进一步提高了中文文本分类模型的性能。通过在三个数据集上的实验表明,与现有的一些模型相比,本文提出的模型能够达到更高的分类准确率。(2)本文探索了使用文本分类的方式从语料库中获取实体解释,通过把句子分成包含实体解释的句子和不包含实体解释的句子,并构建了四险一金领域句子分类数据集,又根据该数据集的特征提出了基于字词联合训练的双向LSTM模型进行训练,并把训练好的模型应用到四险一金领域语料库中来获取实体解释。最后还针对该方法存在的问题,例如该方法不能处理一个实体解释包含多个句子的情况,提出基于语义相似度的解释扩充算法,进一步扩充了四险一金领域知识库中的实体解释信息。
基于神经网络嵌入模型的中文文本分类方法研究
这是一篇关于中文文本分类,神经网络,嵌入模型,文本表示的论文, 主要内容为文本分类是目前自然语言处理领域最基础的任务之一,在信息检索、推荐系统等领域都有着广泛的研究和应用。传统的文本分类方法通过人工特征工程等方法对文本进行表示,再选择合适的分类器对文本表示进行分类。随着机器学习和深度学习的发展,一些基于神经网络的嵌入模型也在文本分类领域取得了出色的应用效果,尤其在英文文本分类领域。相较于英文文本分类,中文文本分类近几年才得到了广泛的关注,然而,由于其应用场景的差异和中文单词没有天然分隔符的特点,给中文文本分类带来了巨大挑战。因而进一步研究适用于不同场景的中文文本分类的算法具有重要意义和应用价值。基于此,本文开展了基于神经网络嵌入模型的中文文本分类方法研究,主要研究工作如下:(1)实际应用领域如税收领域开具的增值税发票数据具有总体数据量大、每条文本信息量少、特征项模糊等特点,这种海量极短中文文本数据的特点导致传统表示学习算法难以处理向量稀疏和维度灾难的问题。因此,本文提出一种基于词句嵌入模型的中文极短文本分类方法。首先,借助海量语料库使用基于神经网络的词句嵌入模型对文本进行有效表示,进而结合分类器对文本进行分类。最后,在税收编码分类任务的1600万真实数据集上的实验结果表明:该方法在精度上优于对比算法,可有效地提高海量极短文本的分类效果。(2)不同于英文文本,中文单词间没有自然的分隔符,为了降低分词错误造成的影响并充分利用文本自身的信息,本文提出一种针对中文的基于神经网络的动态结合字词嵌入文本分类模型。通过引入字符级和单词级Bi LSTM模型提取不定长的文本特征,在不需任何外部知识的情况下可以更准确、更容易地对中文文本进行表示和分类。最后,在5个公共中文文本数据集和6个基准算法进行了实验对比,在精度与加权平均F1值上的实验结果验证了所提方法的有效性和稳定性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设客栈 ,原文地址:https://m.bishedaima.com/lunwen/56162.html