基于远程监督的军事实体关系抽取应用研究
这是一篇关于远程监督,关系抽取,膨胀卷积的论文, 主要内容为在军队现代化和信息化建设进程中,军事知识图谱是未来智能化军事信息系统的重要支撑,而军事实体关系抽取是构建军事知识图谱的关键子任务。目前,实体关系抽取主要有基于机器学习和深度学习的方法,其中有监督的实体关系抽取需要耗费人力标注数据,而无监督的实体关系抽取效果不佳。基于远程监督学习的实体关系抽取是通过利用小规模专业知识库进行实体关系启发式匹配,然后进行模型去噪,最后得到实体关系抽取分类的结果。这种方法可以很好的应用在实体名称工整、实体间关系少、保密性要求高的军事实体关系抽取领域,但目前远程监督方法大多在英文语料上应用,对于中文军事语料支持少,而且在军事语料上抽取效果也不太理想。本文首先构建小规模军事实体关系知识库,然后研究如何在军事语料上应用远程监督进行军事实体关系抽取,并构建性能优良的关系去噪模型,提升中文军事实体关系抽取效果,为自动化抽取军事知识提供新思路。具体研究内容如下:1)利用大规模通用知识库构建军事实体关系知识库。基于远程监督的实体关系抽取方法需要一个小规模的专业知识库作为支撑,而目前没有一个高质量的军事实体关系知识库用于远程监督实体关系抽取。本文从大规模中文知识百科CNDBpedia中获取军事知识,通过关系定义、数据集划分、数据清洗、军事实体关系信息切分、军事知识库构建等步骤流程,形成一个包含100多万个实体,300多万条关系的小规模军事实体关系知识库。2)基于远程监督方法构建军事实体关系抽取模型。对中文军事语料数据,通过启发式实体关系匹配得到的实体关系中存在大量错误关系(也称为噪声数据)。针对这一问题,本文提出一种基于PDCNN(分段膨胀卷积神经网络)的多注意力机制实体关系去噪模型(PDCNNMARE),以去除启发式匹配中产生的错误标注,其中模型比同类方法提升了3%左右。3)提出基于实体名称相似度的新知识发现方法来扩充军事实体关系知识库。作为远程监督的重要支撑,军事实体关系知识库的大小受限于原始构建数据中军事类关系数据规模大小,从而导致在实体关系启发式对齐时,部分存在关联关系的实体对不能匹配到对应的关系。因此,本文结合军事实体名称结构形式规律的特性,提出基于实体名称相似度的新知识发现方法,用于扩展军事实体关系知识库。4)构建军事实体关系抽取web服务系统。为了将军事实体关系抽取方法更好的应用,在Flask框架下用python开发出军事实体关系抽取Web服务系统,其中包括模型训练、模型评估、模型应用等模块。
面向神经网络合成语音的检测技术研究与实现
这是一篇关于合成语音检测,一维卷积神经网络,膨胀卷积,最大特征图的论文, 主要内容为近年来,随着语音合成技术的快速发展,其合成出的语音质量越来越高。这些技术在很大程度上为人们的生活工作带来了很大的便利,但是随之而来的是造假语音的出现,部分语音合成技术甚至能够根据声音特征合成与目标人十分相似的声音,利用这些技术能对声纹识别系统进行攻击,对真人也能达到欺骗效果,可能被不法分子利用于声纹解锁或电信诈骗。针对这些问题,本论文对不同的应用场景(如人工智能物联网(AIoT)的物端与服务器端)提出了相应的合成语音检测方法。首先,针对现有常用的合成语音技术,本文提出了基于残差神经网络的合成语音检测方法,使用残差块结构解决梯度消失与爆炸的问题。使用了三种不同的语音特征作为输入,并对模型结构进行了调整训练,通过加权平均策略对子模型的结果进行决策得到最终输出。在最新的ASVSpoof 2021上进行了大量的实验,实验结果表明,基于残差神经网络的检测方法对合成语音的平均检测正确率达到了93.95,但是对个别种类合成语音的检测效果不太理想,说明模型泛化性需要进一步改进。其次,针对基于残差神经网络的合成语音检测方法模型泛化性不足的问题,基于其结构进行改进,提出了基于最大特征图的合成语音检测方法,使用最大特征图结构来动态选择完成检测任务所必需的特征,缓解了模型过拟合的问题。同时为了使后端分类器能够接收任意长度的输入,卷积之后使用循环单元来接收不定长语音。最终实验结果表明,基于最大特征图的合成语音检测方法的平均检测正确率达到了95.85%,并且对所有类型的合成语音都有较好的检测效果。最后,为了提高系统的检测速度并应用于AIoT物端,提出了基于一维膨胀卷积的合成语音检测方法。一维卷积的计算量比二维卷积小。针对语音采样点与特征数量较大的问题,使用了膨胀卷积和残差块,并且用最大特征图来优化激活函数。最终实验结果表明,基于一维膨胀卷积神经网络的合成语音检测方法的检测正确率达到了94.68%,推断时间比现有模型Raw Net2和LCNN分别少70.39%与93.09%,能够同时满足嵌入式设备上合成语音检测的准确性和实时行需求。针对不同的合成语音检测应用场景的性能需求,分别实现了AIoT物端和服务器端的系统设计与实现。物端系统采用基于一维卷积的检测方法,其计算量较小,可部署于资源受限的AIoT物端设备。服务器端系统采用基于最大特征图的合成语音检测方法,其精度高,可部署于资源丰富的AIoT服务器。
面向神经网络合成语音的检测技术研究与实现
这是一篇关于合成语音检测,一维卷积神经网络,膨胀卷积,最大特征图的论文, 主要内容为近年来,随着语音合成技术的快速发展,其合成出的语音质量越来越高。这些技术在很大程度上为人们的生活工作带来了很大的便利,但是随之而来的是造假语音的出现,部分语音合成技术甚至能够根据声音特征合成与目标人十分相似的声音,利用这些技术能对声纹识别系统进行攻击,对真人也能达到欺骗效果,可能被不法分子利用于声纹解锁或电信诈骗。针对这些问题,本论文对不同的应用场景(如人工智能物联网(AIoT)的物端与服务器端)提出了相应的合成语音检测方法。首先,针对现有常用的合成语音技术,本文提出了基于残差神经网络的合成语音检测方法,使用残差块结构解决梯度消失与爆炸的问题。使用了三种不同的语音特征作为输入,并对模型结构进行了调整训练,通过加权平均策略对子模型的结果进行决策得到最终输出。在最新的ASVSpoof 2021上进行了大量的实验,实验结果表明,基于残差神经网络的检测方法对合成语音的平均检测正确率达到了93.95,但是对个别种类合成语音的检测效果不太理想,说明模型泛化性需要进一步改进。其次,针对基于残差神经网络的合成语音检测方法模型泛化性不足的问题,基于其结构进行改进,提出了基于最大特征图的合成语音检测方法,使用最大特征图结构来动态选择完成检测任务所必需的特征,缓解了模型过拟合的问题。同时为了使后端分类器能够接收任意长度的输入,卷积之后使用循环单元来接收不定长语音。最终实验结果表明,基于最大特征图的合成语音检测方法的平均检测正确率达到了95.85%,并且对所有类型的合成语音都有较好的检测效果。最后,为了提高系统的检测速度并应用于AIoT物端,提出了基于一维膨胀卷积的合成语音检测方法。一维卷积的计算量比二维卷积小。针对语音采样点与特征数量较大的问题,使用了膨胀卷积和残差块,并且用最大特征图来优化激活函数。最终实验结果表明,基于一维膨胀卷积神经网络的合成语音检测方法的检测正确率达到了94.68%,推断时间比现有模型Raw Net2和LCNN分别少70.39%与93.09%,能够同时满足嵌入式设备上合成语音检测的准确性和实时行需求。针对不同的合成语音检测应用场景的性能需求,分别实现了AIoT物端和服务器端的系统设计与实现。物端系统采用基于一维卷积的检测方法,其计算量较小,可部署于资源受限的AIoT物端设备。服务器端系统采用基于最大特征图的合成语音检测方法,其精度高,可部署于资源丰富的AIoT服务器。
基于深度学习的实体识别与关系抽取方法的设计与实现
这是一篇关于命名实体识别,实体关系抽取,膨胀卷积,注意力机制,预训练语言模型的论文, 主要内容为近年来,命名实体识别(Named Entity Recognition,NER)和实体的关系抽取(Relation Extraction,RE)都已经成为自然语言处理(Natural Language Processing,NLP)领域的研究热点,也是知识图谱构建(Knowledge Graph,KG)的关键任务。命名实体识别用于从自由文本中识别出相应的实体,关系抽取旨在从文本语料库中提取两个实体之间的关系。随着中文命名实体识别和关系抽取研究的深入,在这两个任务中存在着诸多问题:(1)NER任务中常用的序列建模层网络双向长短期记忆网络(Long Short-Term Memory,LSTM)因其网络结构复杂速度较慢且缺乏可并行性。(2)基于双向编码器表示的Transformers(Bidirectional Encoder Representation from Transformers,BERT)模型解决了Word2vec等静态词向量不能解决的“一词多义”问题,但是其静态掩码的方式使预训练产生的语义表示仅仅是字级别,缺失词级特征。(3)在字符级别NER任务融合词义等信息是近年来研究的重点之一,但如何有效地对字词向量融合、在使用词汇信息的同时减少分词错误的影响也是一大难点。(4)简单的注意力机制对RE任务的性能提升有限,如何更好地利用注意力机制也是需要研究的方向。因此,本文主要研究通用领域下中文实体识别和中文关系抽取,分别用于改进NER任务和RE任务的效率。本文的主要研究工作如下:(1)在中文命名实体识别任务中,提出了一种融合动态掩码预训练与膨胀卷积网络的实体识别模型。首先,为了丰富句法语义信息,在预训练阶段引入基于动态掩码的Ro BERTa模型,动态掩码的训练机制能更好地对文本中的词义语义信息进行表示;此外,通过字在上下文中能形成的词向量对字向量进行增强,也利用了分词信息。其次,为了提高特征提取效率,在序列建模层引入膨胀卷积网络,改进传统LSTM网络结构复杂影响速度等问题,并遵循混合膨胀卷积的设计思想避免网格效应的产生。实验表明,设计的模型在MSRA和人民日报数据集的识别率上相比基线模型均有提升。(2)在中文关系抽取任务中,提出了一种联合词级-句子级双层注意力机制的中文关系抽取模型。首先,考虑到关系抽取任务中实体词携带了相关信息,为了使词嵌入层包含实体信息,模型在该层将两个实体的位置信息引入用于丰富语义表示;其次,为了获取文本中更重要的句子特征以及句子中更重要的词特征,模型引入了词级和句子级双层注意力机制用于特征提取,使最终生成的向量更好地表示文本信息。实验表明,设计的模型在指定数据集上具有优于基线模型的效果。
基于卷积矩阵分解的煤炭产品推荐方法研究
这是一篇关于智能推荐系统,评分矩阵稀疏性,词嵌入,膨胀卷积,矩阵分解的论文, 主要内容为煤炭是支撑国家战略性发展的重要能源。在山西等地区煤炭交易市场中往往受到地方性政策、业务发展水平和市场服务能力等多种因素限制,煤炭商品标准化程度低、供销模式过于传统化、煤炭产运衔接不利等问题逐渐暴露。市面上大量优质企业往往面临生产制造任务紧急而难以短期内购得品质上乘、价格合理、运费低煤炭产品的尴尬局面。考虑到煤炭商品本身的价格和销售过程中长途产生的运费问题使得煤炭交易很难实现标准化,难以结合自身属性制定理想的销售策略以找到最优质的买家。随着现代化网络交易模式的不断兴起,利用智能推荐系统通过一系列决策可以引导买家做出相对合理购买行为,该方法或将为煤炭行业数字化转型起到推波助澜的作用。然而,在面对数量众多的受众群体时,往往存在已知用户对商品评论信息较为稀缺的情况,因此会带来的严重的物品评分矩阵稀疏性问题。基于以上分析,本文主要研究内容如下:(1)从协同过滤思想出发设计了基于模型的推荐方法TCRM,使用卷积神经网络从用户和项目文本信息中获得相关属性的词嵌入作为特征,将特征向量作为推荐模型的关键因子,融合矩阵分解方法通过用户特征及项目特征向量重构评分矩阵以产生用户对项目的评分,并结合用户之间特征的相似度及项目之间的特征相似度完成不同维度下的煤炭产品推荐。(2)提出GCEM模型将TCRM通过多通道分组膨胀卷积的方式对卷积核进行改造,增大了滤波器的滑动感受野,避免了膨胀卷积在像素计算中的栅格效应问题,较大程度的保留了属性文本语义信息的连贯性。(3)在GCEM模型的基础上根据实际评分矩阵与预测矩阵观测误差基于高斯分布的假设,通过后验概率最大的目标优化矩阵分解,提出了DCPMF推荐模型。在总体框架的基础上引入了Spark技术在煤炭交易数据集上对所提方法进行对比实验,实验结果表明,本文提出的TCRM、GCEM、DCPMF模型在有效挖掘辅助信息的同时拥有较优的推荐准确率及RMSE值,显著提高了推荐质量。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://m.bishedaima.com/lunwen/54290.html