9篇关于依存句法分析的计算机毕业论文

今天分享的是关于依存句法分析的9篇计算机毕业论文范文, 如果你的论文涉及到依存句法分析等主题,本文能够帮助到你 面向网络安全的知识图谱构建 这是一篇关于网络安全,知识图谱

今天分享的是关于依存句法分析的9篇计算机毕业论文范文, 如果你的论文涉及到依存句法分析等主题,本文能够帮助到你

面向网络安全的知识图谱构建

这是一篇关于网络安全,知识图谱,命名实体识别,依存句法分析,关系抽取的论文, 主要内容为随着网络和计算机应用的普及,信息化和智能化时代也随之到来。但是,国家、组织、个人在享受互联网带来便利的同时,也遭受着日益严重的网络攻击威胁。在此背景下,急需整合多源异构的网络安全数据,提高对网络安全知识的表达能力。知识图谱能将异构的知识结构化,构建知识间的关联,解决当前背景下网络安全面临的困境。因此,本文将重点研究网络安全知识图谱的构建。知识图谱的构建主要包括领域本体构建和领域知识构建。网络安全本体是构建网络安全知识图谱的基础,本文对现有网络安全领域本体、重要术语进行分析,利用STIX标准化语言,结合已有的网络安全知识库ATT&CK、CAPEC、CWE和CVE等内容,构建了一个具备较强兼容性和扩展性的网络安全领域本体(Cyber Security Ontology)。接着,在网络安全领域本体的基础上,对非结构化的网络安全数据进行知识抽取,命名实体识别和关系抽取是建立图谱中每条知识的基础。进行命名实体识别时采用词典和深度学习模型相结合的方法,针对软件类实体构建词典和规则,攻击方法和攻击后果构建词典,词典内容来源为ATT&CK和CAPEC知识库。在词典匹配的基础上,利用Bert-Bi LSTM-CRF模型对标注数据进行训练,最终得到命名实体识别的结果。对本文提出的命名实体识别方法进行对比实验,实验结果显示良好,证明了本文方法的有效性。最后,在本体和命名实体识别的基础上,对网络安全数据进行关系抽取。本文采用的关系抽取方法为依存句法分析与规则相结合,通过依存句法分析对非结构化数据中的网络关系进行抽取,之后利用规则对抽取出来的关系进行约束。实验证明,相较于仅使用依存句法分析,规则的添加能够提高关系抽取的F1值。

基于超声文本的甲状腺癌症智能辅助诊断方法研究

这是一篇关于甲状腺癌症,实体识别,依存句法分析,随机森林,智能诊断系统的论文, 主要内容为甲状腺是人体最大的内分泌腺,甲状腺癌发病率正显著增加,临床诊断甲状腺结节良恶性需经过甲功、超声、刺穿等大量检查。繁琐的检查耗费时间、人力、物力。因此,便捷、高效、无创地预测甲状腺结节良恶性对辅助临床诊疗有重要意义。超声检查无痛、无损伤、低成本、能有效地观察患者结节情况,且超声报告包含大量有价值的信息。本研究以提取超声报告信息为基础,以建立甲状腺癌预测模型辅助临床诊疗为目的,结合真实患者的甲状腺超声报告,主要研究内容如下:(1)提出一种适用于本研究的中文甲状腺超声报告的结构化方法。首先将甲状腺超声报告以短句形式聚类,建立甲状腺超声报告专业词典与实体识别模型,对比BERT-BILSTM、BERT-CNN-LSTM、BERT-BILSTM-CRF三种模型在甲状腺超声文本上识别实体的效果,结果显示BERT-BILSTM-CRF性能最好。再通过依存句法对实体识别后的甲状腺超声报告抽取重要信息。最后基于甲状腺超声报告语义关系,对抽取的信息建立专业的结构化模板,所建立的结构化模板取得了较好的效果,其Precison、Recall、F1值分别为0.9674、0.9048、0.9351,并构建了甲状腺超声报告知识图谱。(2)建立甲状腺癌预测模型。首先,基于已经建立的结构化模板来提取的甲状腺超声报告中的重要信息与患者基本信息,结合临床医生建议,筛选特征、对特征进行量化与标准化。其次,对各自变量进行描述性统计分析与相关性分析,绘制箱线图与堆砌图,进一步探讨各特征指标与病理结果的关系,结果显示所纳入的特征均对病理结果存在影响。最后,以甲状腺切除手术后的病理结果为金标准,筛选的甲状腺超声报告指标与患者的基本信息为特征变量,基于随机森林、决策树、自适应增强树、逻辑回归四种机器学习模型建立甲状腺癌预测模型,其中随机森林模型表现最好,其AUC值达到了0.9142。随机森林模型显示甲状腺结节分级、甲状腺结节内部回声、甲状腺结节后方回声、患者年龄等在模型中的特征重要性排序靠前。(3)形成系统。本研究基于现实需求,整合研究内容,基于Pyside2模块搭建了甲状腺癌症的智能诊断系统。该系统以辅助临床医生诊疗为目的,更清晰地展示了甲状腺超声报告中各特征情况,并能给出患者是否患甲状腺癌的预测结果。

基于双向LSTM的专利因果关系抽取

这是一篇关于专利,因果关系,依存句法分析,注意力机制,因果指示词的论文, 主要内容为因果关系反映了事情之间先后相继、由因及果的发展关系。专利文本中的因果关系体现了专利的技术核心,有助于精准挖掘专利信息,也有助于专利知识图谱的构建。虽然因果关系抽取是自然语言处理领域一个经典的研究方向,但针对专利语料方面的研究较少。目前用于因果关系抽取的方法中,存在隐式因果关系抽取困难,边界识别模糊的问题。针对这些问题深入研究,主要工作包括:(1)构建专利因果指示词表。针对隐式因果关系抽取困难问题,分析了专利文本中隐式因果关系的特点,提出了专利文本的隐式因果关系的定义,并提取能代表专利中隐式因果关系的连词,结合常规因果关系指示词构建种子词表,进行同义词词林扩充。(2)提取专利因果指示词特征信息及其它词语与指示词的相对位置信息,解决专利因果关系抽取边界识别模糊问题。(3)提出融合句法、依存路径信息的两层Bi LSTM模型。在专利文本中,相关联的词和短语未必相邻,存在长距离依赖问题,采用Bi LSTM融合句法、依存路径信息来解决远距离词语之间依赖特征随句长消失的问题。句法、依存路径分析提供了词语在树形结构上与远距离词之间存在的依存或搭配关系。通过引入注意力机制更合理地分配词向量特征与句法特征的权重比例,并利用CRF(Conditional Random Field)完成最后的因果关系识别任务。(4)选取了化学类专利文本2465篇,在摘要及技术背景中,抽取出了9836条包含因果关系的语句。其中专利隐式因果关系句有5827条。采用F1值作为抽取效果的评价指标,分别在CRF模型、Bi LSTM模型、Bi LSTM_CRF模型、以及本文提出的融合句法、依存路径分析的模型上使用相同数据集进行实验。实验结果表示,在平均句长36.2的语料中,本模型F1值平均达到75.05%。抽取结果相对于其它对比实验,F1值有显著提升。

基于双向LSTM的专利因果关系抽取

这是一篇关于专利,因果关系,依存句法分析,注意力机制,因果指示词的论文, 主要内容为因果关系反映了事情之间先后相继、由因及果的发展关系。专利文本中的因果关系体现了专利的技术核心,有助于精准挖掘专利信息,也有助于专利知识图谱的构建。虽然因果关系抽取是自然语言处理领域一个经典的研究方向,但针对专利语料方面的研究较少。目前用于因果关系抽取的方法中,存在隐式因果关系抽取困难,边界识别模糊的问题。针对这些问题深入研究,主要工作包括:(1)构建专利因果指示词表。针对隐式因果关系抽取困难问题,分析了专利文本中隐式因果关系的特点,提出了专利文本的隐式因果关系的定义,并提取能代表专利中隐式因果关系的连词,结合常规因果关系指示词构建种子词表,进行同义词词林扩充。(2)提取专利因果指示词特征信息及其它词语与指示词的相对位置信息,解决专利因果关系抽取边界识别模糊问题。(3)提出融合句法、依存路径信息的两层Bi LSTM模型。在专利文本中,相关联的词和短语未必相邻,存在长距离依赖问题,采用Bi LSTM融合句法、依存路径信息来解决远距离词语之间依赖特征随句长消失的问题。句法、依存路径分析提供了词语在树形结构上与远距离词之间存在的依存或搭配关系。通过引入注意力机制更合理地分配词向量特征与句法特征的权重比例,并利用CRF(Conditional Random Field)完成最后的因果关系识别任务。(4)选取了化学类专利文本2465篇,在摘要及技术背景中,抽取出了9836条包含因果关系的语句。其中专利隐式因果关系句有5827条。采用F1值作为抽取效果的评价指标,分别在CRF模型、Bi LSTM模型、Bi LSTM_CRF模型、以及本文提出的融合句法、依存路径分析的模型上使用相同数据集进行实验。实验结果表示,在平均句长36.2的语料中,本模型F1值平均达到75.05%。抽取结果相对于其它对比实验,F1值有显著提升。

面向网络安全的知识图谱构建

这是一篇关于网络安全,知识图谱,命名实体识别,依存句法分析,关系抽取的论文, 主要内容为随着网络和计算机应用的普及,信息化和智能化时代也随之到来。但是,国家、组织、个人在享受互联网带来便利的同时,也遭受着日益严重的网络攻击威胁。在此背景下,急需整合多源异构的网络安全数据,提高对网络安全知识的表达能力。知识图谱能将异构的知识结构化,构建知识间的关联,解决当前背景下网络安全面临的困境。因此,本文将重点研究网络安全知识图谱的构建。知识图谱的构建主要包括领域本体构建和领域知识构建。网络安全本体是构建网络安全知识图谱的基础,本文对现有网络安全领域本体、重要术语进行分析,利用STIX标准化语言,结合已有的网络安全知识库ATT&CK、CAPEC、CWE和CVE等内容,构建了一个具备较强兼容性和扩展性的网络安全领域本体(Cyber Security Ontology)。接着,在网络安全领域本体的基础上,对非结构化的网络安全数据进行知识抽取,命名实体识别和关系抽取是建立图谱中每条知识的基础。进行命名实体识别时采用词典和深度学习模型相结合的方法,针对软件类实体构建词典和规则,攻击方法和攻击后果构建词典,词典内容来源为ATT&CK和CAPEC知识库。在词典匹配的基础上,利用Bert-Bi LSTM-CRF模型对标注数据进行训练,最终得到命名实体识别的结果。对本文提出的命名实体识别方法进行对比实验,实验结果显示良好,证明了本文方法的有效性。最后,在本体和命名实体识别的基础上,对网络安全数据进行关系抽取。本文采用的关系抽取方法为依存句法分析与规则相结合,通过依存句法分析对非结构化数据中的网络关系进行抽取,之后利用规则对抽取出来的关系进行约束。实验证明,相较于仅使用依存句法分析,规则的添加能够提高关系抽取的F1值。

基于双向LSTM的专利因果关系抽取

这是一篇关于专利,因果关系,依存句法分析,注意力机制,因果指示词的论文, 主要内容为因果关系反映了事情之间先后相继、由因及果的发展关系。专利文本中的因果关系体现了专利的技术核心,有助于精准挖掘专利信息,也有助于专利知识图谱的构建。虽然因果关系抽取是自然语言处理领域一个经典的研究方向,但针对专利语料方面的研究较少。目前用于因果关系抽取的方法中,存在隐式因果关系抽取困难,边界识别模糊的问题。针对这些问题深入研究,主要工作包括:(1)构建专利因果指示词表。针对隐式因果关系抽取困难问题,分析了专利文本中隐式因果关系的特点,提出了专利文本的隐式因果关系的定义,并提取能代表专利中隐式因果关系的连词,结合常规因果关系指示词构建种子词表,进行同义词词林扩充。(2)提取专利因果指示词特征信息及其它词语与指示词的相对位置信息,解决专利因果关系抽取边界识别模糊问题。(3)提出融合句法、依存路径信息的两层Bi LSTM模型。在专利文本中,相关联的词和短语未必相邻,存在长距离依赖问题,采用Bi LSTM融合句法、依存路径信息来解决远距离词语之间依赖特征随句长消失的问题。句法、依存路径分析提供了词语在树形结构上与远距离词之间存在的依存或搭配关系。通过引入注意力机制更合理地分配词向量特征与句法特征的权重比例,并利用CRF(Conditional Random Field)完成最后的因果关系识别任务。(4)选取了化学类专利文本2465篇,在摘要及技术背景中,抽取出了9836条包含因果关系的语句。其中专利隐式因果关系句有5827条。采用F1值作为抽取效果的评价指标,分别在CRF模型、Bi LSTM模型、Bi LSTM_CRF模型、以及本文提出的融合句法、依存路径分析的模型上使用相同数据集进行实验。实验结果表示,在平均句长36.2的语料中,本模型F1值平均达到75.05%。抽取结果相对于其它对比实验,F1值有显著提升。

基于超声文本的甲状腺癌症智能辅助诊断方法研究

这是一篇关于甲状腺癌症,实体识别,依存句法分析,随机森林,智能诊断系统的论文, 主要内容为甲状腺是人体最大的内分泌腺,甲状腺癌发病率正显著增加,临床诊断甲状腺结节良恶性需经过甲功、超声、刺穿等大量检查。繁琐的检查耗费时间、人力、物力。因此,便捷、高效、无创地预测甲状腺结节良恶性对辅助临床诊疗有重要意义。超声检查无痛、无损伤、低成本、能有效地观察患者结节情况,且超声报告包含大量有价值的信息。本研究以提取超声报告信息为基础,以建立甲状腺癌预测模型辅助临床诊疗为目的,结合真实患者的甲状腺超声报告,主要研究内容如下:(1)提出一种适用于本研究的中文甲状腺超声报告的结构化方法。首先将甲状腺超声报告以短句形式聚类,建立甲状腺超声报告专业词典与实体识别模型,对比BERT-BILSTM、BERT-CNN-LSTM、BERT-BILSTM-CRF三种模型在甲状腺超声文本上识别实体的效果,结果显示BERT-BILSTM-CRF性能最好。再通过依存句法对实体识别后的甲状腺超声报告抽取重要信息。最后基于甲状腺超声报告语义关系,对抽取的信息建立专业的结构化模板,所建立的结构化模板取得了较好的效果,其Precison、Recall、F1值分别为0.9674、0.9048、0.9351,并构建了甲状腺超声报告知识图谱。(2)建立甲状腺癌预测模型。首先,基于已经建立的结构化模板来提取的甲状腺超声报告中的重要信息与患者基本信息,结合临床医生建议,筛选特征、对特征进行量化与标准化。其次,对各自变量进行描述性统计分析与相关性分析,绘制箱线图与堆砌图,进一步探讨各特征指标与病理结果的关系,结果显示所纳入的特征均对病理结果存在影响。最后,以甲状腺切除手术后的病理结果为金标准,筛选的甲状腺超声报告指标与患者的基本信息为特征变量,基于随机森林、决策树、自适应增强树、逻辑回归四种机器学习模型建立甲状腺癌预测模型,其中随机森林模型表现最好,其AUC值达到了0.9142。随机森林模型显示甲状腺结节分级、甲状腺结节内部回声、甲状腺结节后方回声、患者年龄等在模型中的特征重要性排序靠前。(3)形成系统。本研究基于现实需求,整合研究内容,基于Pyside2模块搭建了甲状腺癌症的智能诊断系统。该系统以辅助临床医生诊疗为目的,更清晰地展示了甲状腺超声报告中各特征情况,并能给出患者是否患甲状腺癌的预测结果。

基于知识驱动的预训练语言模型研究

这是一篇关于预训练语言模型,知识图谱,依存句法分析,知识增强的论文, 主要内容为受益于近年来无需人工标注的自监督方法被提出以及大规模语料库的产生和普及,只需要少量数据在特定任务上进行微调便可以达到不错效果的预训练语言模型一经提出,便在各个领域取得了令人瞩目的成就,其中BERT更是一举刷新了NLP领域的11项记录。但是,研究人员逐渐发现仅基于单纯的预训练模型在面对一些复杂应用场景(如常识推理、领域自适应、知识驱动型任务)时,仍然和人类预期的效果存在差距。如何利用外部知识辅助神经网络模型更好地理解输入文本,是一个值得思考和探讨的问题。而知识图谱作为一种被持久化存储的知识库,其中包含了模型迫切需要的丰富结构化知识,可以被作为有效的外部知识注入到预训练模型中。然而,传统的知识增强模型仍然存在一些尚待解决的问题,如在引入知识图谱时,知识处理不够充分,仅考虑了实体自身的部分信息;在进行知识融合时,由于语言模型和知识图谱对单词的表示存在于两个完全不同的向量空间,会面临异构信息融合问题。另外,经常作为骨干模型的BERT、Ro BERTa等均限制其最大输入长度为512,将超过的部分截断、不足的则补齐。这在很多NLP场景中是比较不合理的,如新闻报刊等长文本中,其输入长度会很轻易超过这个限定值,采取这种做法会丢失大量的语义信息。同时,预训练语言模型对于输入文本本身蕴涵的信息利用也不够充分,一般做法只通过attention机制获取每个词的理解语义,忽略了经过依存句法分析后的词汇间依赖关系也可以作为一种对理解输入有益的外部知识。为此,在本文中我们针对上述场景中存在的问题进行了以下实验探索:1)基于ERNIE预训练语言模型,进一步融合Wiki5m知识图谱中的实体描述信息以及由整个Wikidata三元组生成的KELM-corpus语料库文本信息作为外部知识用于增强模型学习语义表示的能力,既增加了注入的知识,也缓解了由于知识图谱和自然语言文本语义空间维度不一致导致的异构信息融合问题。2)利用Stanford Core NLP、LTP等自然语言处理工具包以及基于规则的依存句法分析事件元素抽取方法,抽取出输入文本中包含的事件要素,整合后作为附加外部知识输入到预训练模型,以缓解模型由于最大输入长度限制而导致信息丢失的问题。3)利用GCN网络聚合由输入文本生成的依存句法图,分析词汇间的依赖关系,再融合BERT模型充分挖掘和利用输入文本自身的知识,以获取到语义增强的词嵌入表示。实验结果表明,我们的方法在Few Rel、TACRED、IFLYTEK、Co LA等中英文数据集上与基准模型相比效果均获得提升。

四险一金领域政策法规文本依存句法分析及其应用研究

这是一篇关于知识图谱,依存句法分析,特征提取,深度学习的论文, 主要内容为随着保险体系的完善,四险一金领域的政策法规文本数量每年都在增长,这些政策法规不仅数量庞大,而且所用语言逻辑复杂,对普通的非法律专业的人们群众来说,想要找到并理解自己所需的政策法规文本非常困难,因此急需一种针对四险一金领域的搜索引擎来帮助检索所需信息,这种搜索引擎需要能够理解用户提出的各种问题,并根据问句,在知识库中检索对应的答案,要完成这些操作,就需要有知识图谱的支持,而要想使计算机真正理解一个句子,进而完成知识图谱的构建任务,需要对句子进行句法分析,句法分析的方法有很多种,如短语结构句法分析和依存句法分析等,在本文所研究的依存句法分析相较于短语结构句法分析具有易于理解、便于词性标注、形式简洁清晰等优势。本文提出了一种以pointer-net神经网络模型为基础改进的依存句法分析方法,并用该方法实现了为四险一金领域政策法规中的句子构建依存句法树。传统的依存句法分析方法只关注分析栈中的中心词,以它作为决策时的依据,为此,本文提出利用TreeLSTM对每一个时间点形成的依存子树进行编码后输入模型中进行训练,用它代替原方法中的中心词作为对下一步决策判断的特征。最终达到提高依存句法分析精度的目的,对依存句法分析得到的结果我们可以对其进行剪枝操作帮助实现四险一金领域政策法规文本的术语提取等上层应用。本文的研究主要从以下四个方面展开:(1)提出了一种通过pointer-net神经网络模型进行依存句法分析的方法,本方法区别于传统的基于转移的依存分析方法,在决策时并没有对转移动作进行决策,而是考虑到依存句法分析问题与pointer-net所解决的凸包问题的相似性,即输出都严重依赖于输入,直接使用pointer-net网络和打分函数从输入的词语中选择出合适的依存词。(2)使用TreeLSTM对依存分析过程中生成的依存子树进行特征提取,在传统的依存分析方法中对依存分析过程中产生的依存子树,只考虑了根节点位置的中心词特征,而忽略了整个依存子树的整体结构特征,TreeLSTM的结构很好的拟合了依存子树的结构,对特征提取的丰富度有一定提高。(3)针对四险一金领域政策法规文本中专业术语较多的问题,在预训练阶段,我们采用了字串向量编码的方式,将被标注为集外词的词语按字进行编码,将得到的字向量进行算数平均,得到的向量作为该集外词的词向量。这种方法可以将四险一金政策法规语料中众多的集外词分别进行编码,而不是统一使用集外词编码。有助于集外词中语义特征的提取。(4)对上述提出的方法进行试验验证,证明了本文中提出的pointer-net和TreeLSTM相结合的依存句法分析方法在四险一金领域知识图谱的应用背景下具有有效性与优越性。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://m.bishedaima.com/lunwen/49188.html

相关推荐

发表回复

登录后才能评论