分享7篇关于噪声检测的计算机专业论文

今天分享的是关于噪声检测的7篇计算机毕业论文范文, 如果你的论文涉及到噪声检测等主题,本文能够帮助到你 大型中文医疗知识图谱的构建与完善 这是一篇关于医疗知识图谱,命名实体识别

今天分享的是关于噪声检测的7篇计算机毕业论文范文, 如果你的论文涉及到噪声检测等主题,本文能够帮助到你

大型中文医疗知识图谱的构建与完善

这是一篇关于医疗知识图谱,命名实体识别,知识图谱完善,噪声检测,知识图谱验证的论文, 主要内容为医疗知识图谱是医疗数据和知识的有机融合,是智能医疗应用系统的基石。现有中文医疗知识图谱主要存在两方面问题:一是数据源单一,大多是来源单个医疗网站,且缺乏临床数据,没有考虑到医疗知识图谱的临床使用需求;二是质量还有待提升,需对知识图谱中的缺失和错误等噪声数据进行完善。针对上述两方面的问题,本文构建了一个大型的中文医疗知识图谱,并且对该知识图谱进行完善和补充,致力于实现一个完整、全面、准确的医疗知识图谱。论文的主要工作如下:(1)为解决医疗数据来源单一的问题,本文提出了基于多数据源医疗数据的知识图谱构建方法。首先,本文采集了五方面的医疗数据,分别是:医院病历数据、医疗网站获取的原始数据、百度百科的别名信息、开源的新冠知识图谱以及ICD-10编码对应表。在知识抽取方面,对比选择Bert-Bi LSTM-CRF模型来进行命名实体识别。对医院病历数据方面,通过上万份的医疗人员专业标注、数据训练以及模型预测的过程提取出实体和关系,通过计算模型的查准率和查全率,确定模型预测效果可达到70%左右,预测出四类实体,分别是疾病、临床症状、检查项以及检查结果。其次,多个数据源的医疗数据进行融合后集成为知识图谱,并使用Neo4j对知识进行存储,初步构建了包含三万个节点以及十万余条关系的大型医疗知识图谱,在图谱中有着八类实体节点、七种关系以及多种属性。(2)为了解决医疗知识图谱存在的噪声问题,本文提出了知识图谱的完善方法。首先,本文识别了四类中文医疗知识图谱存在的数据错误:空节点值、ICD属性多值、多余符号以及数据内容错误,并针对这四种错误类型提出了相应的检测和纠正方法。尤其是针对数据内容错误,本文提出了基于Word2vec相似度和外部医疗网站Page Rank的噪声检测和解决方案,对于知识图谱的错误检测使用基于外部网页的解决方式,使用Page Rank计算医疗网站排名,并且使用Word2vec相似度检测方法辅助,结合网页排名和相似度值确定数据的置信度,根据置信度判断是否为错误知识。其次,本文识别了两类中文医疗知识图谱数据缺失问题:主节点疾病信息的缺失和节点的属性值多数为空。针对这两类缺失问题,本文提出了基于外部网站Page Rank的自动化补充方法,通过医疗网站的排名对缺失数据进行查找补全。本文所提出的错误检测方法纠正了四百余条错误,知识补全方法补充了四千余缺失实体以及近两万的缺失关系。(3)最后,本文主要从覆盖率和准确率对中文医疗知识图谱进行验证。覆盖率的验证是通过对随机抽取的实体和关系进行查询,以可查询数量与总数的比值作为覆盖率。准确率是通过随机选择实体、属性对知识图谱数据的正确性进行验证。简洁程度是衡量知识图谱的简洁性和可理解性的程度指标。本文所构建的中文医疗知识图谱实体覆盖率为85%,关系覆盖率为74%,综合覆盖率达到了76.43%;准确率为75.95%。综上所述,本文提出了一套完整的中文医疗知识图谱构建和完善的方法。所构建的中文医疗知识图谱包含四万余个节点和十二万余条关系,为下游医疗领域相关应用开发提供了良好的数据基础。

大型中文医疗知识图谱的构建与完善

这是一篇关于医疗知识图谱,命名实体识别,知识图谱完善,噪声检测,知识图谱验证的论文, 主要内容为医疗知识图谱是医疗数据和知识的有机融合,是智能医疗应用系统的基石。现有中文医疗知识图谱主要存在两方面问题:一是数据源单一,大多是来源单个医疗网站,且缺乏临床数据,没有考虑到医疗知识图谱的临床使用需求;二是质量还有待提升,需对知识图谱中的缺失和错误等噪声数据进行完善。针对上述两方面的问题,本文构建了一个大型的中文医疗知识图谱,并且对该知识图谱进行完善和补充,致力于实现一个完整、全面、准确的医疗知识图谱。论文的主要工作如下:(1)为解决医疗数据来源单一的问题,本文提出了基于多数据源医疗数据的知识图谱构建方法。首先,本文采集了五方面的医疗数据,分别是:医院病历数据、医疗网站获取的原始数据、百度百科的别名信息、开源的新冠知识图谱以及ICD-10编码对应表。在知识抽取方面,对比选择Bert-Bi LSTM-CRF模型来进行命名实体识别。对医院病历数据方面,通过上万份的医疗人员专业标注、数据训练以及模型预测的过程提取出实体和关系,通过计算模型的查准率和查全率,确定模型预测效果可达到70%左右,预测出四类实体,分别是疾病、临床症状、检查项以及检查结果。其次,多个数据源的医疗数据进行融合后集成为知识图谱,并使用Neo4j对知识进行存储,初步构建了包含三万个节点以及十万余条关系的大型医疗知识图谱,在图谱中有着八类实体节点、七种关系以及多种属性。(2)为了解决医疗知识图谱存在的噪声问题,本文提出了知识图谱的完善方法。首先,本文识别了四类中文医疗知识图谱存在的数据错误:空节点值、ICD属性多值、多余符号以及数据内容错误,并针对这四种错误类型提出了相应的检测和纠正方法。尤其是针对数据内容错误,本文提出了基于Word2vec相似度和外部医疗网站Page Rank的噪声检测和解决方案,对于知识图谱的错误检测使用基于外部网页的解决方式,使用Page Rank计算医疗网站排名,并且使用Word2vec相似度检测方法辅助,结合网页排名和相似度值确定数据的置信度,根据置信度判断是否为错误知识。其次,本文识别了两类中文医疗知识图谱数据缺失问题:主节点疾病信息的缺失和节点的属性值多数为空。针对这两类缺失问题,本文提出了基于外部网站Page Rank的自动化补充方法,通过医疗网站的排名对缺失数据进行查找补全。本文所提出的错误检测方法纠正了四百余条错误,知识补全方法补充了四千余缺失实体以及近两万的缺失关系。(3)最后,本文主要从覆盖率和准确率对中文医疗知识图谱进行验证。覆盖率的验证是通过对随机抽取的实体和关系进行查询,以可查询数量与总数的比值作为覆盖率。准确率是通过随机选择实体、属性对知识图谱数据的正确性进行验证。简洁程度是衡量知识图谱的简洁性和可理解性的程度指标。本文所构建的中文医疗知识图谱实体覆盖率为85%,关系覆盖率为74%,综合覆盖率达到了76.43%;准确率为75.95%。综上所述,本文提出了一套完整的中文医疗知识图谱构建和完善的方法。所构建的中文医疗知识图谱包含四万余个节点和十二万余条关系,为下游医疗领域相关应用开发提供了良好的数据基础。

网络嵌入中的噪声检测算法研究

这是一篇关于网络嵌入,链路预测,噪声检测,众包,集成学习,半监督学习的论文, 主要内容为在互联、大数据时代,网络(图形)数据结构已经成为保存数据的主要形式,如在社交网络、推荐系统、知识图谱等领域。网络嵌入,或者称为网络嵌入算法,其目的在于将网络用低维向量表示,同时保存网络拓扑结构以及网络中的辅助信息。但现有的网络嵌入算法研究都基于纯净数据展开,这在现实应用中几乎是不存在的。另外,噪声不仅会对网络嵌入带来负面影响,而且还会影响其下游分类及链路预测等任务。有鉴于此,研究网络嵌入中的噪声检测就非常有必要。本文将网络中的噪声分为节点标记类噪声和节点之间边噪声,设计实现了网络嵌入的噪声检测算法框架,这涵盖了网络嵌入中噪声检测的不同方面。本文主要内容包括类噪声检测研究、边噪声检测研究及高噪声率问题,如下所述:1.针对类噪声检测问题,提出了一种迭代式半监督学习检测算法。该算法在多分类器集成检测的研究基础上,结合网络中节点之间邻接关系,通过标签在网络中传播。这不仅有效地克服了带标签数据少,难以构建分类器的问题,而且迭代式的算法框架,提高了噪声检测率,优化了节点嵌入。另外,实验证明该算法可以有效提高节点嵌入在分类任务上的准确率。2.针对边噪声检测问题,提出了一种基于相似度的无监督检测算法。首先,该算法将边噪声分为缺失和冗余两类。其次,该算法在结合链路预测解决缺失链接的基础上,解决了网络中的边噪声问题。再者,实验表明分类检测对网络嵌入中的边噪声检测具有较高精确度。3.针对高噪声率问题,首先提出了基于网络数据结构的众包数据整合模型,这包括标签整合、嵌入整合两种集成算法。其次,基于统计学习理论对众包数据权重进行估计,显著提高了集成效果。最后,通过实验证明了结合网络数据相关性的整合模型具有一定有效性。

网络嵌入中的噪声检测算法研究

这是一篇关于网络嵌入,链路预测,噪声检测,众包,集成学习,半监督学习的论文, 主要内容为在互联、大数据时代,网络(图形)数据结构已经成为保存数据的主要形式,如在社交网络、推荐系统、知识图谱等领域。网络嵌入,或者称为网络嵌入算法,其目的在于将网络用低维向量表示,同时保存网络拓扑结构以及网络中的辅助信息。但现有的网络嵌入算法研究都基于纯净数据展开,这在现实应用中几乎是不存在的。另外,噪声不仅会对网络嵌入带来负面影响,而且还会影响其下游分类及链路预测等任务。有鉴于此,研究网络嵌入中的噪声检测就非常有必要。本文将网络中的噪声分为节点标记类噪声和节点之间边噪声,设计实现了网络嵌入的噪声检测算法框架,这涵盖了网络嵌入中噪声检测的不同方面。本文主要内容包括类噪声检测研究、边噪声检测研究及高噪声率问题,如下所述:1.针对类噪声检测问题,提出了一种迭代式半监督学习检测算法。该算法在多分类器集成检测的研究基础上,结合网络中节点之间邻接关系,通过标签在网络中传播。这不仅有效地克服了带标签数据少,难以构建分类器的问题,而且迭代式的算法框架,提高了噪声检测率,优化了节点嵌入。另外,实验证明该算法可以有效提高节点嵌入在分类任务上的准确率。2.针对边噪声检测问题,提出了一种基于相似度的无监督检测算法。首先,该算法将边噪声分为缺失和冗余两类。其次,该算法在结合链路预测解决缺失链接的基础上,解决了网络中的边噪声问题。再者,实验表明分类检测对网络嵌入中的边噪声检测具有较高精确度。3.针对高噪声率问题,首先提出了基于网络数据结构的众包数据整合模型,这包括标签整合、嵌入整合两种集成算法。其次,基于统计学习理论对众包数据权重进行估计,显著提高了集成效果。最后,通过实验证明了结合网络数据相关性的整合模型具有一定有效性。

含噪知识图谱的表示学习方法研究

这是一篇关于含噪知识图谱,三元组差异度,三元组支持度,噪声检测,知识补全,关系路径推理,实体层次类型,逻辑规则的论文, 主要内容为知识图谱用于存储结构化事实,这些事实以三元组的形式表示,即(头实体,关系,尾实体)。当前大规模知识图谱的构建和更新通常采用(半)自动化的方法进行知识抽取,过程中不可避免地会引入噪声,但多数传统知识表示学习方法假设知识图谱中的三元组都是正确的,并据此对知识进行分布式表示。因此,对知识图谱进行噪声检测是一项至关重要的工作。此外,即使是规模巨大的知识图谱,仍不能完全覆盖现实中的所有知识,这导致了知识图谱不完整的问题。知识图谱的噪声问题和不完整问题,会对下游应用任务,例如,推荐系统和问答系统,产生不利的影响,因此成为亟待解决的问题。针对以上问题,本文对现有模型进行改进,提出了两种含噪知识图谱的表示学习方法。本文基于平移的模型,通过结合知识图谱三元组结构信息、实体层次类型信息和关系路径信息,提出了差异度和支持度感知的知识表示学习方法。在此基础上,为针对性解决关系路径信息在含噪知识图谱上起到负面作用的问题,本文提出了逻辑规则和关系路径信息结合的知识表示学习方法。此外,基于上述两个模型,本文设计了一个知识图谱噪声检测原型系统以辅助用户对知识进行判断。本文主要工作内容及创新点如下:(1)针对知识图谱存在的噪声问题以及不完整问题,基于现有模型,本文提出了一种差异度和支持度感知的知识表示学习方法,该模型可以在检测知识图谱中可能存在的噪声,同时生成无噪的知识表示。具体地,模型分为两个部分:三元组差异度估计器和三元组支持度估计器。三元组差异度估计器在基于平移模型的基础上,结合三元组结构信息、实体层次类型信息和关系路径信息,生成三元组中实体和关系的匹配度。三元组支持度估计器,通过进一步利用这三种信息,对实体和关系的匹配度进行判断。两种估计器相互结合,形成对三元组的嵌套判断以衡量三元组是否含有噪声。本研究在公开数据集上进行了实验验证,证实了所提方法的有效性。(2)通过进一步研究发现,在含噪知识图谱上进行噪声检测任务时,关系路径信息会带来负面影响。为针对性解决这一问题,基于现有模型,本文提出了一种逻辑规则信息和关系路径信息结合的知识表示学习方法,该方法沿用第三章所提模型方法,在此基础上做出改进。通过引入逻辑规则信息来指导关系路径的合成,利用逻辑规则的准确性提高路径推理的准确性,同时,关系路径推理缺乏可解释性,而逻辑规则的可解释性则很好的弥补了这一点。在公开数据集上进行了实验验证,实验结果显示了所提方法的有效性。(3)本文基于上述两个模型设计了知识图谱噪声检测原型系统,其可以辅助用户对知识进行判断,该原型系统输入为三元组,输出为三元组的评分。通过三元组评分的高低来显示三元组为噪声的可能性。该原型系统可以服务于知识驱动的应用,降低噪声知识带来的影响。

噪声敏感的关系感知跨语言实体对齐方法研究

这是一篇关于知识图谱,双语词典提取,对偶关系图谱,噪声检测,跨语言实体对齐的论文, 主要内容为知识图谱是一种用图来描述知识的技术方法,在表示从不同领域收集的知识方面起着至关重要的作用。然而,不同的知识图谱通常由不同的技术或不同的语言构造,这些单独构建的知识图谱之间包含异构但互补的内容,因此将不同来源或不同语言的知识图谱整合为统一的知识图谱很有意义,一种有效的对齐知识图谱的方法是把多个不同来源但代表相同对象的实体进行对齐。在大数据时代的背景下,为了实现知识的全球共享,跨语言实体对齐作用愈加明显。双语词典是跨语言自然语言处理中一项非常重要的资源,对跨语言实体对齐任务有着奠基的作用。本文以中英文两种语言为例,提出了一种基于百科语料的中英文双语词典的提取方法。方法是在对文本内容提取的基础上结合在线百科的结构特点,分别用五种不同的方法对百科语料进行提取,与以往的基于部分双语语料的提取方法相比,本方法在在线百科语料上的提取数量提高了170.75%。目前实现跨语言实体对齐方法主要是基于知识图谱表示学习以及图卷积网络(Graph Convolutional Networks,GCN)方法,前者学习知识在不同知识图谱中的向量表示,并通过计算不同知识图谱中向量的相似度来对齐实体,但这种方法对知识图谱中大量存在的复杂的关系的获取比较困难,而后者则更容易获取复杂的关系。然而以上两种方法的训练集通常是人工标注的预对齐的实体对,可能包含噪声,这会影响最终的对齐结果。因此本文提出了一种噪声敏感的关系感知双图卷积网络模型(Noise Sensitive Relation Aware Dual Graph Convolution Network,NSRDGCN),模型解决了关系感知类的跨语言实体对齐模型对数据集要求更高的问题,提高鲁棒性。模型由两部分组成,分别是关系感知跨语言实体对齐模块和噪声检测模块,其中噪声检测模块利用生成式对抗网络(Generative Adversarial Network,GAN)来检测训练集中的噪声,生成器生成噪声,而判别器鉴别噪声与真实数据,二者进行对抗训练;关系感知跨语言实体对齐模块通过(实体,关系,实体)三元组以及其对应的(关系,实体,关系)三元组之间的影响来学习更好的实体表示,并通过连接GCN层来增强邻居的影响。论文在DBP15K的三个真实的跨语言数据集上进行了实验,把现有的跨语言实体对齐模型JE、MTrans E、JAPE、IPTrans E、Boot EA、GCN-Align、KECG、SEA、REA、RDGCN作为基线模型,进行不同评分函数的实验对比,实验结果表明,NSRDGCN方法明显优于这些基线模型方法,尤其在英文日文双语数据集中,NSRDGCN的对齐性能Hits@1和Hits@10分别提升了1.1%和1.3%以上。该论文有图20幅,表8个,参考文献99篇。

噪声敏感的关系感知跨语言实体对齐方法研究

这是一篇关于知识图谱,双语词典提取,对偶关系图谱,噪声检测,跨语言实体对齐的论文, 主要内容为知识图谱是一种用图来描述知识的技术方法,在表示从不同领域收集的知识方面起着至关重要的作用。然而,不同的知识图谱通常由不同的技术或不同的语言构造,这些单独构建的知识图谱之间包含异构但互补的内容,因此将不同来源或不同语言的知识图谱整合为统一的知识图谱很有意义,一种有效的对齐知识图谱的方法是把多个不同来源但代表相同对象的实体进行对齐。在大数据时代的背景下,为了实现知识的全球共享,跨语言实体对齐作用愈加明显。双语词典是跨语言自然语言处理中一项非常重要的资源,对跨语言实体对齐任务有着奠基的作用。本文以中英文两种语言为例,提出了一种基于百科语料的中英文双语词典的提取方法。方法是在对文本内容提取的基础上结合在线百科的结构特点,分别用五种不同的方法对百科语料进行提取,与以往的基于部分双语语料的提取方法相比,本方法在在线百科语料上的提取数量提高了170.75%。目前实现跨语言实体对齐方法主要是基于知识图谱表示学习以及图卷积网络(Graph Convolutional Networks,GCN)方法,前者学习知识在不同知识图谱中的向量表示,并通过计算不同知识图谱中向量的相似度来对齐实体,但这种方法对知识图谱中大量存在的复杂的关系的获取比较困难,而后者则更容易获取复杂的关系。然而以上两种方法的训练集通常是人工标注的预对齐的实体对,可能包含噪声,这会影响最终的对齐结果。因此本文提出了一种噪声敏感的关系感知双图卷积网络模型(Noise Sensitive Relation Aware Dual Graph Convolution Network,NSRDGCN),模型解决了关系感知类的跨语言实体对齐模型对数据集要求更高的问题,提高鲁棒性。模型由两部分组成,分别是关系感知跨语言实体对齐模块和噪声检测模块,其中噪声检测模块利用生成式对抗网络(Generative Adversarial Network,GAN)来检测训练集中的噪声,生成器生成噪声,而判别器鉴别噪声与真实数据,二者进行对抗训练;关系感知跨语言实体对齐模块通过(实体,关系,实体)三元组以及其对应的(关系,实体,关系)三元组之间的影响来学习更好的实体表示,并通过连接GCN层来增强邻居的影响。论文在DBP15K的三个真实的跨语言数据集上进行了实验,把现有的跨语言实体对齐模型JE、MTrans E、JAPE、IPTrans E、Boot EA、GCN-Align、KECG、SEA、REA、RDGCN作为基线模型,进行不同评分函数的实验对比,实验结果表明,NSRDGCN方法明显优于这些基线模型方法,尤其在英文日文双语数据集中,NSRDGCN的对齐性能Hits@1和Hits@10分别提升了1.1%和1.3%以上。该论文有图20幅,表8个,参考文献99篇。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://m.bishedaima.com/lunwen/54646.html

相关推荐

发表回复

登录后才能评论