基于分类模型的信息资产管理系统研究与实现
这是一篇关于信息资产管理系统,分类模型,Springboot的论文, 主要内容为在各种安全管理活动中,对信息资产的管理都是安全管理活动的起点,为各项安全管理活动提供背景和基础。当前信息资产管理方面存在资产规模膨胀、资产类型识别困难、管理工具与管理要求不相称等问题。为提高某市税务局信息资产管理信息化水平,本文设计实现了一套信息资产管理系统,本文的主要内容如下:一是针对信息资产类型识别困难的问题,提出了基于分类模型的信息资产自动识别方法,该方法通过网络扫描技术获取包含主机名、IP地址、开放端口、服务探测信息等信息在内的资产详细信息,并人工标注其所属资产类型作为训练样本,以此样本集训练分类模型,综合考虑多项评估指标,选取分类性能较好的模型作为信息资产管理系统采用的分类器。发现新的信息资产后,调用扫描器进行详细扫描,获取新增资产数据,经过预处理后由已训练的分类器进行预测,得到新增资产的分类预测结果。二是针对现有信息资产管理工具无法满足信息资产管理要求的问题,分析了某市税务局的信息资产管理需求,确定信息资产管理系统的总体目标、可行性研究、功能需求和非功能需求,使用J2EE技术实现了一个完整的信息资产管理系统。编码完成后编写了测试用例对系统进行测试,测试结果表明该系统能够实现网络资产的发现和自动识别以及各类资产信息的管理。
医学表型实体的同义关系分析和概念规范化研究
这是一篇关于表型,同义关系,概念规范化,分类模型,神经网络的论文, 主要内容为医学知识图谱构建是医学人工智能研究的重要问题,是临床诊疗决策支持系统研发的重要支撑,其中表型实体及其关系是医学知识图谱的重要组成部分。然而由于医学术语库的动态变化和医学文本的快速累积,医学知识图谱中表型实体及其关系的维护和更新耗时耗力。因此,自动预测医学术语库间的表型概念同义关系,并建立医学文本中表型术语提及与规范化概念的映射关系是医学知识图谱构建的基础性研究工作。针对以上问题,本文的主要研究工作如下:首先,本文针对不同术语库的表型同义关系分析问题,构建了基于排序学习的分析方法。该方法将表型同义关系预测问题转化为对候选表型术语排序的问题,利用PubMed文献及相关信息,生成表型术语网络嵌入表示。然后通过相似度计算和排序学习的排序方法预测不同表型术语的同义关系。其次,研制了基于分类学习的术语同义关系分析方法。该方法将表型同义关系预测问题转化为对表型关系分类的问题,基于表型术语的网络嵌入表示构建表型术语关系的特征向量,分别使用支持向量机、逻辑回归、多层感知机、朴素高斯贝叶斯和随机森林等分类模型进行表型术语关系分类,然后基于融合分类模型对表型关系分类,进而预测表型之间的同义关系。本文在表型术语同义关系数据集上分别进行了基于排序学习和基于分类学习方法的同义关系预测实验。结果表明,两种方法在表型同义关系分析问题上均有较好的表现,其中基于分类的方法F1最高可达0.942。最后,针对表型概念规范化问题,本文将该问题分解为表型命名实体识别和表型实体链接两个子任务。首先,分别利用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)学习字符向量和词向量,并结合条件随机场(CRF)构建BiLSTM-CNN-CRF模型,实现表型命名实体识别。然后基于CNN排序模型实现表型实体链接。并在National Center for Biotechnology Information(NCBI)疾病语料库和BioCreative V Chemical Disease Relation(BC5CDR)疾病语料库上进行对比实验,验证了方法的有效性。
面向程序设计领域的新词检测算法研究与应用
这是一篇关于新词检测,程序设计,远程监督,分类模型,知识图谱的论文, 主要内容为海量的程序设计领域文本,存在大量的领域词语。jieba分词用于通用领域,已经取得较好的效果。但是,由于部分程序设计领域词语没有在分词词典中出现,因此,jieba分词用于程序设计领域的分词结果的准确性不高。如果能使用新词检测算法从领域文本中检测出这些领域词语,就可以扩充专业词库,从而提高程序设计领域的中文分词效果。同时,离散化的领域词语通过知识图谱的方式组织起来,可以帮助程序设计的学习者进行更加高效系统的学习。关于新词检测的研究,目前常用的有监督方法需要大量标注数据,而无监督方法往往准确率较低,都难以达到较好的效果。因此,本文针对面向程序设计领域的新词检测算法进行了研究,主要研究工作和成果如下:首先,构建了程序设计解题报告语料库。本文利用网络爬虫技术从博客、社区等网站爬取解题报告,针对本文的新词检测任务进行数据预处理操作,解决目前程序设计领域缺乏文本规范的公开数据集的问题。为推动关于程序设计领域相关任务的研究,本文将解题报告公开。其次,对目前几种较为常用的新词检测算法进行探讨,针对基于统计的方法和基于词向量的方法结果中垃圾词串过多的问题,提出基于统计和词向量相结合的方法,该方法在新词检测的准确率方面得到了一定的提高。实验结果表明,该方法对于一类很少出现在其他领域,却经常在程序设计领域出现的词的检测效果较好,但对于另一类在其他领域也会出现,在程序设计领域有特殊意义的词的检测效果很差。针对第二类领域词,目前的短语质量评估方法(Class Phrase)可以有效检测出来,从而解决了基于统计和词向量相结合的方法的缺陷。不过当标签质量较差时,Class Phrase方法也难以训练出有效的模型。为了提高标签质量,本文提出根据现有的专业词库,使用远程监督的方法生成分类模型训练的标签的方法。实验结果表明,本文的方法取得较好的效果。然后,本文对专业词库、爬虫技术爬取的词语释义及题目的题号等信息加以整理,通过知识图谱的方式将信息组织起来,再将使用新词检测算法检测出的领域新词用于扩充知识图谱,用Neo4j图数据库进行存储。最后,实现了程序设计新词检测及查询系统,针对不同的用户身份设置不同的功能,主要功能包括上传自定义文件实现新词检测和知识图谱的扩充及查询。
面向程序设计领域的新词检测算法研究与应用
这是一篇关于新词检测,程序设计,远程监督,分类模型,知识图谱的论文, 主要内容为海量的程序设计领域文本,存在大量的领域词语。jieba分词用于通用领域,已经取得较好的效果。但是,由于部分程序设计领域词语没有在分词词典中出现,因此,jieba分词用于程序设计领域的分词结果的准确性不高。如果能使用新词检测算法从领域文本中检测出这些领域词语,就可以扩充专业词库,从而提高程序设计领域的中文分词效果。同时,离散化的领域词语通过知识图谱的方式组织起来,可以帮助程序设计的学习者进行更加高效系统的学习。关于新词检测的研究,目前常用的有监督方法需要大量标注数据,而无监督方法往往准确率较低,都难以达到较好的效果。因此,本文针对面向程序设计领域的新词检测算法进行了研究,主要研究工作和成果如下:首先,构建了程序设计解题报告语料库。本文利用网络爬虫技术从博客、社区等网站爬取解题报告,针对本文的新词检测任务进行数据预处理操作,解决目前程序设计领域缺乏文本规范的公开数据集的问题。为推动关于程序设计领域相关任务的研究,本文将解题报告公开。其次,对目前几种较为常用的新词检测算法进行探讨,针对基于统计的方法和基于词向量的方法结果中垃圾词串过多的问题,提出基于统计和词向量相结合的方法,该方法在新词检测的准确率方面得到了一定的提高。实验结果表明,该方法对于一类很少出现在其他领域,却经常在程序设计领域出现的词的检测效果较好,但对于另一类在其他领域也会出现,在程序设计领域有特殊意义的词的检测效果很差。针对第二类领域词,目前的短语质量评估方法(Class Phrase)可以有效检测出来,从而解决了基于统计和词向量相结合的方法的缺陷。不过当标签质量较差时,Class Phrase方法也难以训练出有效的模型。为了提高标签质量,本文提出根据现有的专业词库,使用远程监督的方法生成分类模型训练的标签的方法。实验结果表明,本文的方法取得较好的效果。然后,本文对专业词库、爬虫技术爬取的词语释义及题目的题号等信息加以整理,通过知识图谱的方式将信息组织起来,再将使用新词检测算法检测出的领域新词用于扩充知识图谱,用Neo4j图数据库进行存储。最后,实现了程序设计新词检测及查询系统,针对不同的用户身份设置不同的功能,主要功能包括上传自定义文件实现新词检测和知识图谱的扩充及查询。
医学表型实体的同义关系分析和概念规范化研究
这是一篇关于表型,同义关系,概念规范化,分类模型,神经网络的论文, 主要内容为医学知识图谱构建是医学人工智能研究的重要问题,是临床诊疗决策支持系统研发的重要支撑,其中表型实体及其关系是医学知识图谱的重要组成部分。然而由于医学术语库的动态变化和医学文本的快速累积,医学知识图谱中表型实体及其关系的维护和更新耗时耗力。因此,自动预测医学术语库间的表型概念同义关系,并建立医学文本中表型术语提及与规范化概念的映射关系是医学知识图谱构建的基础性研究工作。针对以上问题,本文的主要研究工作如下:首先,本文针对不同术语库的表型同义关系分析问题,构建了基于排序学习的分析方法。该方法将表型同义关系预测问题转化为对候选表型术语排序的问题,利用PubMed文献及相关信息,生成表型术语网络嵌入表示。然后通过相似度计算和排序学习的排序方法预测不同表型术语的同义关系。其次,研制了基于分类学习的术语同义关系分析方法。该方法将表型同义关系预测问题转化为对表型关系分类的问题,基于表型术语的网络嵌入表示构建表型术语关系的特征向量,分别使用支持向量机、逻辑回归、多层感知机、朴素高斯贝叶斯和随机森林等分类模型进行表型术语关系分类,然后基于融合分类模型对表型关系分类,进而预测表型之间的同义关系。本文在表型术语同义关系数据集上分别进行了基于排序学习和基于分类学习方法的同义关系预测实验。结果表明,两种方法在表型同义关系分析问题上均有较好的表现,其中基于分类的方法F1最高可达0.942。最后,针对表型概念规范化问题,本文将该问题分解为表型命名实体识别和表型实体链接两个子任务。首先,分别利用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)学习字符向量和词向量,并结合条件随机场(CRF)构建BiLSTM-CNN-CRF模型,实现表型命名实体识别。然后基于CNN排序模型实现表型实体链接。并在National Center for Biotechnology Information(NCBI)疾病语料库和BioCreative V Chemical Disease Relation(BC5CDR)疾病语料库上进行对比实验,验证了方法的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈网 ,原文地址:https://m.bishedaima.com/lunwen/50055.html