面向中文威胁情报的知识抽取关键技术研究
这是一篇关于知识图谱,威胁情报,命名实体识别,实体关系抽取的论文, 主要内容为互联网已成为新时代提高生产效率、推动创新变革、加速人类发展的重要议题。随着网络信息技术的蓬勃发展,网络空间安全威胁也逐渐渗透到了社会生产和生活中。网络安全领域内传统的数据挖掘、分析方法已经无法支撑未来的中国互联网产业迈向新的历史拐点。知识图谱作为对非结构化数据进行处理并使其可视化的一种技术手段,已经在国内外掀起了巨大的研究热潮。本文旨在研究中文威胁情报领域内知识图谱构建过程所涉及到的知识抽取技术,包括命名实体识别技术与实体关系抽取技术。目前,中文命名实体识别大多利用文本序列与词典匹配得到词汇,然后采用网格结构或者图结构引入词汇信息,但这两种整合词汇知识方法未考虑全局语义交互,引入了较多的干扰词汇,未能有效的解决词汇边界冲突问题。中文实体关系抽取目前大多使用基于字符级输入的模型对关系进行分类,没办法充分利用输入序列中的词汇信息与实体信息。针对以上问题,对于命名实体识别任务,本文提出一种基于词典匹配词汇注入(Lexicon-matched Word Inject,LWI)的知识融合方法,在输入序列语义信息提取方式、序列中词汇信息利用方式上进行创新。该方法利用预训练语言模型对字符进行编码,通过Transformer_Encoder模型捕获句子上下文特征,然后为每个字符注入词典词汇知识,再基于多头自注意力机制将字符与不同的词汇整合到一起,从而提升识别效果。对于关系抽取任务,本文提出一种基于多特征嵌入的关系抽取方法,在模型嵌入特征信息上进行创新。该方法研究了如何在实体关系抽取模型的输入表示层进行多特征嵌入,多特征嵌入过程就是将输入序列中的头尾实体嵌入向量、头尾实体相对于某个字符的位置特征向量、外部词汇嵌入向量整合到字符向量中,作为模型编码层的输入,然后利用BiLSTM模型进行特征提取,从而提升抽取效果。为验证模型效果,本文分别在通用领域数据集与自建威胁情报数据集上进行测试,最终实验表明两个模型性能在两类数据集上均表现良好,验证了模型的效果。
基于预训练语言模型的威胁情报信息抽取研究
这是一篇关于威胁情报,预训练语言模型,命名实体识别,关系抽取的论文, 主要内容为面对海量的非结构化威胁情报信息,自动地分析并抽取出标准化的安全实体及其关系,对于网络安全态势感知有着重要意义。然而威胁情报来源复杂,安全实体命名规范不一,存在实体跨度过长、实体嵌套等问题,导致实体关系重叠交叉。适用于通用领域的BERT(Bidirectional Encoder Representation from Transformers)模型难以直接应用于网络安全领域的特征提取,并且庞大的参数量会导致高昂的计算成本。此外,BERT自身的语义表征仅能捕获到上下文的单向信息。因此,本文基于BERT对命名实体识别与关系抽取任务分别进行了探索与研究,主要工作如下:(1)针对BERT在专业领域学习的欠缺,通过大量网络安全语料对BERT模型进行MLM(Masked Language Model)预训练,旨在提高BERT对于威胁情报的表征能力。针对BERT效率不高、安全实体嵌套的问题,使用全局指针统一标注解码,在训练中引入非目标实体词参与对抗训练缓解标注矩阵稀疏,同时结合安全实体的结构特征,利用专家词典与启发式规则辅助实体识别。(2)针对关系重叠交叉、主体客体距离较远等问题,在BERT输出层引入基于句法依存的图注意力,通过Highway网络自适应调节注意力,使BERT在上下文信息中融合语法结构特征。采用多头标注方法统一地标注实体和关系,实现实体与关系的单阶段联合抽取,通过改进损失函数缓解标注矩阵中关系类别的不均衡。(3)综合上述方法,设计并实现了威胁情报信息抽取系统。该系统自动地从文本输入中抽取结构化的三元组信息,并呈现可视化的知识图谱界面。实验结果表明,扩充实体词后的全局指针可以提升模型的实体分类能力,先验知识可以有效识别过长的专业词汇,弥补预训练模型的不足。与基线模型相比,效果最优且不会过多影响推理耗时,在公开的网络安全数据集上取得了最高的F1值0.836。在关系抽取任务中,单阶段的联合抽取避免了子任务之间的误差累积,通过损失函数动态调整难易样本的权重,缓解了数据不平衡问题,融合语法特征后的BERT表现出更充分的表征能力,多组数据集证明了模型的有效性。实现的威胁情报信息抽取系统可以有效提取出结构化的关键信息,证明了方法的实用性。
基于ScyllaDB的威胁情报平台设计与实现
这是一篇关于威胁情报,ScyllaDB,安全分析,D3.js的论文, 主要内容为随着近些年网络安全事件时有发生,网络威胁攻击事件逐渐倾向于有组织有规模的形式,威胁情报在网络安全领域中显得格外重要,往往可以从一个威胁情报中关联出更多的相关威胁情报与事件信息。作者所在的实习部门基于多年积累的丰富情报数据与成熟的技术,建立了具有规模庞大的数据量且数据准确的高性能威胁情报平台,并且积极调研安全分析人员的实际业务需求,在系统的功能上进行迭代与创新。本文主要介绍威胁情报平台的设计与实现,不仅能够实现对威胁预测数据的运营和威胁情报的搜索与展现,还能通过关联图来为安全分析人员带来直观的情报之间的关联关系与高自由度的节点操作。本系统的核心业务用例分别为:情报数据运营模块、情报查询模块、文件情报模块、IP情报模块、域名情报模块以及图分析模块。作者设计与实现了以下几个部分:(1)情报数据运营模块:能够确保数据运营人员高效的对预测数据进行运营与分析。(2)情报查询模块:为用户提供了清晰的搜索界面与实用的辅助功能。(3)文件情报模块:能够给用户提供丰富的文件情报。(4)IP情报模块:聚合准确丰富的IP情报。(5)域名情报模块:能够让用户使用IP与域名相互配合进行安全分析。(6)图分析模块:能够实现情报关联分析并且可以对图中节点进行多功能且高自由度的操作。以上功能均按照软件工程规范实现。本系统主要基于ScyllaDB高性能No SQL数据库,辅以Ti DB和My SQL关系型数据库作为数据存储,使用Golang和Iris框架进行后端开发,使用Vue框架和D3.js进行前端开发,整体架构使用前后端分离架构,符合高内聚低耦合设计准则。本文实现的威胁情报平台,经过功能性测试与非功能性测试,均已符合预期目标并上线,可以为安全分析人员提供准确高效的安全分析服务。
面向中文威胁情报的知识抽取关键技术研究
这是一篇关于知识图谱,威胁情报,命名实体识别,实体关系抽取的论文, 主要内容为互联网已成为新时代提高生产效率、推动创新变革、加速人类发展的重要议题。随着网络信息技术的蓬勃发展,网络空间安全威胁也逐渐渗透到了社会生产和生活中。网络安全领域内传统的数据挖掘、分析方法已经无法支撑未来的中国互联网产业迈向新的历史拐点。知识图谱作为对非结构化数据进行处理并使其可视化的一种技术手段,已经在国内外掀起了巨大的研究热潮。本文旨在研究中文威胁情报领域内知识图谱构建过程所涉及到的知识抽取技术,包括命名实体识别技术与实体关系抽取技术。目前,中文命名实体识别大多利用文本序列与词典匹配得到词汇,然后采用网格结构或者图结构引入词汇信息,但这两种整合词汇知识方法未考虑全局语义交互,引入了较多的干扰词汇,未能有效的解决词汇边界冲突问题。中文实体关系抽取目前大多使用基于字符级输入的模型对关系进行分类,没办法充分利用输入序列中的词汇信息与实体信息。针对以上问题,对于命名实体识别任务,本文提出一种基于词典匹配词汇注入(Lexicon-matched Word Inject,LWI)的知识融合方法,在输入序列语义信息提取方式、序列中词汇信息利用方式上进行创新。该方法利用预训练语言模型对字符进行编码,通过Transformer_Encoder模型捕获句子上下文特征,然后为每个字符注入词典词汇知识,再基于多头自注意力机制将字符与不同的词汇整合到一起,从而提升识别效果。对于关系抽取任务,本文提出一种基于多特征嵌入的关系抽取方法,在模型嵌入特征信息上进行创新。该方法研究了如何在实体关系抽取模型的输入表示层进行多特征嵌入,多特征嵌入过程就是将输入序列中的头尾实体嵌入向量、头尾实体相对于某个字符的位置特征向量、外部词汇嵌入向量整合到字符向量中,作为模型编码层的输入,然后利用BiLSTM模型进行特征提取,从而提升抽取效果。为验证模型效果,本文分别在通用领域数据集与自建威胁情报数据集上进行测试,最终实验表明两个模型性能在两类数据集上均表现良好,验证了模型的效果。
基于非结构化文本的网络威胁情报分析技术研究
这是一篇关于网络安全,非结构化数据,威胁情报,本体的论文, 主要内容为在如今这个时代,网络技术的发展已经影响到了多个领域,网络的普及使人类社会迈向了一个新的台阶。网络在很多方面促进了人们的生活,但从安全角度出现网络也带在了很多问题,如:在数据传输过程中机密的信息容易被劫持、攻击者可能会探索网络安全漏洞并对网络设备展开攻击。因此,网络安全防护也变得越来越重要。目前对网络攻击进行防御的方法有很多,如:防火墙、系统补丁、身份验证、信息加密和入侵检测等。但现今网络攻击变幻莫测,这些传统的安全保护策略很难起到有效的防护。主要原因如下:漏洞是不可预测的,传统方法难以有效的应对网络攻击;对于持续的网络攻击,功能检测等防护技术已经失去效用,传统手段无法应付。因此,必须增强组织和企业的脆弱性分析和网络威胁情报信息提取能力,从而提高网络的主动安全防御能力。威胁情报能够描述攻击行为和对攻击者进行攻击画像,指导组织和企业有效的进行防御,这使得威胁情报在网络安全保护中起着至关重要的作用。对此,本文针对非结构化的网络威胁情报进行分析,首先根据威胁情报数据的特点构建了网络安全本体,为威胁情报知识库的构建奠定了基础,然后提出了一种针对非结构化威胁情报的量化方法,通过该方法可以帮助组织和企业筛选出高质量的威胁情报,从而更好的进行防御,最后设计了一个威胁情报分析平台。本文的主要内容如下所述:(1)分析了网络威胁情报的形式。目前,威胁情报包含的种类繁多,本文对于网络威胁情报展开研究,分析了威胁情报的类别及应用,然后对目前统一的威胁情报标准进行了介绍,汇总了国内外知名的网络安全知识库,并对于数据整合工具进行了分析,为后续安全领域本体的构建和威胁情报的量化分析提供了理论和数据基础。(2)针对安全数据来源广,格式不固定的问题,本文提出一个全新的网络安全本体,定义了多个安全顶级类,并对类之间的关系进行了详细的举例描述,最终将构建的本体应用于知识图谱的构建过程中,通过构建的知识图谱为威胁情报的量化提供了技术支持。(3)针对目前的威胁情报存在质量参差不一,且难以筛选出优质情报的问题,提出了一种威胁情报量化评估方法。首先对威胁情报进行简单的分类,然后提取其中包含的威胁指标和CVE等信息,最后从多个维度对威胁情报进行分析,根据评估函数实现威胁情报的量化,通过该方法可以筛选出高质量的威胁情报。(4)针对目前用户对于威胁情报分析的需求,本文基于已有的研究,设计并实现了一个威胁情报分析平台。主要包含数据收集、知识构建、数据存储、威胁情报量化及可视化模块。
威胁情报知识图谱的构建及应用技术研究
这是一篇关于威胁情报,本体,知识图谱,威胁检测,知识推理的论文, 主要内容为网络系统由众多设备组成,这些设备以复杂的网络拓扑结构相互连接。设备种类和数量的增加以及网络拓扑的复杂性,使网络系统面临着越来越多的安全风险。攻击者可以利用网络中的漏洞和弱点进行入侵、窃取数据、拒绝服务等恶意行为。网络威胁情报包含有关设备、网络和防御的丰富信息,这些信息有助于安全团队更好地理解威胁并采取相应的措施。然而,由于威胁情报信息通常来自不同的来源和格式,安全知识之间缺乏相关性,导致一些高级推理任务无法执行。本文将威胁情报与知识图谱技术相结合,针对网络威胁情报信息之间缺乏相关性的问题构建了威胁情报知识图谱,并基于该图谱对威胁检测和防御策略生成进行研究。本文主要内容如下:(1)针对网络威胁情报实体缺乏相关性问题,本文对主流网络威胁情报进行分析并构建了威胁情报本体。其中包括了网络威胁情报的各个方面,如漏洞、攻击技术、平台、攻击目标等,通过分析将这些实体进行分类,并定义实体间的关系。使用本体对网络威胁情报进行建模,可以消除不同数据源之间的语义差异。(2)基于威胁情报本体,本文构建了威胁情报知识图谱。知识图谱将不同来源的数据整合到一个统一的数据模型中,从而支持复杂的推理和查询任务。基于威胁情报本体,在知识图谱中建立相应的节点。并使用信息抽取技术从非结构化文本中抽取威胁相关实体,结合结构化威胁情报构建了知识图谱,并使用Neo4j进行存储和可视化。(3)本文提出了一种基于威胁情报知识图谱的威胁检测方法。具体来说,该方法首先将日志转化为支持SPARQL查询的RDF格式,利用Sigma威胁检测规则与ATT&CK知识库之间的关联,将从日志检测到的威胁关联到威胁情报知识图谱中。通过这种方法,安全人员可以在检测到威胁后及时查看攻击的全貌。(4)本文提出了由知识图谱嵌入算法(CTI-KGE)和推理规则组成的防御策略推理模型。CTI-KGE基于知识表示学习,链接预测任务可以自动推断出与头部实体有任何关系的尾部实体,从而补全威胁信息。规则推理具有可解释性,可自动生成防御策略。为了验证该模型的可行性和有效性,本文通过实际的网络场景对模型进行了评估。
基于知识图谱的工控网络威胁建模与仿真技术研究
这是一篇关于工业控制网络,威胁情报,知识图谱,元攻击语言,威胁建模与仿真的论文, 主要内容为随着物联网的快速发展,技术的广泛应用为传统工业体系带来了便利,但同时也带来了众多的安全隐患,尤其是工业物联网。由于工业控制网络的复杂性和开放性,工业物联网面临着严重的网络安全威胁。因此,为深入建模工业控制网络攻击和防御之间的逻辑关系,评估工业物联网系统的安全机制,数据驱动的威胁建模方法成为热点研究方向。与传统第一性原理模型相比,数据驱动模型的优点是能够可以在没有太多先验知识的情况下,从大量数据中提取样本的结构与模式。但是,基于数据驱动的威胁建模方法无法进一步实例化更高层攻击和防御行为以及编码它们之间逻辑关系的缺陷日益凸显。此外,数据驱动模型也高度依赖于数据的规模与质量,在高度动态的场景下存在精度较低的问题,使得后续依赖此分析结果的安全决策缺乏可靠性。领域专用语言模型作为语言建模的常用技术,正在试图结合数据驱动技术以缓解工业控制网络的业务风险。为了提高工业控制网络风险分析能力,本文以攻击行为事件为研究对象,结合工业物联网威胁情报知识图谱的构建和应用展开研究,提出一种基于元攻击语言(Meta Attack Language,MAL)的威胁建模与模拟方法,本文的主要内容有以下三点:(1)构建了工业物联网威胁情报知识图谱。针对工业领域缺乏对于安全威胁情报的有效管理和利用的问题,本文分析了工业威胁情报知识的特征与概念,构建了工业物联网威胁情报知识统一结构。然后提出了威胁情报信息提取模型,将各类威胁情报进行结构化和关联化,构建起工业物联网的威胁情报知识图谱。这为后续的安全威胁建模、攻击模拟和应对提供理论和数据基础,并拓展了工业控制网络威胁建模的知识域范围。(2)研究了工业控制网络下特定攻击者的攻击和防御的逻辑编码问题。本文在MAL框架的基础上提出一种基于ATT&CK和D3FEND模型的攻击防御行为建模语言ADMLang(Attack and Defense Modeling Language)。首先,该语言通过对攻击者攻击特性的分析,构建了攻击者画像。然后,提出了妥协时间(Time to Compromise,TTC)概率分布算法,将攻击防御特征与ADMLang模型进行了概率性映射。最终,通过构建全局妥协时间网络,可以计算初始攻击到目标被破坏的时间分布。相较于传统方法,该方法具有更好的自动化和概率建模能力,并能更加准确地描述攻击防御行为。(3)本文在一个公开数据集的智能电网项目SEGRID中进行测试,将应用ADMLang模型的攻击仿真方法与标准渗透测试进行实验对比。结果表明,该方法能有效的挖掘工业控制网络的攻击防御逻辑,并且在攻击模拟测试方面表现出很高的准确性。
威胁情报知识图谱构建技术的研究与实现
这是一篇关于威胁情报,本体工程,深度学习,实体抽取的论文, 主要内容为近年来,随着互联网快速发展,网络威胁日益增多,传统的网络防御体系已经无法对威胁做出有效的判断。因此,威胁情报技术孕育而生,该技术正处于一个飞速发展的阶段。目前为止碎片化的情报无法准确溯源出攻击组织以便及时采取有效的防御手段,本课题提出了一种威胁情报的知识图谱构建技术,可以很好的解决情报关联性差的问题,利用知识图谱可视化技术,直观地展现威胁情报的要素和关系。论文剖析了目前国内外对威胁情报知识图谱技术的相关现状,调研了本体工程、深度学习理论、实体消歧和知识推理等相关技术。通过研究和分析,将这些技术应用到整个威胁情报知识图谱构建的过程中。首先,本文提出一套威胁情报本体模型。按照构建标准,利用深度学习框架,完成实体和实体关系自动化提取。接着对抽取的实体进行实体消歧。构建好的威胁情报知识库,采用知识推理技术获取潜在的关系。将完整的威胁情报知识库的数据利用知识图谱可视化技术展示。其次,针对海量威胁情报数据查询速度慢的情况,本文采用了全文检索技术对知识库进行搜索。最后基于论文的研究,构建了一套原型系统,描述了系统框架和系统部署环境,并对最终知识图谱进行清晰的展示。通过该论文的研究,设计并实现了威胁情报的知识图谱,摆脱了传统网络对抗中的被动式防御,整合了大量孤立的情报,主动地调整自己的防御策略,提前预测未发生的攻击,为进一步网络攻防战中占据主导权奠定了的基础。
基于机器学习的威胁情报可信分析系统的研究
这是一篇关于威胁情报,知识图谱,机器学习,可信评估的论文, 主要内容为近些年来,随着信息技术的飞速进步与发展,网络安全技术不断演化,无论是以5G通讯,物联网等新型网络形式的出现,还是以在线社交网络等为代表的新型服务模式的出现,都不断呈现出开放性、异构性、移动性和可信性的特点,这些服务方便了人们的生活,但是由于网络的匿名性,人们同时也遭受着非法网络渗透等带来的巨大损失和伤害。针对日益庞大的网络用户的情报数据,如何对这些情报进行合理的分析和研究将成为新时代下社会信任体系与主动安全防御的重中之重。现今的互联网环境下,人们对用户实体的情报数据的主要来源是开放的网络环境,但是网络环境中的情报数据具有数据质量低,同时具有数据规模大,关联关系复杂等特点,如何有效的对这些情报数据进行高效并且合理的研究与利用,是解决网络空间环境下,对网络实体的情报进行可信评估的关键。因此,本文主要针对开放的网络环境中的情报数据的可信评估问题进行研究,主要的工作任务如下:(1)针对大规模网络环境下,情报数据规模大、关联关系复杂的特点,本文提出了—种基于知识抽取和融合算法的海量数据知识图谱构建的方法,以此来作为海量情报数据存储的主要形式。该方法利用网络空间中情报数据的结构化和非结构化特性,对原始的情报数据进行实体、属性和关系的抽取;考虑抽取得到的实体、属性和关系信息之间存在重复、别名问题,再利用知识融合的技术对抽取得到的实体、属性和关系进行加工、整合、消除歧义,得到—系列基于事实表达的情报知识图谱。(2)针对网络环境中用户情报数据中质量低和虚假数据的问题,本文提出了—种基于知识表示和神经网络算法的情报数据的可信评估模型。该模型在情报知识图谱的数据存储形式上,利用知识表示TransE(Translating Embeddings)算法将情报知识图谱中的实体、属性和关系等节点信息映射到连续的低维向量空间,在这个过程中,为了计算具有多级链接关系的两个节点之间的聚合关系,本文提出—种基于循环神经网络(Recurrent Neural Network,RNN)的链接关系聚合算法来计算得到两个节点之间单条路径的聚合链接关系,然后通过路径可靠性算法(Path Reliability Measuring Algorithm,PRM)对两节点之间存在的多条关系路径进行链接关系的加权计算,实验结果表明,基于上述的情报可信评估模型,在开源的大规模知识库Freebase数据集上,当训练集数量达到300000时,准确度达到了91.67%;并且在基于RNN的链接关系聚合算法下,与传统的基于四则运算的算法进行对比发现,随着训练集规模的增大,RNN的性能优势远远大于基于传统的四则运算算法。(3)针对现实网络环境中的用户可信评估的需求,本文基于开放的网络环境,设计并且实现了—套面向人物的情报可信分析系统。该系统分为情报数据采集与解析模块、情报知识图谱构建模块、情报可信分析模块以及情报数据可视化模块。其中情报数据采集模块利用网络爬虫从网络中获取人物情报数据并进行初步的解析;情报知识图谱构建模块利用获取到的经过初步解析的情报数据,利用知识图谱的构建方法,构建高质量的情报知识图谱;情报可信分析模块将利用上述路径聚合算法和路径可靠性算法对情报进行可信关系的可信评估;最后,系统提供可视化平台对构建的用户情报知识图谱以及可信分析的结果进行可视化展示。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://m.bishedaima.com/lunwen/52733.html