I2P暗网探测感知系统的设计与实现
这是一篇关于暗网,I2P,大蒜路由,资源探测的论文, 主要内容为现代互联网的飞速发展使得信息传播变得越来越方便,各种违法犯罪活动也借助互联网的便利性悄然发生,如Tor、I2P等能够为网络使用者提供身份匿名性的暗网网络更是深受犯罪人员的青睐。与之相对应的就是大大增加了犯罪活动侦破的难度,给人民的生命财产安全以及社会的稳定带来了很大的威胁。本文通过对I2P等暗网进行研究,设计并实现了I2P暗网探测感知系统,通过使用Docker容器技术将I2P节点部署到物理空间中,采集I2P网络中用户空间与逻辑空间中的信息。其中I2P用户空间中的信息主要包括I2P暗网域名信息与I2P暗网内容信息,I2P逻辑空间中的信息中主要包括I2P注入节点基础信息、I2P网络中的暗网节点信息、注入节点通信链路信息等。本文通过对这些内容进行信息的采集、存储与分析,将I2P网络中的信息通过图模型的方式可视化的展示出来,帮助有关部门对I2P网络进行监控分析。本文的主要贡献有以下几个方面:(1)对于I2P网络的访问需要通过部署I2P注入节点来实现,针对I2P注入节点物理空间的部署问题,本文使用Docker容器进行I2P节点的部署,能够在批量节点部署场景下降低时间成本。(2)I2P用户空间主要包含I2P域名信息和I2P暗网内容信息,针对I2P用户空间的信息采集问题,本文在Scrapy-Redis框架的基础上搭建了一个主从节点的分布式暗网内容探测系统。能够采集I2P用户空间的I2P暗网域名和暗网内容信息,并且提供可视化分析。(3)I2P逻辑空间主要包含I2P注入节点基础信息、暗网节点信息、注入节点通信链路信息。针对I2P逻辑空间的信息采集问题,本文在Spring Cloud框架的基础上搭建了一个分布式暗网节点探测系统。能够定时的采集I2P逻辑空间的信息并对这些信息进行可视化分析。(4)针对I2P暗网数据的管理和展示问题,本文搭建了一个可视化后台管理系统。本系统能够进行注入节点状态监测、暗网数据管理、可视化信息展示。
面向Tor暗网内容分类关键技术研究
这是一篇关于暗网,爬虫,黑话,文本分类的论文, 主要内容为随着网络技术的不断发展,互联网上的内容已经呈现出多样性和大规模化的趋势。与此同时,网络空间安全问题也不断增多,尤其是在Tor(The Onion Routers)暗网这种匿名网络上,非法、恶意、违法等活动变得更加容易,并且犯罪分子则经常使用黑话进行违法行为,使得网络犯罪更加难以被监管。为了保障网络空间安全和解决信息过载问题,需要一种高效、准确的内容分类技术。然而,对于Tor暗网中的页面或其他内容进行分类却非常具有挑战性。主要表现在暗网数据采集效率不高、中文黑话识别不成熟、大量数据分类性能不高等问题。因此,本文的主要工作内容如下:(1)本文针对于暗网数据采集效率低下的问题,对Tor网络进行了改进。采取的具体措施是减少Tor链路中经过的节点数,以提高访问速度。另外,为了避免获取重复数据,本文采用布谷鸟过滤器对数据进行了过滤。在此基础上设计了分布式爬虫,并使用Scrapy框架进行实现。最终,所获取的数据被存储在Elasticsearch数据库中。通过实验验证使用改进后的爬虫系统,显著提升了暗网数据获取速度,同时避免了重复数据的获取,相较于普通爬虫,节省了 39.75%的时间。(2)本文针对中文黑话识别任务,提出了一种基于SCM(Semantics Comparison Model)模型的黑话识别方法,通过对中文文本特性的考虑,如词性和专有名词等,进行了数据预处理。黑话识别器采用了不同特征的组合方法,表现出显著的中文黑话识别优势,在实验中获得了 87.66%的高准确度结果。(3)针对文本分类问题本文提出了一种基于LDA(Latent Dirichlet Allocation)主题模型和Text-CNN(Text Convolutional Neural Network)的信息提取方法,用于网络犯罪领域的相关研究和工作。该方法对于减少噪音数据、提高模型准确性和执行效率方面表现出显著的效果。实验证明,这个方案不仅节省了 90%以上的开销,而且可以将准确度提高到91.35%,加入黑话后,准确率进一步提高至94.88%。本文的研究成果为暗网内容分类领域做出了一些贡献,为相关领域的研究和工作提供了可行的解决方案和实际意义。
暗网交易链知识图谱关键技术研究与应用
这是一篇关于暗网,知识图谱,中文命名实体识别,中文关系抽取的论文, 主要内容为知识图谱能从海量文本和图像中提取出需求的信息,有着广阔的应用场景。领域知识图谱作为知识图谱中的一种,由于存在数据难以获取和处理等问题,故当前对领域知识图谱的相关研究较少。暗网作为一个神秘的领域,和明网不同,暗网中进行的交易大部分存在违法的情况,甚至对国家安全造成了一定的威胁,故进行暗网领域的知识图谱构建迫在眉睫。针对上述问题,本文的研究重点集中在暗网中文交易链知识图谱的知识获取和应用方面。主要研究内容包括:(1)设计并实现了一种暗网中文命名实体识别模型。首先,针对暗网领域缺少明确的实体分类的问题,通过对暗网进行调研,将暗网交易链可识别的实体分为9类。随后,对数据集进行预处理和命名实体识别数据标注,以获取到实验语料。接着,使用基于transformer的双向编码器模型,获取到结合位置信息的暗网中文交易数据的字向量,并将字向量输入双向长短期神经网络中,获取到具有上下文语义的字向量。最后,将上述字向量通过条件随机场,保证了预测的标签的合理性。通过上述训练达到识别出暗网领域内实体的目的。该模型在暗网中文命名实体识别任务上相较于其他传统方法效果显著,其正确率、召回率和F1值分别取得了74.9%、76.2%和75.5%的成绩。(2)设计并实现了一种暗网中文关系抽取模型。首先,通过调研,将暗网交易链可抽取的关系分为5类。随后,对数据集进行关系抽取数据标注,以获取到实验语料。接着,本文使用Word2Vec进行词向量训练,并将词向量结合位置信息作为输入放入双向门控单元网络中,获取到具有上下文语义的词向量。随后,将词向量通过注意力机制,增加了句子局部特征的权重。最后,将上述结果输入到分类器,得到句子的关系类别。通过上述训练达到识别出暗网领域内关系的目的。经过对比实验验证,该模型能够有效地抽取暗网实体之间的关系,其正确率、召回率和F1值分别取得了65.1%、62.3%和63.7%的成绩。(3)设计并实现了暗网交易链知识图谱系统。首先,进行暗网交易链知识图谱的初步构建,并将上述获取到的三元组知识,结合实体补充和关系补充,存入Neo4j数据库中。随后,以知识图谱的知识查询为基础,进行暗网交易链知识图谱相关应用的实现和可视化展示。最后,达到呈现暗网交易链,对暗网内重点目标进行追踪的目的,并保证系统的各个功能在2秒内完成响应。
基于图卷积神经网络的暗网分类算法研究
这是一篇关于暗网,文本图,句法依赖,图卷积神经网络,Bert的论文, 主要内容为互联网可以分为明网和深网,暗网是深网的一个子集,建立的目的是为了保护通信双方的隐私,但由于其极高的匿名性,暗网中的违法犯罪活动不断滋生壮大,开始给公民的生活带来困扰。因此,收集和研究暗网中的违法犯罪活动可以帮助公民更深入地了解暗网,具有重要的现实意义。由于暗网相较于普通网页存在篇幅较短的特征,目前对暗网的分类研究都聚焦于关键词和网页图像分类上,没有较多地利用文本中存在的句法依赖信息。图神经网络能够较好地保留图数据中的全局结构信息,通过图引入句法依赖信息,丰富暗网文本的特征表示。针对暗网文本特征稀疏的问题,本文以基于Tor的暗网作为研究对象,提出了基于Bi-LSTM和Bert的图卷积神经网络分类方法,主要工作如下:(1)本文对Tor匿名系统的基本通信原理和隐藏服务机制做了详细介绍,整理归纳国内外暗网的收集发现与分类的研究成果,为本文后续工作提供了有效的帮助。(2)提出了基于Tor2Web和深层网络发现并爬取暗网网页的方法,扩大了爬取的范围。同时,利用python,scrapy框架以及Sqlite数据库实现对暗网网页的爬取,构建了暗网文本数据集,为后续对暗网进行分类提供数据基础。(3)针对图卷积神经网络的构图方法提出了一种新的融合图,为了同时获取文本中的序列特征信息和单词之间的句法依赖信息,为每个暗网网页单独构建文本序列图和句法依赖图。然后,融合两种图的信息,生成最终代表文本的融合图。根据不同的构图方式以及构建不同类型的图进行分类实验,验证了构建多种类型图的有效性。(4)基于Bi-LSTM的图卷积神经网络分类模型。本文通过构建文本图获取文本信息中的序列信息和单词之间的句法信息,同时,利用Bi-LSTM获取文本中的上下文语义信息结合图卷积神经网络对图中初始化后的单词节点进行更新表示,在开源的英文数据集以及本文构建的暗网文本数据集中进行了对比实验,验证了本文提出方法的有效性与广泛性。(5)基于Bert的图卷积神经网络分类模型。本文通过利用Bert模型对暗网网页文本语料库进行预训练,获取文本中深层次的上下文语义信息,作为文本图中单词节点的初始向量,其次利用图卷积神经网络实现图分类任务,通过与基线模型的对比验证了本文提出的方法的有效性。
暗网用户跨网站关联方法研究
这是一篇关于暗网,隐式特征,用户关联,知识图谱的论文, 主要内容为根据每个用户在不同市场上的帖文来学习他们的特征表示,可以更好地跨市场聚合用户信息,这有助于跨网站识别匿名用户。因此,暗网用户跨网站关联方法具有重要的应用价值。经过近几年的研究,暗网用户跨网站关联方法已经取得了一些研究成果。但由于暗网数据的强匿名性,该方法仍然有很多关键问题需要解决。不同于明网,暗网用户标签和属性信息极度缺乏,用户间也缺少显式的关联关系,这限制了传统方法的适用性,加大了对暗网用户进行分析的难度。本文从暗网犯罪治理的实际需求出发,以网络用户发布的帖文信息为核心开展跨网站暗网用户多账号关联方法研究,主要包括用户表示模型、用户多账号关联方法和暗网图谱三方面,以便更有效地关联并描述暗网中从事违法活动的用户,为执法部门治理暗网犯罪提供一定的方法支持。本文的主要研究工作和成果如下:(1)提出一种基于文本隐式特征的暗网用户表示模型。首先,针对暗网市场用户发帖文本存在的长短频繁变化问题,利用注意力机制和卷积神经网络从全局文本和局部文本的不同角度挖掘用户发布帖文的文本特征,并通过自适应门机制消除两次处理文本数据所产正的噪声。随后,提取用户帖文的时间特征并引入异质信息网络提取用户的行为特征。最后,将从用户信息中提取的特征集成到集合中,将其作为暗网用户的表示模型。(2)提出一种基于时序上下文特征的跨网站暗网用户多账号关联方法。首先,由于已有方法未考虑到暗网市场用户自身发布帖文之间存在的时序关联,本文基于上一研究点的暗网用户表示模型,采用时序卷积提取用户发布帖文的时序上下文特征,以增强模型的用户表示能力。之后,基于得到的用户表示向量,通过计算不同暗网用户表示向量之间的余弦距离来关联暗网用户。最后,本文将本方法在四个不同的暗网市场数据集上进行联合训练,从而完成跨网站暗网用户多账号关联。本文在公开的四个暗网市场数据集上验证了关联方法的有效性。对比主流方法,平均倒数秩(Mean Reciprocal Rank,MRR)和标准召回率(Recall@10)分别平均提高了 23.5%和25.6%。(3)设计并实现了暗网图谱分析系统。首先,由于暗网图谱具有规模大、时序动态性强、稀疏离散的问题,本文基于上一研究点的跨网站用户多账号关联结果,构建基于时间特征及不确定性特征的知识表示模型与本体模型。其次,基于本体模型对暗网数据进行知识抽取,并基于改进的知识表示模型将暗网数据存入ElasticSearch数据库中。最后,构建暗网图谱前端展示界面,进行暗网知识图谱的展示和样例分析。在暗网市场数据集上验证了暗网图谱分析系统的有效性。
基于Freenet的暗网空间资源探测技术研究
这是一篇关于暗网,Freenet,资源探测,朴素贝叶斯,TF-IDF的论文, 主要内容为随着各国对明网加强了监督和管制,高匿名性和匿踪性的暗网受到大量的非法地下市场以及黑色论坛甚至恐怖主义分子的青睐。因此,研究暗网空间资源并对其进行实时监控,对于国家和社会的安全具有重要意义。本文的主要工作内容如下:1、首先介绍了暗网与明网的区别,并指出研究暗网及其内部资源具有重要意义,然后分别介绍了国内外对于暗网的已有研究;2、设计并实现了基于Scrapy和MongoDB的Freenet暗网资源收集和存储系统,本系统同时对明网与暗网中的Freenet资源进行侦测,拓展了数据来源,在存储暗网域名时同时记录该域名的来源,方便用户进行溯源分析;3、通过朴素贝叶斯对暗网中的重点“黑灰”页面进行识别并实现了对这些页面的自动登录功能,为进一步关注和收集暗网中重点资源提供基础支持;4、对收集到的页面内容经过NLP技术处理后,使用TF-IDF生成字词云提取页面的主旨信息并快速直接地反馈给用户,有助于进一步监控和分析Freenet中的相关内容。本系统在经过一段时间的运行后,共收集了5万条Freenet域名和210万的域名链接,已大于现有的Freenet索引网站。在未来的工作中,会对Freenet的协议进行研究、优化来提升访问所需内容的速度,并对Freenet代理、爬虫系统及数据库系统进行分布式架构部署,提升性能、避免单点故障。
暗网用户跨网站关联方法研究
这是一篇关于暗网,隐式特征,用户关联,知识图谱的论文, 主要内容为根据每个用户在不同市场上的帖文来学习他们的特征表示,可以更好地跨市场聚合用户信息,这有助于跨网站识别匿名用户。因此,暗网用户跨网站关联方法具有重要的应用价值。经过近几年的研究,暗网用户跨网站关联方法已经取得了一些研究成果。但由于暗网数据的强匿名性,该方法仍然有很多关键问题需要解决。不同于明网,暗网用户标签和属性信息极度缺乏,用户间也缺少显式的关联关系,这限制了传统方法的适用性,加大了对暗网用户进行分析的难度。本文从暗网犯罪治理的实际需求出发,以网络用户发布的帖文信息为核心开展跨网站暗网用户多账号关联方法研究,主要包括用户表示模型、用户多账号关联方法和暗网图谱三方面,以便更有效地关联并描述暗网中从事违法活动的用户,为执法部门治理暗网犯罪提供一定的方法支持。本文的主要研究工作和成果如下:(1)提出一种基于文本隐式特征的暗网用户表示模型。首先,针对暗网市场用户发帖文本存在的长短频繁变化问题,利用注意力机制和卷积神经网络从全局文本和局部文本的不同角度挖掘用户发布帖文的文本特征,并通过自适应门机制消除两次处理文本数据所产正的噪声。随后,提取用户帖文的时间特征并引入异质信息网络提取用户的行为特征。最后,将从用户信息中提取的特征集成到集合中,将其作为暗网用户的表示模型。(2)提出一种基于时序上下文特征的跨网站暗网用户多账号关联方法。首先,由于已有方法未考虑到暗网市场用户自身发布帖文之间存在的时序关联,本文基于上一研究点的暗网用户表示模型,采用时序卷积提取用户发布帖文的时序上下文特征,以增强模型的用户表示能力。之后,基于得到的用户表示向量,通过计算不同暗网用户表示向量之间的余弦距离来关联暗网用户。最后,本文将本方法在四个不同的暗网市场数据集上进行联合训练,从而完成跨网站暗网用户多账号关联。本文在公开的四个暗网市场数据集上验证了关联方法的有效性。对比主流方法,平均倒数秩(Mean Reciprocal Rank,MRR)和标准召回率(Recall@10)分别平均提高了 23.5%和25.6%。(3)设计并实现了暗网图谱分析系统。首先,由于暗网图谱具有规模大、时序动态性强、稀疏离散的问题,本文基于上一研究点的跨网站用户多账号关联结果,构建基于时间特征及不确定性特征的知识表示模型与本体模型。其次,基于本体模型对暗网数据进行知识抽取,并基于改进的知识表示模型将暗网数据存入ElasticSearch数据库中。最后,构建暗网图谱前端展示界面,进行暗网知识图谱的展示和样例分析。在暗网市场数据集上验证了暗网图谱分析系统的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/54396.html