面向敏感信息的推荐系统公平性与隐私保护研究
这是一篇关于推荐系统,敏感信息,公平性,隐私保护,多角度公平性,帕累托效应,联邦学习的论文, 主要内容为推荐系统在学术研究和应用领域得到了广泛的关注。但是在目前推荐系统中包含着敏感信息,例如用户敏感属性,模型梯度等。面向推荐系统中的敏感信息存在着公平性和隐私保护两类问题。面向敏感信息的推荐系统公平性是由于推荐系统使用了用户和物品的敏感信息而导致对具有不同敏感信息的用户和物品群组之间的公平性问题。面向敏感信息的推荐系统隐私保护是保证整个推荐系统中的数据和模型所携带的敏感信息的安全。推荐系统公平性和隐私保护具有重要的研究和应用价值。目前推荐系统公平性和隐私保护存在一个共性问题,即二者都是对敏感信息进行处理。公平性的目的是使推荐系统不使用敏感信息,隐私保护的目的是保护数据和推荐模型中携带的敏感信息。然而在提高推荐系统公平性和隐私保护时会存在损失推荐准确率的问题。因此如何在提高推荐系统公平性和隐私保护的同时保证推荐系统准确率不下降是本工作的目标。针对目前存在的问题以及推荐系统公平性和隐私性的研究现状,本文提出了以下两种方法。(1)针对面向敏感信息的推荐系统公平性问题,提出一种基于帕累托效应的推荐系统多角度公平性的方法。通过引入对抗正则化器消除用户嵌入中的敏感属性信息,采用基于曝光的负采样策略提高推荐系统的准确率,在一定程度上缓解了帕累托效应。并且,基于曝光的负采样策略在一定程度上解决物品曝光偏差的问题,保证了物品角度的公平性,从而实现了用户、物品的多角度公平性。(2)针对面向敏感信息的推荐系统隐私保护问题,提出一种基于分层加密及特征解耦的联邦推荐系统隐私保护方法,对用户嵌入、物品嵌入和模型梯度三个方面进行隐私保护。基于分层加密的嵌入隐私保护模块通过加入匿名用户和伪项目来对用户嵌入和物品嵌入进行隐私保护,并且匿名用户的加入拓展了用户项目二部图,保证了推荐系统性能。基于特征解耦的模型梯度隐私保护模块通过代理网络将模型梯度和泄露隐私的信息进行解耦,保证了模型梯度的隐私性。
基于全文检索的敏感信息检测系统的设计与实现
这是一篇关于敏感信息,Elasticsearch,HDFS,中文分词,搜索结果排序的论文, 主要内容为Github已经成为当下最受欢迎的开源代码托管平台,越来越多的开发人员和企业将项目上传到Github平台上。开发人员由于疏忽和安全意识不足,将含有敏感信息的代码库上传到Github的公共区域,导致敏感信息泄露,带来了许多安全危害,因此,能够有效识别源码中的敏感信息的技术手段显得尤为重要。针对这种现状,本文基于Elasticsearch全文检索技术设计并实现了一个敏感信息检测系统,在保证搜索精确度和查询性能的基础上,能够根据关键词从海量源码文件中搜索出含有敏感信息的文档。本文深入研究了搜索引擎技术中常用的中文分词算法和排序算法。其中,中文分词算法包括:基于字符串匹配、基于词频统计以及基于语义分析等3种中文分词算法,使用基于字符串匹配算法实现的IK分词器对源码文本进行分词。排序算法包括IF-TDF算法、PageRank算法以及BM25算法,分析各个排序算法的原理和优缺点,改进BM25算法应用于搜索结果排序。考虑到数据量比较大,且数据还会持续增长,本文使用HDFS分布式文件系统来存储源码数据,优点是HDFS集群易扩展,可以通过增加节点的方式扩充存储容量,且数据不易丢失。缺点是HDFS不适合存储海量小文件,本文通过将一个项目中的所有小文件合并为一个大文件的方式解决了该问题。部署Elasticsearch集群作为搜索引擎提供全文检索功能,将HDFS集群中的源码文件读取并上传至Elasticsearch集群中,期间经过一系列优化方案提升了 Elasticsearch集群的索引性能和查询性能。基于对系统的需求分析、概要设计以及详细设计等,使用Spring Boot、Thmeleaf、MyBatis Plus、Layui等技术实现了敏感信息检测系统,最后对系统进行测试,测试结果符合预期。
基于广度学习的异构社交网络敏感实体识别模型研究
这是一篇关于广度学习,异构社交网络,敏感信息,实体识别的论文, 主要内容为近年来,随着人工智能、云计算等新兴网络信息技术的飞速发展和广泛运用,人类社会进入了全球化、信息化的网络时代,各类可以为用户提供不同种类服务的异构社交网络如雨后春笋般兴起并得到蓬勃发展。这些异构社交网络平台在为人们日常生活带来极大便利的同时,也为隐藏其中的敏感实体提供了良好的生存和发展空间。而由于异构社交网络所具有的用户匿名性、规模庞大性、结构复杂性等诸多特点,因而对国家安全部门在社交网络环境治理方面的工作提出了更高的要求。当前互联网中广泛存在着敏感实体利用社交网络进行极端主义思想传播和联络潜在人员等行为,为解决网络安全治理工作中敏感实体发现的首要问题,本文首先就敏感实体的概念进行了界定,并总结了其借助异构社交网络开展反动活动时的诸多特点,进而分析了在互联网时代开展跨多源异构社交网络进行敏感实体识别工作的必要性。然后基于上述分析,本文提出了一种基于广度学习的多源异构社交网络环境下敏感实体识别模型。该模型主要由有效信息提取、异构网络嵌入和敏感实体识别三个部分组成。首先,通过基于元路径的随机游走遍历策略生成节点序列并加以约束;然后采用基于广度学习的多源异构网络嵌入技术处理敏感用户节点和推文节点到同一低维特征空间;最后将嵌入结果融合到矩阵因子分解框架中,实现多源异构敏感实体的识别工作。通过在基于Twitter和Facebook两个异构社交网络的融合数据集中进行验证实验,并将多源数据与单源数据的识别结果进行对比,来验证将广度学习技术应用在多源异构社交网络中敏感实体识别工作的有效性和准确性,以期为新时代网络信息安全治理的“中国之治”提供参考。最后,本文对所提出的基于广度学习的异构社交网络敏感实体识别模型进行总结,并对广度学习技术在国家网络安全监察及反恐工作中的应用前景进行了分析与展望。
基于全文检索的敏感信息检测系统的设计与实现
这是一篇关于敏感信息,Elasticsearch,HDFS,中文分词,搜索结果排序的论文, 主要内容为Github已经成为当下最受欢迎的开源代码托管平台,越来越多的开发人员和企业将项目上传到Github平台上。开发人员由于疏忽和安全意识不足,将含有敏感信息的代码库上传到Github的公共区域,导致敏感信息泄露,带来了许多安全危害,因此,能够有效识别源码中的敏感信息的技术手段显得尤为重要。针对这种现状,本文基于Elasticsearch全文检索技术设计并实现了一个敏感信息检测系统,在保证搜索精确度和查询性能的基础上,能够根据关键词从海量源码文件中搜索出含有敏感信息的文档。本文深入研究了搜索引擎技术中常用的中文分词算法和排序算法。其中,中文分词算法包括:基于字符串匹配、基于词频统计以及基于语义分析等3种中文分词算法,使用基于字符串匹配算法实现的IK分词器对源码文本进行分词。排序算法包括IF-TDF算法、PageRank算法以及BM25算法,分析各个排序算法的原理和优缺点,改进BM25算法应用于搜索结果排序。考虑到数据量比较大,且数据还会持续增长,本文使用HDFS分布式文件系统来存储源码数据,优点是HDFS集群易扩展,可以通过增加节点的方式扩充存储容量,且数据不易丢失。缺点是HDFS不适合存储海量小文件,本文通过将一个项目中的所有小文件合并为一个大文件的方式解决了该问题。部署Elasticsearch集群作为搜索引擎提供全文检索功能,将HDFS集群中的源码文件读取并上传至Elasticsearch集群中,期间经过一系列优化方案提升了 Elasticsearch集群的索引性能和查询性能。基于对系统的需求分析、概要设计以及详细设计等,使用Spring Boot、Thmeleaf、MyBatis Plus、Layui等技术实现了敏感信息检测系统,最后对系统进行测试,测试结果符合预期。
基于内容相似性的电子文档敏感信息检测系统设计与实现
这是一篇关于敏感信息,涉密文档,内容相似性,文件指纹,检测策略的论文, 主要内容为如今企业信息化程度较高,企业内网电脑中的核心机密数据无处不在,由于缺少电子文档敏感信息的检测工具,导致含有涉密内容的文档泄露事件时常发生,造成了企业不可挽回的损失。为了能有效识别这些存在敏感信息的电子文档,防止泄密事件的发生,本文突破传统策略方法,提出新颖的检测策略,设计开发了一套基于文本内容相似性的电子文档敏感信息检测系统。首先,提出了基于文件指纹算法的文档检测策略。针对传统Simhash指纹算法存在的不足,通过改进特征项提取方式,提出了Kb S指纹算法、Pb S指纹算法和So P指纹算法,并分析了三种新型指纹算法在检测不同敏感文档上存在的优势。在此基础上,进一步探究涉密文档内容的不同程度修改对数字指纹汉明距离计算带来的影响,进而验证了指纹策略可以对内容改动的涉密文档敏感信息进行识别,同时为检测策略设置敏感阈值提供依据。其次,提出了基于语义VSM算法的文档检测策略。针对传统向量空间模型存在的缺陷,研究了基于词语语义的相似度计算方法,通过增加语义概念改进传统VSM,建立Hownet VSM相似度计算方法,并通过聚类实验验证改进算法在内容相似度计算上的优势。在此基础上,进一步探究过程文档与原涉密文档的相似度数值关系并进行分析,为语义VSM检测策略设置敏感阈值提供依据。最后,开发了电子文档敏感信息检测系统,并对其进行实现以及功能和性能的测试。设计了系统的整体结构、主要功能模块流程和数据库结构。在此基础上,完成了系统的前后端代码实现,建立测试实验,验证了本系统在电子文档敏感信息检测功能上有较高的准确率,并可以实现内容改动的敏感文档以及过程文档的识别功能;同时对系统的检测耗时进行分析,验证了本系统在检测性能上有良好表现。
基于广度学习的异构社交网络敏感实体识别模型研究
这是一篇关于广度学习,异构社交网络,敏感信息,实体识别的论文, 主要内容为近年来,随着人工智能、云计算等新兴网络信息技术的飞速发展和广泛运用,人类社会进入了全球化、信息化的网络时代,各类可以为用户提供不同种类服务的异构社交网络如雨后春笋般兴起并得到蓬勃发展。这些异构社交网络平台在为人们日常生活带来极大便利的同时,也为隐藏其中的敏感实体提供了良好的生存和发展空间。而由于异构社交网络所具有的用户匿名性、规模庞大性、结构复杂性等诸多特点,因而对国家安全部门在社交网络环境治理方面的工作提出了更高的要求。当前互联网中广泛存在着敏感实体利用社交网络进行极端主义思想传播和联络潜在人员等行为,为解决网络安全治理工作中敏感实体发现的首要问题,本文首先就敏感实体的概念进行了界定,并总结了其借助异构社交网络开展反动活动时的诸多特点,进而分析了在互联网时代开展跨多源异构社交网络进行敏感实体识别工作的必要性。然后基于上述分析,本文提出了一种基于广度学习的多源异构社交网络环境下敏感实体识别模型。该模型主要由有效信息提取、异构网络嵌入和敏感实体识别三个部分组成。首先,通过基于元路径的随机游走遍历策略生成节点序列并加以约束;然后采用基于广度学习的多源异构网络嵌入技术处理敏感用户节点和推文节点到同一低维特征空间;最后将嵌入结果融合到矩阵因子分解框架中,实现多源异构敏感实体的识别工作。通过在基于Twitter和Facebook两个异构社交网络的融合数据集中进行验证实验,并将多源数据与单源数据的识别结果进行对比,来验证将广度学习技术应用在多源异构社交网络中敏感实体识别工作的有效性和准确性,以期为新时代网络信息安全治理的“中国之治”提供参考。最后,本文对所提出的基于广度学习的异构社交网络敏感实体识别模型进行总结,并对广度学习技术在国家网络安全监察及反恐工作中的应用前景进行了分析与展望。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://m.bishedaima.com/lunwen/50410.html