基于微服务和大数据融合框架的异常检测系统的研究与实现
这是一篇关于异常检测,微服务框架,大数据框架,频繁模式挖掘,框架融合的论文, 主要内容为随着互联网和息技术的发展,信息呈现出爆炸式的增长,进入大数据时代。大数据处理平台在国家治理、商业决策、市场拓展等都产生着巨大的积极作用。然而,社会各界在享受这样巨大红利的同时,也面临着信息安全所带来的问题。在这个时代,互联网作为数据传播的主要渠道,Web服务是其使用最广泛、便捷的服务。随着Web服务的广泛使用,对Web服务的攻击也伴随着增加。传统的安全产品是从网络层或者传输层对系统防护,克服传统安全产品的局限性,从应用层对系统进行防护,成为迫切的需要。本文将根据应用层数据来分析Web服务的安全状况,并研发一套异常检测系统来防护Web服务。本文的工作来源于福建省科技计划项目“大数据平台实时异常检测分析系统(Real time Anomaly Detection and Analysis System,简称 RADA)的关键技术研究及产业化”。在项目己有研究的关键技术基础之上,结合项目的具体任务和需求,采用微服务框架和大数据lambda框架构建了本项目的基本系统架构,研究了一套具有异常检测、异常定位、运行状况分析等功能的系统(RADA)的实现方法,并对RADA系统中实现异常检测挖掘分析时的关键算法--分布式频繁序列挖掘算法进行了研究。RADA系统易于部署、易于拓展、易于管理。本文主要工作如下:1所构建的RADA系统中,整合了基于微服务框架开发系统所使用的相关软件技术,包括Spring Boot、MyBatis、Spring Cloud,以及用于大数据分析的lambda框架及相关软件技术,包括HDFS、Flume、Kafka、Spark。2针对该项目RADA系统实际应用场景,本文进行了详细的需求分析。根据微服务框架和大数据lambda框架,创新性构建出了这两种框架融合的系统架构,并进行了总体设计。3对系统进行了详细设计,展示了微服务框架和lamda框架的实现方式,并重点对系统中涉及到融合技术的实例进行了详细的设计与实现。4针对现有的分布式频繁序列挖掘慢的问题,提出一种基于Spark的最大频繁模式挖掘算法SparkMFPs。该算法在构造投影数据库时删除非频繁序列,同时在进行深度频繁模式递归搜索时一次性生成最大频繁序列候选集。在测试集上实验证明了 SparkMFPs能够高效地挖掘出频繁序列。该算法是本项目中的关键算法。综上所述,本文基于微服务框架和大数据lambda框架技术所提出的融合框架,为基于大数据技术的异常检测系统的实现提供了有益的参考;同时,本文所提出的SparkMFPs新算法能高效地进行分布式异常检测,为本项目成果的产业化提供了重要的保证。
基于并行频繁模式挖掘算法的博客推荐系统的设计与实现
这是一篇关于博客推荐,MapReduce,SSH,频繁模式挖掘的论文, 主要内容为随着互联网技术的飞速发展,人们生活中充满着各类数据。近年来,博客作为社交平台的产物,吸引越来越多的人在网上写博客,用来记录他们的学习近况。当前博客网站在推荐首页上展示的通常是网上热门的博客,如果要对某一领域推荐则需要关注该领域专栏或博主,然后推荐他们的博客,很少考虑从博客收藏功能入手研究个性化推荐。本文将频繁模式挖掘算法与MapReduce结合,对博客记录数据进行挖掘,并针对上述博客网站的不足,从博客的收藏功能出发提出了个性化推荐思想。它是在博客记录资源的频繁项中寻找与用户收藏博客有关联的博客并经过匹配处理后排序取出,然后推荐给用户。为了直观显示博客的个性化推荐功能,本文使用SSH框架设计和实现了博客推荐系统。本文在博客基本功能上新增算法运行和任务监控功能,可以远程调用Hadoop云平台在线运行算法。同时算法运行后的数据要经过解析并下载到本地数据库,根据此数据文件和用户收藏的博客进行个性化推荐。本文在众多学者使用协同过滤作为推荐算法的背景下,利用频繁模式挖掘算法对推荐系统进行研究,提出个性化推荐算法模型,并用博客系统展示了推荐结果。
基于频繁模式挖掘的知识图谱关联实体排序
这是一篇关于频繁模式挖掘,知识图谱,关联实体排序,图表示学习,开放世界假设的论文, 主要内容为关联实体是知识的直观表达方式,知识图谱(Knowledge Graph,KG)包含大量三元组形式的关联实体,为知识驱动的应用提供结构化资源。给定查询,KG关联实体排序通过量化评价关联强度,明确候选实体的先后顺序。KG关联实体排序是实体链接、实体推荐、关联查询和关联实体推理等面向实体应用的重要环节。同时,KG关联实体排序是增强智能系统在知识发现、融合和计算过程中关联分析能力的关键要素,具有重要意义。KG显式的链接数据及规范的实体描述,是关联实体排序的主要依据,然而,KG存在封闭性和不完备性。Web环境下,动态演变的数据蕴含着类型丰富、实时新颖的关联特征,为精准衡量关联强度提供了外部资源。频繁模式挖掘是基于共现原理,面向依赖分析的典型算法,结合Web来源数据可有效发现KG外隐含、潜在的关联特征。频繁模式挖掘算法采用自底向上方式,适用于多种数据类型,是融合KG和Web资源的技术基础。同时,图模型具备简练高效的关联表达和信息建模能力,是整合多类型关联特征的可行框架。因此,本文提出基于频繁模式挖掘的实体依赖图模型(Entity Dependency Graph Model,EDGM),通过图表示学习获取关联强度,进而实现关联实体排序。本文的主要研究内容可以概括如下:(1)针对KG和Web中多源异构数据形式不统一、实体存在歧义、关系不明确等问题,定义EDGM,借助KG关联特征召回候选实体,提出基于频繁模式挖掘对图模型结构进行学习的算法,将不同来源的关联实体整合到统一框架。(2)针对基于局部共现和单一关联因素方法存在的局限性,综合频率、共现和KG类型相似度等不同层面的关联特征,通过定义EDGM权重的性质,给出一种从全局视角融合多种特征的关联强度量化计算方法,增强了模型的全面性和可扩展性。(3)根据EDGM的属性和特点,改进原有节点序列采样机制,提出一种带扩展队列的随机游走采样算法,提升实体向量对EDGM图结构上下文关联性质的表征能力。(4)基于真实世界数据集,选择多组对比方法,对EDGM的排序结果进行有效性测试,并分析超参数对图结构学习和排序指标的影响。实验结果表明,本文提出的基于EDGM的关联实体排序结果,与金标准保持较高的一致性,也具备较好的稳定性。
基于频繁模式挖掘的运维知识提炼系统的设计与实现
这是一篇关于运维知识,数据离散化,频繁模式挖掘,序列模式挖掘的论文, 主要内容为随着计算机技术的蓬勃发展,系统采集指标数量不断增加,业界产生了海量的运维数据,人们已经难以从海量数据中提炼出知识,形成专家经验,作为传统运维方式阈值设置的参考依据和作为分析告警原因和查询监控指标间关联的凭证。因此,如何通过数据挖掘相关方法,提炼运维数据中有效信息是当前的研究热点。频繁模式挖掘是一种有效的数据挖掘方法,但是面向特征复杂的运维数据,传统频繁模式挖掘算法的挖掘结果不够全面,挖掘效率低下。鉴于此,本文提出一种将频繁模式挖掘应用于运维数据挖掘的框架,以不同的方法进行挖掘不同特征的运维数据,提高提炼运维知识的有效性和效率。针对多维密集型的监控指标数据,首先,提出一种适用于所有指标的离散化方法将监控数据离散化,然后,定义并提出跃变频繁模式挖掘方法,作为传统挖掘方法的补充。针对稀有且聚集的告警数据,本文提出一种不完全最长序列模式挖掘方法,用于高效提取频繁告警序列,辅助告警排查。本文的主要研究内容如下:1.监控指标数据的知识提炼。针对频繁模式挖掘算法无法处理连续型数据和传统频繁模式和序列模式挖掘算法挖掘的监控指标数据结果不全面的问题,本文首先利用聚类算法结合箱型图法剔除异常数据,并使用趋势预测算法填充缺失值;然后,基于峰值检测、滤波的思想,提出一种通用的分布检测算法来提取海量指标的数据分布区间,以此将数据离散化;最后,挖掘并融合传统频繁模式和序列模式,形成一种跃变频繁模式,作为传统频繁模式和序列模式的补充,使用户更直观的了解指标变化对系统造成的影响。2.告警数据的知识提炼。针对传统最长频繁序列模式挖掘算法挖掘稀有且包含大量长频繁项的告警数据的耗费时间长的问题,提出了一种不完全最长序列模式挖掘方法。该方法简化了最长序列模式挖掘算法的搜索候选集中非最长序列模式的过程,提高了告警数据运维知识提炼的效率。3.系统实现与部署。设计并实现了基于微服务架构的运维知识提炼系统,该系统集成了数据预处理、监控指标数据频繁模式挖掘和告警数据频繁模式挖掘模块,并根据实际业务需求,实现了历史数据分析和在线数据检测功能,有效提高了运维智能化水平。
基于频繁模式挖掘的知识图谱关联实体排序
这是一篇关于频繁模式挖掘,知识图谱,关联实体排序,图表示学习,开放世界假设的论文, 主要内容为关联实体是知识的直观表达方式,知识图谱(Knowledge Graph,KG)包含大量三元组形式的关联实体,为知识驱动的应用提供结构化资源。给定查询,KG关联实体排序通过量化评价关联强度,明确候选实体的先后顺序。KG关联实体排序是实体链接、实体推荐、关联查询和关联实体推理等面向实体应用的重要环节。同时,KG关联实体排序是增强智能系统在知识发现、融合和计算过程中关联分析能力的关键要素,具有重要意义。KG显式的链接数据及规范的实体描述,是关联实体排序的主要依据,然而,KG存在封闭性和不完备性。Web环境下,动态演变的数据蕴含着类型丰富、实时新颖的关联特征,为精准衡量关联强度提供了外部资源。频繁模式挖掘是基于共现原理,面向依赖分析的典型算法,结合Web来源数据可有效发现KG外隐含、潜在的关联特征。频繁模式挖掘算法采用自底向上方式,适用于多种数据类型,是融合KG和Web资源的技术基础。同时,图模型具备简练高效的关联表达和信息建模能力,是整合多类型关联特征的可行框架。因此,本文提出基于频繁模式挖掘的实体依赖图模型(Entity Dependency Graph Model,EDGM),通过图表示学习获取关联强度,进而实现关联实体排序。本文的主要研究内容可以概括如下:(1)针对KG和Web中多源异构数据形式不统一、实体存在歧义、关系不明确等问题,定义EDGM,借助KG关联特征召回候选实体,提出基于频繁模式挖掘对图模型结构进行学习的算法,将不同来源的关联实体整合到统一框架。(2)针对基于局部共现和单一关联因素方法存在的局限性,综合频率、共现和KG类型相似度等不同层面的关联特征,通过定义EDGM权重的性质,给出一种从全局视角融合多种特征的关联强度量化计算方法,增强了模型的全面性和可扩展性。(3)根据EDGM的属性和特点,改进原有节点序列采样机制,提出一种带扩展队列的随机游走采样算法,提升实体向量对EDGM图结构上下文关联性质的表征能力。(4)基于真实世界数据集,选择多组对比方法,对EDGM的排序结果进行有效性测试,并分析超参数对图结构学习和排序指标的影响。实验结果表明,本文提出的基于EDGM的关联实体排序结果,与金标准保持较高的一致性,也具备较好的稳定性。
基于微服务和大数据融合框架的异常检测系统的研究与实现
这是一篇关于异常检测,微服务框架,大数据框架,频繁模式挖掘,框架融合的论文, 主要内容为随着互联网和息技术的发展,信息呈现出爆炸式的增长,进入大数据时代。大数据处理平台在国家治理、商业决策、市场拓展等都产生着巨大的积极作用。然而,社会各界在享受这样巨大红利的同时,也面临着信息安全所带来的问题。在这个时代,互联网作为数据传播的主要渠道,Web服务是其使用最广泛、便捷的服务。随着Web服务的广泛使用,对Web服务的攻击也伴随着增加。传统的安全产品是从网络层或者传输层对系统防护,克服传统安全产品的局限性,从应用层对系统进行防护,成为迫切的需要。本文将根据应用层数据来分析Web服务的安全状况,并研发一套异常检测系统来防护Web服务。本文的工作来源于福建省科技计划项目“大数据平台实时异常检测分析系统(Real time Anomaly Detection and Analysis System,简称 RADA)的关键技术研究及产业化”。在项目己有研究的关键技术基础之上,结合项目的具体任务和需求,采用微服务框架和大数据lambda框架构建了本项目的基本系统架构,研究了一套具有异常检测、异常定位、运行状况分析等功能的系统(RADA)的实现方法,并对RADA系统中实现异常检测挖掘分析时的关键算法--分布式频繁序列挖掘算法进行了研究。RADA系统易于部署、易于拓展、易于管理。本文主要工作如下:1所构建的RADA系统中,整合了基于微服务框架开发系统所使用的相关软件技术,包括Spring Boot、MyBatis、Spring Cloud,以及用于大数据分析的lambda框架及相关软件技术,包括HDFS、Flume、Kafka、Spark。2针对该项目RADA系统实际应用场景,本文进行了详细的需求分析。根据微服务框架和大数据lambda框架,创新性构建出了这两种框架融合的系统架构,并进行了总体设计。3对系统进行了详细设计,展示了微服务框架和lamda框架的实现方式,并重点对系统中涉及到融合技术的实例进行了详细的设计与实现。4针对现有的分布式频繁序列挖掘慢的问题,提出一种基于Spark的最大频繁模式挖掘算法SparkMFPs。该算法在构造投影数据库时删除非频繁序列,同时在进行深度频繁模式递归搜索时一次性生成最大频繁序列候选集。在测试集上实验证明了 SparkMFPs能够高效地挖掘出频繁序列。该算法是本项目中的关键算法。综上所述,本文基于微服务框架和大数据lambda框架技术所提出的融合框架,为基于大数据技术的异常检测系统的实现提供了有益的参考;同时,本文所提出的SparkMFPs新算法能高效地进行分布式异常检测,为本项目成果的产业化提供了重要的保证。
基于频繁模式挖掘的知识图谱关联实体排序
这是一篇关于频繁模式挖掘,知识图谱,关联实体排序,图表示学习,开放世界假设的论文, 主要内容为关联实体是知识的直观表达方式,知识图谱(Knowledge Graph,KG)包含大量三元组形式的关联实体,为知识驱动的应用提供结构化资源。给定查询,KG关联实体排序通过量化评价关联强度,明确候选实体的先后顺序。KG关联实体排序是实体链接、实体推荐、关联查询和关联实体推理等面向实体应用的重要环节。同时,KG关联实体排序是增强智能系统在知识发现、融合和计算过程中关联分析能力的关键要素,具有重要意义。KG显式的链接数据及规范的实体描述,是关联实体排序的主要依据,然而,KG存在封闭性和不完备性。Web环境下,动态演变的数据蕴含着类型丰富、实时新颖的关联特征,为精准衡量关联强度提供了外部资源。频繁模式挖掘是基于共现原理,面向依赖分析的典型算法,结合Web来源数据可有效发现KG外隐含、潜在的关联特征。频繁模式挖掘算法采用自底向上方式,适用于多种数据类型,是融合KG和Web资源的技术基础。同时,图模型具备简练高效的关联表达和信息建模能力,是整合多类型关联特征的可行框架。因此,本文提出基于频繁模式挖掘的实体依赖图模型(Entity Dependency Graph Model,EDGM),通过图表示学习获取关联强度,进而实现关联实体排序。本文的主要研究内容可以概括如下:(1)针对KG和Web中多源异构数据形式不统一、实体存在歧义、关系不明确等问题,定义EDGM,借助KG关联特征召回候选实体,提出基于频繁模式挖掘对图模型结构进行学习的算法,将不同来源的关联实体整合到统一框架。(2)针对基于局部共现和单一关联因素方法存在的局限性,综合频率、共现和KG类型相似度等不同层面的关联特征,通过定义EDGM权重的性质,给出一种从全局视角融合多种特征的关联强度量化计算方法,增强了模型的全面性和可扩展性。(3)根据EDGM的属性和特点,改进原有节点序列采样机制,提出一种带扩展队列的随机游走采样算法,提升实体向量对EDGM图结构上下文关联性质的表征能力。(4)基于真实世界数据集,选择多组对比方法,对EDGM的排序结果进行有效性测试,并分析超参数对图结构学习和排序指标的影响。实验结果表明,本文提出的基于EDGM的关联实体排序结果,与金标准保持较高的一致性,也具备较好的稳定性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://m.bishedaima.com/lunwen/50646.html