给大家推荐5篇关于网页去重的计算机专业论文

今天分享的是关于网页去重的5篇计算机毕业论文范文, 如果你的论文涉及到网页去重等主题,本文能够帮助到你

基于Web页面特征的反钓鱼系统的设计与实现

这是一篇关于反钓鱼,URL特征,网页分类,网页去重的论文, 主要内容为当今的互联网环境中,网络木马与病毒肆虐的同时,也充斥着大量的钓鱼网站。网络钓鱼是一种网络欺诈手段,攻击者精心设计一个与目标网站十分相似的钓鱼网站,或具有虚假信息的网站,一旦受害者访问该网站并轻信网站的内容,攻击者就可能从中获取受害者的敏感信息,如账号、密码等,或者造成直接财产损失。网络钓鱼是一种利用社会工程学手段的攻击方式,钓鱼网站的制作不需要太多的技术含量,而是利用人的心理弱点进行欺骗,因此钓鱼网站曾经是最易被忽视的网络安全问题。网络钓鱼给互联网安全造成了重大威胁,严重损害了网络用户的利益。刚刚结束不久的2013年“双11”各大电商创造了网络交易的新神话,同时也给网络钓鱼带来了欺诈的好时机,根据中国反钓鱼网站联盟钓鱼网站处理简报的数据,2013年10月联盟处理的钓鱼网站数量近同年9月的两倍,并且支付交易类,金融证券类等可以直接给网络用户造成财产损失的钓鱼网站的总数,占钓鱼网站总量的大半,因此打击钓鱼网站是互联网各界义不容辞的责任。本文的目的是设计并实现反钓鱼系统,下面对本文的研究内容以及主要工作进行归纳： 1、本文综述了目前主要的反网络钓鱼技术,包括基于黑白名单的网络钓鱼检测机制,基于页面内容的启发式网络钓鱼检测机制,基于视觉相似的网络钓鱼检测机制,并且对上述三种反钓鱼技术的优缺点进行了归纳总结。本文根据各大互联网安全报告、中国反钓鱼网站联盟提供的数据等资料以及通过对互联网实时检测的钓鱼网站结果的长期研究,总结出了钓鱼网站存在的四个趋势。 2、本文结合现有的反钓鱼技术以及钓鱼网站存在的趋势,对反钓鱼系统进行了概要设计,对不同特点的钓鱼网站采用不同的检测方式。本文根据钓鱼网站高度模仿目标网站的特性,引入了网页分类技术对这部分钓鱼网站进行重点检测。由于网络钓鱼的制作已经形成了完整的产业链,钓鱼网站存在批量生产的特性,本文据此特性引入了网页去重技术,利用已经获取的钓鱼网站检测与之相似的钓鱼网站。 3、本文通过挖掘钓鱼网站URL的特征以及页面内容的特征对反钓鱼系统进行了编码实现。

基于Web页面特征的反钓鱼系统的设计与实现

面向社交媒体的网络爬虫的研究与优化

这是一篇关于分布式网络爬虫,布隆过滤器,网页去重,Hadoop的论文, 主要内容为随着网络技术的高速发展,社交媒体逐渐深入并影响着人们生活的各个方面,其产生的数据类型呈现数据量大,数据种类多,实时性强,高价值的特点,用户要抓取这些数据并研究需要用到网络爬虫技术。分布式网络爬虫为人们抓取大规模数据提供了技术支撑,Hadoop平台是由Apache领导开发的一个优质的开源大数据处理框架。本文所研究的面向社交媒体的分布式网络爬虫就是基于此框架设计和实现的,主要的工作内容包括以下几个方面:1.设计了一个面向社交媒体的分布式网络爬虫,以新浪微博为数据源,将抓取到的数据存储到HBase数据库之中。对面向社交媒体的爬虫系统进行了总体设计,主要是爬虫系统的概要设计、工作流程设计、功能模块划分,并对系统进行了详细的设计和实现。2.本文研究的主要目的是针对面向社交媒体用户群体多和产生的数据量大的特点,给出面向社交媒体的分布式爬虫系统的优化方案。通过布隆过滤器对抓取到的用户URL(Uniform Resource Locator)进行去重,再利用爬虫对去过重的URL集进行遍历从而实现社交媒体数据的获取。由于布隆过滤器本身存在误判的缺陷,从而改进算法,降低该算法的误判率并在Hadoop平台进行实现,应用到面向社交媒体的网络爬虫系统中。3.在实验室服务器上搭建8个节点的Hadoop集群,并对Hadoop集群进行相关的环境配置,本文设计的爬虫系统是在该机群上实现的。之后把获取到的社交媒体用户的URL在配置好的环境上进行测试,查验改进的布隆过滤器算法的去重效果,并测试面向社交媒体的网络爬虫系统的功能性。实验结果表明,本文改进的布隆过滤器算法的误判率明显降低,并且在分布式网络爬虫系统中网页去重模块拥有良好的去重效果,从而优化分布式网络爬虫系统提升数据抓取效率。

面向分布式的通用网络爬虫系统关键技术研究与实现

这是一篇关于分布式,网络爬虫,Kubernetes,时效性调度,网页去重的论文, 主要内容为随着互联网的飞速发展,网络上的数据呈指数增长。用户获取信息的一个重要途径就是通过搜索引擎,搜索引擎通过抓取全网数据来为用户提供搜索。中小型的数据抓取需求使用单机爬虫即可满足,然而在遇到大型的数据抓取需求时,为了提高整体网络爬虫系统的性能,需要借助分布式技术,通过有效的分工和多台机器之间的协作来提高抓取效率。现有的分布式网络爬虫框架在扩展性和可用性上不够完善,本文提出的面向分布式的通用网络爬虫系统采用当前较为成熟的分布式技术,使得爬虫系统在数据抓取的各方面都有优异的表现。本文的主要工作如下:1)给出了一种基于历史数据的时效性种子页面调度算法。调度模块是网络爬虫系统的核心模块,调度算法的质量直接影响到整个系统的成本和效率。针对种子页面调度不灵活的问题,提出了基于历史数据的时效性调度算法。同时,利用回归预测算法计算模型后,应用在调度模块中,使得算法在成本、命中率、延时上都获得了比较好的效果。2)给出了一种URL归一化去重的挖掘算法。URL去重是影响网络爬虫性能的另一重要因素,去重可以为系统节约大量的存储空间,并且提高后续使用数据时的检索效率。本文通过对去重模块提出挖掘规则来改善URL归一化的效果,减少页面的重复率。同时,对镜像站和无效参数方面的挖掘进行实现,达到了极高的准确率和良好的召回率。3)在上述工作的基础上,设计并实现了分布式通用网络爬虫系统,并确定了分布式系统的物理架构、逻辑架构和数据格式信息。首先,采用Kubernetes来对模块进行管理,用Kafka和Thrift作为模块间的管道,借助日志系统和时序数据库对系统进行可用性监控;然后,对各个模块做了详细的设计,并且应用了调度算法和去重的技术来改造部分模块;最后,经过性能测试后,本文分析了该系统的优缺点,对该系统的实验结果进行了评估。