分享5篇关于网络蜘蛛的计算机专业论文

今天分享的是关于网络蜘蛛的5篇计算机毕业论文范文, 如果你的论文涉及到网络蜘蛛等主题,本文能够帮助到你

基于特征注入的XSS漏洞检测模型研究

这是一篇关于XSS漏洞,Web安全,漏洞检测,网络蜘蛛,Java Script特征的论文, 主要内容为跨站脚本(XSS)攻击是目前Web应用程序最大的安全问题之一。最近研究人员提出的漏洞检测模型XSS-SAFE通过Java Script的特征注入和Java Script源码注入消毒程序完成自动化的XSS攻击检测,该检测模型对五个真实项目进行了评估,结果表明XSS-SAFE漏洞检测模型具有较高的准确率、较低的运行载荷、较低的误报率。本文分析了XSS-SAFE漏洞检测模型的基本组件和关键技术,发现其存在两个不足之处:一是特征注入的位置冗余造成检测效率降低,同时导致误报率提高;二是XSS-SAFE偏差检测器正确率有待提高。本文针对XSS-SAFE模型存在的不足之处进行了改进和完善。具体的研究工作包括以下两个方面:1)基于分类特征和动态测试相结合完善了恶意代码和良好代码的分类方法。在特征注入之前通过分类特征和动态测试的方法完成恶意代码和良好代码的初步筛选,对特征注入器进行了改进,大幅度减少了特征插入位置。通过实验详细对比分析了改进后的效果。2)Apriori算法是一种快速获取频繁项集的算法,结合Apriori算法和FP-growth算法,探索了发现攻击向量特征频繁项集的新方法。对众多的XSS攻击语句进行分析,按照攻击向量的特征分类找到其频繁项集。其次对用户请求进行分析并通过FP-growth算法来高效过滤用户请求,最终降低了XSS-SAFE模型中偏差检测器模块特征对比次数,提高了模型的正确率和效率。

基于分类语义的Web信息检索系统

这是一篇关于Web信息检索,分类语义,Web信息抽取,网络蜘蛛,层次化展示的论文, 主要内容为随着WWW上信息资源数量成几何级数的增多，如何在海量数据空间中快速、准确的获取用户所需Web信息成为研究的焦点。本文设计并实现了一个基于分类语义的检索系统——SECS，该系统自动构建Web信息分类体系，通过Web数据抽取机制以及Web信息分类技术，实现了检索结果的分类和层次化展示，使用户面对海量的检索结果能够快速准确的定位所需信息。本文首先讨论了Web信息检索的相关背景及研究基础；然后提出一种新的web信息自动分类方法——通过web信息在网站结构中的位置实现自动分类；以此为基础，提出并设计了进行基于分类语义的检索系统——SECS的体系结构；实现了包括获取页面信息的高性能T-Spider程序在内的几种算法；最后通过实验，实现检索结果的分类和层次化展示。实验采用Java以及动态Web技术实现了SECS原型系统，系统部署在Window平台上，以Tomcat5作为JSP／Serlvet容器，SQL Server为数据库服务器。

基于分类语义的Web信息检索系统

基于Lucene的网页抓取与检索系统

这是一篇关于公共子序列,网络蜘蛛,Lucene,倒排索引,全文检索的论文, 主要内容为随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息已经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。本文对Web信息检索和系统实现的相关理论与技术作了介绍,对信息检索在Web全文信息检索中的应用进行了较深入的实践。在第二章,介绍了论文的相关的理论,如搜索引擎的种类,中文分词的方法,倒排索引的理论和本论文之中所用到的Lucene的理论与使用方法,在第三章,根据网页的特点,提出两种网页模板的分析算法,第一种算法基于最长公共子序列模型,利用动态规划的方法求出最优解,对于原文献的算法的进行了优化和扩展,以达到求出网页模板字符串和被插入字符串的目的,第二种算法利用统计学的相关理论与原理,将网页模板抽象成为一个数学模型,提取出网页的常见标识在网页的开始位置与结束位置,根据正文的长度的不同算出不同的方差,确定正文在原文之中的位置,从而可以从网页之中提取出正文的内容,以达到节省空间和减少建立索引与搜索索引的时间的目的,最后比较了两种算法的优点与缺点。在第四章中,介绍了一个利用Java开发的网络蜘蛛,其中包括异构的数据的处理,例如word, pdf, rtf等文件的内容的提取,另外介绍了一种HTML文件解析方法和多线程的使用。在第五章,实现了一个网页抓取系统,自动地从互联网下载用户所指定的网页的信息,包括内容与下一页,为了提高信息检索的效率,利用Lucene软件包,建立全文检索,加快了搜索的速度,提高了信息的准确性和时效性,节省了大量的存储空间。本文从理论和实际的角度出发,既有算法的设计与分析,也有具体的程序的实现,使用了Oracle, Tomcat, Jsp, Java, Eclipse, Lucene等软件和语言,独创一个HTML的解析方法,为用户节省时间,提高了工作效率。