给大家推荐5篇关于Web日志挖掘的计算机专业论文

今天分享的是关于Web日志挖掘的5篇计算机毕业论文范文, 如果你的论文涉及到Web日志挖掘等主题,本文能够帮助到你

基于Tomcat日志挖掘的个性化系统原型设计和实现

这是一篇关于个性化服务,Web日志挖掘,系统原型设计的论文, 主要内容为近年来,国内有大量的基于J2EE技术的网站系统投入运营,但是大部分的网站系统在设计和开发的过程中没有考虑用户可能因为网站信息资源过多而找不到信息的问题,同时也造成了例如像Tomcat等Web服务器所记录的日志信息没有得到充分利用的“资源浪费”问题。为了能够整合和解决这些问题,本文研究了Web使用挖掘理论,以Tomcat服务器的Web日志记录做为研究对象,对Web使用挖掘过程进行系统性分析和研究,在网站系统的设计和开发阶段引入Web日志挖掘技术为用户提供个性化服务,以达到提高用户获取信息质量的目的。本文主要是围绕个性化系统原型的设计与实现工作展开的,取得以下的研究成果: 1)在总结国内外关于Web日志挖掘的研究现状的基础上,探讨了Web日志挖掘的数据预处理的相关问题,对Web日志数据预处理的过程:数据清理、用户识别、会话识别、路径补全和帧页面过滤等五个部分进行了深入的研究和论述。在数据预处理的实现上设计了适合本文所设计系统的具体方案,并且对用户识别和路径补全的方法进行了适当的改进,简化预处理的难度,以提高编码实现的可行性。 2)在Web日志预处理的基础上,设计了一套基于Tomcat日志挖掘的个性化系统的设计方案。方案分为总体设计和详细设计。总体设计对个性化系统的构架进行了部署和规划,按照实际功能将系统分划为在线和离线两个部分。离线部分做为系统的核心,根据数据在系统中各个任务阶段的功能和形态又将其划分成了数据准备模块、数据挖掘模块和可视化模块。数据准备模块主要完成数据的收集和预处理任务;数据挖掘模块主要完成用户模型算法和挖掘模型算法的存储、数据挖掘和挖掘结果存储等任务;可视化模块主要完成对用户进行个性化的数据匹配和结果展示等任务。详细设计对这三个模块的具体实现方案做出了详尽的论述,给出了本文具体实施系统原型的细节和方法。 3)按照本文设计的设计方案,利用Java程序设计语言编写代码,对日志预处理方法和挖掘算法进行了实现,并对实验日志数据进行了实验和分析,然后采用JSP动态页面技术和AJAX技术迅速部署和实现了一套Web新闻信息管理系统,最后根据本文设计的个性化系统原型的实施方案,将日志挖掘的代码和成果无缝集成到该系统中,完成了本文个性化原型的实现任务,证明了本文设计方案的可行性和有效性。

基于关联规则Apriori算法的Web日志挖掘研究与实现

这是一篇关于数据挖掘,Apriori算法,Web日志挖掘,频繁项集,关联规则的论文, 主要内容为数据挖掘是指对数据仓库和数据库中的大量原始数据按照数据挖掘的目的进行知识开采、挖掘和分析，从而获得有趣知识和隐含模型的过程。随着互联网的快速发展，人们将数据挖掘技术应用于大量纷繁的Web数据中，以得到迫切需要的、潜在的、有价值的信息，因此产生了Web数据挖掘的研究。在Web数据挖掘中，Web日志挖掘是一个尤为重要的研究课题，通过Web日志挖掘，可以充分利用Web服务器上大量的日志文件，从中发现用户访问网站页面的模型和访问习惯，为电子商务网站管理员优化网站页面结构提供依据，从而为用户访问网站时提供便捷服务。如何发现数据仓库里数据项之间有意义的相互联系或依赖，是数据挖掘中的一个研究重点，并且由Agrawal等提出的关联规则Apriori挖掘算法是寻找频繁关联项集中最有影响的一种算法。本文的研究重点是针对数据挖掘中关联规则Apriori算法性能瓶颈提出优化方案，设计和实现Apriori改进算法，并开发Web日志挖掘应用系统，将Apriori改进算法封装并应用到该系统中，实现Web日志挖掘中寻找关联规则的完整操作过程。关联规则Apriori算法实现过程中需要多次扫描事务数据库，这样将会产生庞大的候选集和I/O负载，所以产生关联规则时，该算法在时间和空间上的开销很大，影响算法的效率。针对上述问题，本文在深入分析和研究Apriori算法的基础上，提出了一种改进方法，用来减少事务数据库中的事务数量，从而提高扫描事务数据库的效率。 Web日志挖掘的数据来源主要是Web服务器日志，这些日志文件中的数据包含了大量的可挖掘信息，但同时也是不完整的、含噪声的数据。要从这些数据中获得有益的关联规则模型，就需要对这些数据进行预处理。本文较为系统地分析了Web日志挖掘中的数据预处理，提出了一套日志挖掘数据预处理的方法，以改进日志中数据的质量。在此基础上应用改进后的关联规则Apriori算法进行Web日志挖掘，构建关联项集模型，并针对挖掘出的模型进行模型分析与模型评价。本文采用Struts2+Spring2.5+Hibernate3.2框架设计和实现了一套Web日志挖掘系统，并以图形方式在页面上展示关联规则模型，为Web日志分析者提供了一个操作简单并可直接观察到挖掘结果的Web日志挖掘平台。该平台主要通过Web方式向用户提供日志挖掘的整个过程。挖掘用户可以通过Web页面轻松地导入数据集，进行数据集预处理，通过指定最小支持度和最小可信度，得到所需要的关联规则模型，以及这些关联规则模型的分析和评价，以便挖掘用户对网站维护者提出优化网站的建议。

基于Web日志挖掘的智能推荐系统研究

这是一篇关于数据挖掘,Web日志挖掘,智能推荐,马尔可夫模型的论文, 主要内容为随着互联网技术的日益普及,网络被更加广泛的应用于人们生活、学习的各个领域。由于互连网上信息资源的极大丰富,信息服务的个性化越来越引起人们的重视。同时人们对信息获取的目的逐渐从查全转变为查准,满足特定用户的特定信息需求成为信息服务在新的网络环境中的服务目标。智能推荐系统(Intelligent Recommendation System)就在这个背景下应运而生。智能推荐系统是在互联网上使用数据挖掘,人工智能等技术,为客户提供智能化、个性化的服务,它能够向客户推荐页面或产品,并可以引导客户有针对性的对网页信息或某些产品信息进行关注。推荐系统的核心是推荐的方法,也是本文研究的重点。我们发现马尔可夫(Markov)模型简单易行,比较适合作为智能推荐系统的预测模型。但是,我们也发现了Markov模型的实现算法计算开销十分巨大,于是提出和聚类方法相结合的改进Markov方法,同时在算法中增加对页面访问时间和个体用户偏好的计算。新的方法首先有效降低了Markov方法的计算规模,提高了预测的效率。两个新的计算点的引入在一定的计算代价的基础上提高了预测的准确率。本文在最后,提出一个采用多Agent的智能推荐系统架构,并用本文研究的Markov模型方法对其主要功能做了阐述。

基于Apriori算法的高校Web日志挖掘系统研建

这是一篇关于Web日志挖掘,Apriori算法,关联规则,数据预处理的论文, 主要内容为伴随高校信息化建设工作的深入推进,更多的高校开始构建与自身发展实际相一致的数字化网站。数字化网站已经发展为学校管理人员与师生实现交流沟通的有力媒介,也是外部人员全面了解学校情况的关键平台。因此,高校网站设计合不合理直接影响到用户对学校的整体印象。考虑到网站访问量呈现持续增长趋势,网站为满足用户所需导致站点结构日趋复杂,部分网站表现有用户获取相关资源信息的效率下降、查览兴趣匮乏、页面间链接设计不够合理等问题。本文借助对关联规则以及Web日志挖掘等技术研究分析,对高校所需的Web日志挖掘系统完成全面的需求设计,运用SpringMVC、Spring、MyBatis、Maven、MySQL等技术,通过挖掘用户访问网站留在高校Web服务器上的大量日志,实现一套基于Apriori算法的高校Web日志挖掘系统,对改善站点结构、提高用户体验至关重要。联系高校发展实际将系统设计为用户管理等诸多功能模块。首先,系统对得到的原始Web日志信息完成导入、清洗处理以及用户识别等预处理控制;然后,设定最小支持度以及最小置信度,来挖掘得到用户实施访问控制的频繁路径信息,明确网站内页面间呈现的潜在关联关系;最后,系统以图表形式展示挖掘和分析结果,进而掌握用户的浏览习惯和站点整体访问情况,对站点结构调整及页面链接优化提供依据,为后续网站构建优化处理工作提供有效信息参照。