网上作业批阅系统的设计与实现
这是一篇关于Flex,MVC,Apriori,向量空间模型,SSH的论文, 主要内容为作业是衡量学校日常教学情况的重要标准之一,然而目前传统作业的流转方式已经跟不上现代化教学模式的发展,存在周期长、各节点脱节严重、数据资源浪费等缺点。教育信息化是教学过程的信息化,而作业布置、批阅、讲评、订正、分析这一系列过程则是教学过程中的核心环节。在未来几年中,网上作业批阅系统必将成为当前教育部热推的电子书包项目的必备配套产品,并将随之在各级学校中得到广泛运用。随着时间的推移,必将带来教育信息数据的快速增长,那么数据的质量提高和深层次挖掘显得尤为必要。 本文对国内外现有的网上作业系统进行了详细分析,发现国内外系统在实施过程中仍然存在着许多问题。因此,本文在现有系统的基础上,设计并实现了新一代的网上作业批阅系统。 本文利用Flex、Ajax等开发技术,结合MVC设计模式,以Maven为项目构建工具,分析并搭建了基于SSH框架的基础架构。根据教育学、系统科学方法论和软件工程的基本理论,结合传统的作业批阅特点,分析了系统功能性和非功能性需求。功能性需求包括教师、学生、后台维护、教学资源配置管理、统计分析、站内信、图像扫描等模块功能;非功能性需求包括系统安全性、完整性、并发性、数据定时清理以及友好的人机界面等。同时,本文还提出了设计过程中需要遵守的架构设计原则,对系统进行架构设计和详细的业务流程设计,并对业务功能中关键问题的实现进行了阐述。 为了进一步提高作业批阅所产生数据的利用率和质量,本文运用了Apriori和文本相似度算法。为了降低磁盘的I/O压力,提高检索效率,在Apriori经典算法的基础上,提出一种改进的Apriori算法,并运用改进后的算法分析与学生成绩相关的关联因素。在文本相似度方面,本文运用中文分词、构向量空间模型、特征项和权重等理论,构建出相应算法来实现相似任务题的查询。 本文取得的主要成果: 1)设计并搭建了基于SSH框架的跨平台、跨浏览器的系统平台,同时成功运用Flex、Ajax等开发技术实现作业批阅和各用户间的交互,增强了用户体验。 2)运用面向对象的思想,利用UML建模工具,实现了系统的需求分析和设计,增强了系统可复用性和可扩展性。 3)针对当前中小学作业批阅特点和需求,对作业批阅业务系统进行全面分析与设计,弥补了现有系统业务功能的不足,功能上更加全面,同时对系统的实施、管理进行了优化设计,提高了访问效率。 4)通过经典的Apriori算法,提出一种改进后的Apriori算法,并对数据进行深层次的挖掘,发现数据内部的关联关系,提高了数据利用率。 5)利用中文分词、特征项、TF—IDF权重、空间向量模型理论,构建文本相似度算法,查找出相似任务,从而提高了数据质量。 6)在系统实现的整个过程中,利用Maven实现了自动化的项目构建、测试和持续集成机制,使得系统具有的高可重用性、易维护性。
基于主题网络爬虫的汽车行业多元信息web系统设计与实现
这是一篇关于主题网络爬虫,向量空间模型,搜索策略,汽车行业信息的论文, 主要内容为伴随着汽车行业的高速发展,行业竞争愈发激烈,本土汽车企业兼并加剧、国外大型跨国企业纷纷入驻、原材料价格不断上涨、消费者的需求不断变化、整车行业整体利润下滑,迫使着汽车企业需要更加全面的了解与市场相关的信息:汽车行业动态、行业政策法规动态、零部件价格等信息。这些信息大量存在于互联网中,然而传统、主流地信息获取工具:通用搜索引擎目前在面向专业人士在专业领域上检索相关信息时,存在着返回信息不精准、不全、更新不及时等问题;同时,主流汽车行业相关网站又以汽车产品消费者提为主要服务对象。汽车企业用户想通过互联网获取相关行业信息,并不是特别方便。针对通用搜索引擎存在的缺陷,主题网络爬虫技术应运而生,主题爬虫技术能自动的从互联网上采集与主题相关的网页,回避无关网页。因此,建立一个基于主题网络爬虫的汽车行业多元信息web系统解决汽车企业用户获取需求信息的不便,达到了解市场行情的目的,进而帮助汽车企业制定市场战略,提高企业市场竞争力是有必要的。本文的目标是建立一个汽车企业用户的汽车行业多元信息web系统,为企业用户提供汽车行业新闻资讯、行业政策法规、汽车零部件价格等信息,研究的主要内容如下:首先,在汽车行业竞争日益激烈和通用搜索引擎采集信息存在的不足的背景下,引出通过主题网络爬虫技术采集汽车行业相关信息的话题。在此基础之上讨论了汽车行业资讯、汽车产业政策法规、汽车零部件价格信息三者的现实需求。其次,在需求分析的基础上结合主题网络爬虫技术设计了系统总体解决方案。再次,对于主题网络爬虫,研究了其架构和工作原理,在架构的研究基础上,对各个模块的实现技术展开深入研究,包括在对网页的解析,对网页正文的分词技术的研究;对当前主流的主题基准模型展开研究,结合本文实际需求,选定向量空间模型为本文的主题基准模型;对当前主流关键字赋权的计算法TF和TF-IDF展开研究;对主题网络爬虫当前主流的搜索策略展开研究,在此基础上设计了本文基于网页文本和链接结构的综合搜索策略。最后,在对前文所有研究的基础上,开发实现了基于主题网络爬虫的汽车行业多元信息web系统。
面向定题领域的事件驱动和协议驱动的主题爬虫应用研究
这是一篇关于主题爬虫,深层主题爬虫,事件驱动,协议驱动,中文分词,向量空间模型的论文, 主要内容为网络数据根据呈现的结构被分为表层网页数据和深层网页数据,深层网络数据占网络数据的大部分。由于通用主题爬虫注重抽取表层网络数据,没有重视深层网页数据的抓取,查全率不高;另外通用爬虫返回的结果多而杂乱,且内容的准确率不高。因此,一个能抓取深层网络数据的,且返回的网页数据的准确度能达到用户需求的主题爬虫是当前研究课题的主要问题。本文针对定题领域,采用事件驱动模式和协议驱动模式,结合定题的主题网页特征,构建定题爬虫应用模型。本文主要工作有: 1.研究了主题爬虫的相关理论和相关算法。探索事件驱动的触发方式,提高了传统主题爬虫的召回率;提出结合布尔模型和向量空间模型的方式来计算主题相关性,比较了使用布尔模型与使用布尔和向量空间模型结合的主题相关性预测的两种方式,分析表明后者在定题的相关性结果上更准确。 2.提出了基于事件驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬全率。该模型用事件驱动方式抓取深层网页。在链接分析时使用布隆过滤器去重。在链接相关性预测时采用基于链接的BM字符串匹配算法结合主题链接特征条件,降低了链接匹配和网页下载的开销;使用基于向量空间模型的内容过滤算法,把匹配到的主题关键字射映到向量空间模型中对应的项,提高了链接预测的准确性。该模型以车型参数作为定题主题,实现了该领域信息的自动抽取和解析,提高了网页召回率。 3.建立了基于协议驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬准率。提出了在特定领域分词时采用正向最大字符串匹配法结合正向主题关键词特殊匹配法,该方法能切出更多的主题关键词,提高了抓取信息的准确性,并降低了误过滤主题相关的数据。在链接预测时结合了布尔模型和向量空间模型,提高了链接预测的准确性。该模型以旋转机械故障诊断知识作为主题,展开了对该主题爬虫的应用研究。实验结果表明,抓取结果网页集与主题的相关性高。
网上作业批阅系统的设计与实现
这是一篇关于Flex,MVC,Apriori,向量空间模型,SSH的论文, 主要内容为作业是衡量学校日常教学情况的重要标准之一,然而目前传统作业的流转方式已经跟不上现代化教学模式的发展,存在周期长、各节点脱节严重、数据资源浪费等缺点。教育信息化是教学过程的信息化,而作业布置、批阅、讲评、订正、分析这一系列过程则是教学过程中的核心环节。在未来几年中,网上作业批阅系统必将成为当前教育部热推的电子书包项目的必备配套产品,并将随之在各级学校中得到广泛运用。随着时间的推移,必将带来教育信息数据的快速增长,那么数据的质量提高和深层次挖掘显得尤为必要。 本文对国内外现有的网上作业系统进行了详细分析,发现国内外系统在实施过程中仍然存在着许多问题。因此,本文在现有系统的基础上,设计并实现了新一代的网上作业批阅系统。 本文利用Flex、Ajax等开发技术,结合MVC设计模式,以Maven为项目构建工具,分析并搭建了基于SSH框架的基础架构。根据教育学、系统科学方法论和软件工程的基本理论,结合传统的作业批阅特点,分析了系统功能性和非功能性需求。功能性需求包括教师、学生、后台维护、教学资源配置管理、统计分析、站内信、图像扫描等模块功能;非功能性需求包括系统安全性、完整性、并发性、数据定时清理以及友好的人机界面等。同时,本文还提出了设计过程中需要遵守的架构设计原则,对系统进行架构设计和详细的业务流程设计,并对业务功能中关键问题的实现进行了阐述。 为了进一步提高作业批阅所产生数据的利用率和质量,本文运用了Apriori和文本相似度算法。为了降低磁盘的I/O压力,提高检索效率,在Apriori经典算法的基础上,提出一种改进的Apriori算法,并运用改进后的算法分析与学生成绩相关的关联因素。在文本相似度方面,本文运用中文分词、构向量空间模型、特征项和权重等理论,构建出相应算法来实现相似任务题的查询。 本文取得的主要成果: 1)设计并搭建了基于SSH框架的跨平台、跨浏览器的系统平台,同时成功运用Flex、Ajax等开发技术实现作业批阅和各用户间的交互,增强了用户体验。 2)运用面向对象的思想,利用UML建模工具,实现了系统的需求分析和设计,增强了系统可复用性和可扩展性。 3)针对当前中小学作业批阅特点和需求,对作业批阅业务系统进行全面分析与设计,弥补了现有系统业务功能的不足,功能上更加全面,同时对系统的实施、管理进行了优化设计,提高了访问效率。 4)通过经典的Apriori算法,提出一种改进后的Apriori算法,并对数据进行深层次的挖掘,发现数据内部的关联关系,提高了数据利用率。 5)利用中文分词、特征项、TF—IDF权重、空间向量模型理论,构建文本相似度算法,查找出相似任务,从而提高了数据质量。 6)在系统实现的整个过程中,利用Maven实现了自动化的项目构建、测试和持续集成机制,使得系统具有的高可重用性、易维护性。
基于主题网络爬虫的科研信息管理系统的研究与实现
这是一篇关于网络爬虫,资源检索,向量空间模型,科研管理的论文, 主要内容为随着信息管理技术的应用越来越广泛、越来越深入,科研信息管理系统在实施技术上越来越成熟。以往的科研信息管理系统只是将现有的信息录入并保存在系统数据库中,并没有对信息进行有效性验证,所保存的信息可能不准确,对后续的科研工作总结、考核等带来很多不便。本文系统是基于主题网络爬虫技术实现科研信息资源的搜索、抓取和分类等功能,通过将信息分类存储到本地资源服务器,实现对科研信息的验证,并实现对下载资源的添加与删除管理。通过对已下载资源的检索,能够有效地避免重复下载相同的信息资源,为科研信息的管理和验证工作提供有效的数据支撑。该系统以实际应用为开发背景,利用软件工程原理、软件开发方法以及利用ASP.Net技术构建了一个基于B/S(浏览器/服务器)模式的科研信息管理系统。本文的重点和难点在于对科研信息管理系统中信息验证的关键技术的研究及实现,提出一种适用于主题网络爬虫的科研信息管理系统模型,设计出一套相对完整、可行性较高的解决方案。本文对网络爬虫和科研信息管理进行深入研究,目的是建立基于主题网络爬虫的科研信息管理系统,该系统要求能够实现对科研信息进行管理,并实现对科研信息的验证,本文的主要研究内容如下:1在现有科研信息管理系统基本没有信息验证的背景下,本文将主题网络爬虫技术引入到信息管理系统中。在系统需求分析的基础上,结合主题网络爬虫技术,给出详细的系统设计解决方案,讨论了系统中主题网络爬虫在信息检索、信息下载、信息保存等方面的功能和实现方法。2针对主题网络爬虫,本文在充分研究传统网络爬虫的架构及其工作原理的基础上,进一步对网络爬虫的实现进行深入研究,包括网页的解析、网页内容的提取等,然后针对科研信息管理的功能特性,选择向量空间模型为爬虫的基准模型,并在此基础上设计出基于网页内容的网络爬虫搜索策略。3在需求设计和详细设计的基础上,开发实现基于主题网络爬虫的科研信息管理系统。该系统引入主题网络爬虫技术,在爬取的同时对动态交互节点进行分析,并通过一个验证过程,将经过验证后与主题相关的信息存储在本地服务器,能够较好的实现科研信息的验证功能。
科技项目评审专家推荐系统的研究与实现
这是一篇关于推荐算法,向量空间模型,科技项目,评审专家的论文, 主要内容为随着互联网信息资源的爆发性增长,使用传统的关键字检索很难满足用户高效获取所需要的信息。在这种背景下,个性化推荐系统应运而生,并在电子商务推荐、影视推荐、文章推荐等很多领域得到了应用。但在科技项目评审领域,鲜有项目评审专家自动推荐系统的研究及应用。基于丰富的专家库信息,根据科技项目信息来自动推荐合适的评审专家是非常有必要的,是科技项目评审质量和效果的保证。本论文根据科技项目评审标准、专家信息库和待评审科技项目信息研究科技项目评审专家推荐系统,以实现科技项目评审专家的高效准确的遴选。论文的主要研究工作如下: (1)研究提出一种科技项目评审专家推荐系统模型。该模型首先构建科技项目和评审专家向量空间模型,运用基于内容的算法进行相似性匹配,产生初步推荐专家列表;然后运用协同过滤算法对得到的专家列表进行调整;最后运用专家评分作为加权因子混合推荐产生最终的专家列表。 (2)研究建立科技项目及评审专家向量空间模型。通过科技项目文本信息分词获取关键字,运用TF-IDF算法计算关键字的权重,得到权重大于阈值的关键字及其权重,基于向量空间方法建立科技项目向量空间模型;类似,建立评审专家的向量空间模型。 (3)研究建立专家评分数学模型。根据专家基本信息、科研课题、文献、人才培养和获奖情况等评价指标建立专家评分数学模型,然后将专家评分数学模型计算得到的专家评分作为调整推荐结果的加权因子。 (4)研究提出一种科技项目评审专家的混合推荐算法。首先针对传统的基于内容推荐算法无法分别信息的不同字段对推荐影响力不同的问题,提出一种基于内容的分层次推荐算法,并运用该算法产生初步推荐,然后用协同过滤算法对结果进行筛选,最后再运用加权因子混合推荐产生专家列表。 论文成果已实际应用于浙江省科技项目管理系统中,应用表明成果的可行性和有效性。
搜索引擎中主题爬虫的研究与实现
这是一篇关于搜索引擎,主题爬虫,Authorities and hubs算法,Web超链分析,向量空间模型的论文, 主要内容为随着Internet的迅速发展,网络信息增长的速度和人们获取所需信息能力之间的矛盾越来越突出。本文围绕主题搜索引擎这一社会研究的新热点技术,对主题搜索引擎中占有重要地位的主题爬虫给予研究和讨论。主题搜索引擎中的信息采集,即主题爬虫系统的搜索策略的研究,对于主题搜索引擎的应用与发展具有非常重要的作用。论文首先对主题搜索引擎的基本功能进行了简单介绍,引出主题搜索引擎的重要组成部分——主题爬虫,并分析了主题爬虫的基本结构及工作原理。然后对网络爬虫的搜索策略进行了讨论,重点介绍了基于Web超链接结构和基于网页文本内容的启发式搜索策略,并对它们进行了比较。在计算文本内容相似度算法的讨论中引入了经典的基于向量空间模型的分类方法。设计并初步实现了一个主题爬虫SoftSpider,介绍了该爬虫的结构以及相关设计细节。该爬虫的搜索算法是对Authorities and hubs算法的改进,采用了Web超链接分析和网页文本内容相结合的启发式搜索策略。最后对该爬虫的性能进行了测试,同时给出了实验结果及分析。
基于企业协作信息网平台的信息检索系统的设计与实现
这是一篇关于信息检索,向量空间模型,B/S模式,特征项,相关反馈,查询扩展的论文, 主要内容为本文主要介绍了为满足制造企业间协作的信息化要求而实现的制作企业协作网信息平台,以及为了更好的满足用户的协作信息要求而设计的基于该平台的信息检索子系统。制造企业协作网信息平台提供了B/S模式的信息管理方式,其中检索子系统主要基于向量空间模型,对用户的查询请求进行分析处理后和后台协作信息文档集匹配,并将检索结果返回给用户。系统的目标是将尽量多的符合要求的文档反馈给用户,以满足他们的要求,实现协作的最终目的。 首先介绍了课题背景、研究内容和意义,并概述了B/S模式的管理信息系统的相关概念以及本文所基于的实验环境——制造企业协作网信息平台的具体功能和实现技术。然后,简单介绍了信息检索的相关知识,给出了在现有的协作网信息平台上尝试以向量空间模型为基础来实现信息检索子系统的方法,并介绍了详细设计思路:采用向量空间模型对文档和查询分别建立特征向量子空间,利用相似度计算方法进行检索比较。同时,结合使用相关反馈技术和查询扩展技术,增强与用户的交互操作,最终达到提高检索准确率和召回率的目的。随后,介绍了检索子系统实现中涉及的关键技术,包括对协作数据信息进行采集和训练的模式和方法。最后简单介绍了检索子系统的实现、使用以及对系统进行测试的相关情况。从实验结果看,将统计方法和语义方法相结合来实现信息检索系统是很有效果和研究价值的。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码货栈 ,原文地址:https://m.bishedaima.com/lunwen/48127.html