基于混合全文索引的煤质文件管理系统研究
这是一篇关于文件系统,全文索引,倒排索引,B+树,框架技术,Oracle的论文, 主要内容为信息化产业技术的飞速发展极大的改变了人们获取利用信息的方式,人们越来越多的是通过电子文件进行传播信息。针对煤炭这一特定领域而言,各类电子煤质文件呈爆炸式增长。面对当前浩瀚的信息海洋,如何帮助用户有效管理煤质文件信息以及如何帮助用户快速甄别、提取有用信息成为煤炭企业面临的重要难题。本文提出一种基于倒排索引与B+树索引的混合全文索引模型。倒排索引在实现上相对简单,对短语的查询具有相对优势,检索速度快,但对数字型的数据并不敏感,因此在数字型数据的检索上不能快速且准确的检索相关信息。而B+树索引能够实现随机、顺序的处理,其所有数据全部在叶子结点保存,加之B+树本身具有的有序性,使得它非常适合于数字型数据的索引。而对煤质文件特点分析可得:煤质文件数据类型主要有字符型和数字型。本文结合倒排索引与B+树索引的优点提出了混合全文索引结构,并将其应用于煤质文件管理系统中。混合全文索引思想为:首先针对煤质文件的数据类型建立B+树索引;再根据不同数据的类型为其建立相应的索引结构,具体可分为两种:如果为字符型数据就为其建立倒排索引,数字型则为其建立B+树索引。设计并实现了煤质文件管理系统,采用目前主流三大框架(Spring、Struts2,Hibernate)技术,结合Oracle数据库,实现了煤质文件基本信息管理、用户权限管理、文件上传、文件下载、文件共享、文件多维度分类、文件安全控制、文件检索等功能。其中,安全控制模块提出一种文件使用记录追踪方案,保存所有涉密文件使用记录并得到每个文件对应的记录项,并对记录项部分元素(读写操作或常用主机IP)进行监控分析,针对可能发生的安全隐患给予警示,以此保证涉密文件的安全性。对已实现的煤质文件管理系统进行功能性测试,结果表明系统运行良好。对混合全文索引实现的文件检索模块进行的实验表明,与单独的倒排索引或者B+树索引相比,混合全文索引结构在索引创建占用的存储空间和文件检索时间性能上有显著的优势。
云环境下搜索引擎系统关键技术研究
这是一篇关于搜索引擎,网络爬虫,全文索引,文本去重的论文, 主要内容为随着互联网内容爆发式的增长,搜索引擎成为人们使用互联网时的主要入口。然而,面对当前互联网中的海量信息,传统搜索引擎在抓取速度、存储容量以及查准率和查全率方面很难适应现在的互联网环境。本文结合云计算相关技术,研究了搜索引擎系统中文本去重、页面索引以及网络信息采集这三个关键技术,具体工作如下:首先,为了减少存储系统中重复页面的数量,本文在传统的文本去重算法Shingling的基础上,结合LCS问题的解决方法,提出了与位置相关的改进的Shingling去重算法SWLR(Shingling with Location Relationship)。提高了文本去重的查准率和查全率。通过与基于比特位的过滤算法相结合,本文进一步提出了快速SWLR算法,实验结果表明,快速SWLR算法在没有降低相似性检测效果的前提下,显著提升了SWLR算法运算的性能。其次,为了提高页面索引中短语查询的效率,本文在倒排索引模型的基础上提出了基于链表结构的倒排索引模型,通过在倒排索引模型的Term节点中增加指向相邻关键词的指针,在通过关键词短语进行查询时,可以在单位时间内查找到相邻的关键词并进行匹配。实验结果表明,基于链表结构的倒排索引模型在索引构建、查询以及内存消耗方面均具有性能优势。最后,本文结合云计算环境,提出了一种基于Hadoop的网络爬虫系统。在该系统中,解析与爬行两个子系统并行运行,从而充分利用计算机的I/O资源和计算资源。实验结果表明,本文提出的网络爬虫系统具有很好的系统扩展能力和负载均衡能力。
基于Opentaps框架的ERP采购合同管理系统的设计与实现
这是一篇关于企业资源计划,领域模型,采购合同管理,全文索引的论文, 主要内容为课题的研究内容是某公司的ERP采购合同管理系统的设计与实现。公司在对ERP系统进行重新开发时引入了新的系统开发架构技术,从而能够对企业运转时产生的资源信息进行更好地管理。而采购合同管理是企业供产销流程中极为重要的一环,课题即是在此背景下展开的。由于公司原有C/S架构模式的ERP系统不仅具有部署繁琐,更新困难等问题,而且可扩展性和可维护性较差,因此新的ERP系统采用基于Opentaps架构的B/S模式进行实现。为了更好地对系统业务进行业务模块抽象分离,提高系统的可扩展性和可维护性,系统在开发时又引入了领域模型的设计思想,对系统架构进行了四层划分,分别为界面层、应用层、领域层和基础设施层四层。在系统实现时,首先根据公司内部具体的业务流程,对系统需要实现的相关业务需求进行了分析。然后,为了更好地提升系统的简洁易操作、用户友好、易扩展和易维护等特性,在系统架构层次上对系统的界面层、应用层、领域层和基础设施层等进行了分析设计。最后,针对系统的业务需求分析和系统的层次架构设计,对系统的架构、前端后台业务逻辑、前后台数据交互、后台通用功能模块等进行了实现。在进行系统的具体实现时,前端部分采用Ext JS技术进行实现,并对部分前端显示细节进行了优化。同时,引入了全文索引技术实现关键词搜索功能,以提高系统的运行效率。经过测试,实现的采购合同管理系统能够满足公司的业务使用需求。前端Ext JS技术的使用以及细节优化,也使得系统界面简洁舒适,用户体验良好。同时,由于引入了领域模型的Opentaps框架,使得系统具有较高的可重用性,可扩展性和可维护性。
云环境下搜索引擎系统关键技术研究
这是一篇关于搜索引擎,网络爬虫,全文索引,文本去重的论文, 主要内容为随着互联网内容爆发式的增长,搜索引擎成为人们使用互联网时的主要入口。然而,面对当前互联网中的海量信息,传统搜索引擎在抓取速度、存储容量以及查准率和查全率方面很难适应现在的互联网环境。本文结合云计算相关技术,研究了搜索引擎系统中文本去重、页面索引以及网络信息采集这三个关键技术,具体工作如下:首先,为了减少存储系统中重复页面的数量,本文在传统的文本去重算法Shingling的基础上,结合LCS问题的解决方法,提出了与位置相关的改进的Shingling去重算法SWLR(Shingling with Location Relationship)。提高了文本去重的查准率和查全率。通过与基于比特位的过滤算法相结合,本文进一步提出了快速SWLR算法,实验结果表明,快速SWLR算法在没有降低相似性检测效果的前提下,显著提升了SWLR算法运算的性能。其次,为了提高页面索引中短语查询的效率,本文在倒排索引模型的基础上提出了基于链表结构的倒排索引模型,通过在倒排索引模型的Term节点中增加指向相邻关键词的指针,在通过关键词短语进行查询时,可以在单位时间内查找到相邻的关键词并进行匹配。实验结果表明,基于链表结构的倒排索引模型在索引构建、查询以及内存消耗方面均具有性能优势。最后,本文结合云计算环境,提出了一种基于Hadoop的网络爬虫系统。在该系统中,解析与爬行两个子系统并行运行,从而充分利用计算机的I/O资源和计算资源。实验结果表明,本文提出的网络爬虫系统具有很好的系统扩展能力和负载均衡能力。
基于Hadoop高校数字图书馆系统的设计与实现
这是一篇关于数字图书馆,元数据,全文索引,Lucene,Hadoop的论文, 主要内容为随着计算机技术的发展,人类社会步入了信息时代,电子出版物盛行,网络数据以爆炸式的速度激增,海量的多类型数据给信息检索带来了极大的困难,严重制约了数据的利用率,在此背景下,数字图书馆这一新的数据组织管理模式受到越来越多的关注。数字图书馆是一种没有时空限制的、便于使用的、超大规模的知识中心,它面向电子数据,以统一的标注和规范构建知识组织体系,通常以分布式存储,信息检索和计算机网络为技术支撑,实现丰富多彩的多媒体信息的有效传播。本文研究高校图书馆系统中数字图书馆系统的设计与实现,首先,我们基于传统图书馆管理理论,结合数字图书馆的实际应用,在分析国内外优秀的数字图书馆系统的基础上,对数字图书馆的数据范围和业务内容进行了清晰的定义。其次,论文详细阐述了数字图书馆建设的整体架构、业务流程以及数据模型,系统采用B/S结构,基于流程图建模各项业务流程,通过关系数据模型建模电子资料的元数据。然后,我们采用J2EE环境下的MVC分层开发框架,阐述了系统核心功能的实现过程,具体包括4个部分:元数据抽取,数据存储,建立索引以及用户服务。对应以上4个核心功能,我们分别设计了基于启发式规则的电子文档的元数据抽取方法,基于Hadoop的文件存储策略,在Hadoop平台建立基于Lucene的全文索引和基于元数据的关系数据索引,在以查询为核心的用户服务功能中,我们设计了基于下载和查询记录的查询优化技术。在论文最后,我们对系统进行了整体测试并对测试结果进行了分析。面向高校的数字图书馆系统不仅可以帮助高校组织管理现有的电子资料,例如教学视频、电子期刊、电子文献以及科研数据等,提高数据的检索准确性;还可以数字化现有的实体书刊,集成网络信息资源,为教育和科研提供统一的信息资源平台,提高知识的获取效率。
云环境下搜索引擎系统关键技术研究
这是一篇关于搜索引擎,网络爬虫,全文索引,文本去重的论文, 主要内容为随着互联网内容爆发式的增长,搜索引擎成为人们使用互联网时的主要入口。然而,面对当前互联网中的海量信息,传统搜索引擎在抓取速度、存储容量以及查准率和查全率方面很难适应现在的互联网环境。本文结合云计算相关技术,研究了搜索引擎系统中文本去重、页面索引以及网络信息采集这三个关键技术,具体工作如下:首先,为了减少存储系统中重复页面的数量,本文在传统的文本去重算法Shingling的基础上,结合LCS问题的解决方法,提出了与位置相关的改进的Shingling去重算法SWLR(Shingling with Location Relationship)。提高了文本去重的查准率和查全率。通过与基于比特位的过滤算法相结合,本文进一步提出了快速SWLR算法,实验结果表明,快速SWLR算法在没有降低相似性检测效果的前提下,显著提升了SWLR算法运算的性能。其次,为了提高页面索引中短语查询的效率,本文在倒排索引模型的基础上提出了基于链表结构的倒排索引模型,通过在倒排索引模型的Term节点中增加指向相邻关键词的指针,在通过关键词短语进行查询时,可以在单位时间内查找到相邻的关键词并进行匹配。实验结果表明,基于链表结构的倒排索引模型在索引构建、查询以及内存消耗方面均具有性能优势。最后,本文结合云计算环境,提出了一种基于Hadoop的网络爬虫系统。在该系统中,解析与爬行两个子系统并行运行,从而充分利用计算机的I/O资源和计算资源。实验结果表明,本文提出的网络爬虫系统具有很好的系统扩展能力和负载均衡能力。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/47386.html