面向多关键词组合查询的图数据检索技术研究与实现
这是一篇关于图数据,关键词检索,剪枝,索引的论文, 主要内容为随着知识图谱、社交网络等应用的普及,大规模图数据的应用越来越广泛,针对图数据的查询问题逐渐得到了人们的关注。利用关键词进行查询是一种最为基础普遍的检索方式,本文研究一种面向多关键词组合查询的图数据检索技术,通过输入多个查询关键词得到查询结果。在图数据关键词检索问题中,查询结果的形式有多种,本文将树作为查询结果的形式,树可以将多个查询关键词联系起来,树的根结点可以连接到树中的任意节点,所以通过根结点和关键词节点之间的路径可以了解各关键词是如何联系起来的,挖掘关键词之间隐藏的联系有助于提供进一步的搜索方向。本文的主要工作包括以下两点:(1)在BACKWARD算法的基础上,对同一个节点被同一个查询关键词多次遍历的情况进行了分析,论证了这种重复遍历的不必要性,然后设计了避免这种重复遍历的剪枝方法,并提出了基于距离剪枝的图数据关键词检索算法KSDP,该算法主要针对BACKWARD算法的扩展策略部分进行了改进,实验结果表明,该算法在保证答案质量不变的情况下减小了查询时间。(2)在基于距离剪枝的图数据关键词检索算法的基础上,利用图划分和距离索引,设计了基于距离索引的图数据关键词检索算法KSDI,该算法增大了遍历对象的粒度且利用了索引的查询优势,实验结果表明,该方法在KSDP算法的基础上,优化了查询时间。
基于Solr的新媒体稿件检索系统研究与设计
这是一篇关于新媒体,Solr,索引,全文检索的论文, 主要内容为随着近年来互联网和移动互联网的兴起,新媒体也取得了蓬勃发展,新媒体文章和稿件也呈现爆发式增长的趋势。面对海量和多种格式的新媒体数据信息,如何在这样大规模的数据信息中快速和准确地找到所需要的稿件信息成为自媒体用户所面临的一个问题。本文根据以上问题和需求,基于Spring+SpringMVC+Hibernate的架构进行设计开发,结合了 Solr搜索引擎服务和百度语音识别工具,提出了一种B/S架构的新媒体稿件检索系统,系统使用Java作为开发语言进行实现。本文重点分析了系统架构设计中使用的关键技术和策略,开发设计了基于Solr的新媒体稿件检索系统,主要包括预处理,构建Solr系统,用户查询和数据库几部分。本文以开源搜索引擎Solr作为系统的核心,研究了搜索引擎核心技术索引的实现原理。为了保证分词的效率和质量,研究了分词的算法以及各种中文分词器的性能对比,为了方便Solr使用文本构建索引,研究了将非文本文件进行文本转化的方法。本文研究的主要创新点如下:第一,由于传统的关系型数据库无法满足能够应对庞大的实时请求,且关系数据库对中文的全文检索效果不佳,需要使用企业级搜索引擎来解决搜索的问题。Solr作为企业级搜索引擎,其强大的全文检索功能能够满足企业搜索的需要。开发者基于Solr搜索引擎服务的框架上进行开发,利用其稳定的搜索框架,只需要开发上层的业务逻辑而不需要负责底层实现逻辑,缩减了开发周期和开发成本,提高了系统的稳定性。第二,鉴于新媒体稿件当中包含大量图片,音频,视频等多媒体文件,本系统将Solr快速索引和成熟的百度语音识别相结合,构成面向企业平台的新媒体稿件检索系统。相对于传统的通过文本这类单一格式进行查询的方式,本系统集成了百度语音识别的功能,可以对音视频格式的文件进行文字转化,从而进行查询。通过音视频文件信息的加入,使得查询准确度更高,查询资源变得多元化,丰富了系统检索功能。
企业级统一信息搜索与分析平台的设计与实现
这是一篇关于搜索引擎,企业级搜索,数据采集,索引,Solr,相关性排序的论文, 主要内容为本文针对某通信集团公司信息化建设中要求建立面向企业的统一信息搜索与分析平台进行研究,分析如何从企业内部海量数字信息中快速、精准地查找并定位需要的信息,提高企业用户的办公效率并提供个性化搜索服务的需求。权衡实施效率、成熟度等指标后,最终选定了J2EE框架下基于开源企业级搜索服务平台Solr的二次开发、大数据分析计算框架、语言处理等智能算法与构建高可用、可扩展的系统架构设计思想相结合的技术实现方式,设计支撑企业统一信息平台的企业级搜索分析平台解决方案。本方案中各种技术框架成熟度和企业实施成功率都很高,有Apache基金组织和多个知名社区的持续技术支持,技术实现难度不大且高效。本文主要介绍了搜索引擎对企业数据源的采集,对搜索引擎的一些核心技术进行了介绍与深入的分析;对企业级搜索框架Solr进行架构、代码、配置等方面的研究;最后设计并实现了一个基于SolrColud模式的满足企业个性化的多库搜索引擎。整个设计过程致力于提高管理维护的方便性和可扩展性,系统中分布式控制模块保证系统的负载均衡和高可用性,支持建立分布式的内部数据索引,实现对搜索服务器的集群化部署,且根据企业持续化的建设需求能够灵活扩展,减少企业相同或相似业务需求的重复性投资建设,能够缩短建设工期与投资成本。企业级统一信息搜索与分析平台作为企业办公网的基础设施,支撑集团总部及各直属单位和专业公司的统一信息化数据检索需求,后续将逐步向全国推广,支持企业各省公司及其所属单位的信息检索需求。本文解决了关于企业种类繁多且数据量庞大的多种业务数据源的采集,针对企业用户的个性化搜索需求完成了80%的设计建设工作,并为支撑企业不断扩大的信息化建设规模而设计的更加完善的个性化搜索方案提供有效的解决思路和实际验证。
基于分布式的搜索引擎技术研究与设计
这是一篇关于分布式计算,搜索引擎,爬行,索引,检索,Hadoop,PageRank的论文, 主要内容为随着计算机技术、互联网技术的快速发展,网络上的信息几乎是呈现爆炸式增长,这对传统的搜索引擎技术带来不小的挑战。面对海量数据的处理和存储,人们对搜索引擎的需求,不仅仅局限于能够尽可能地获取准确的检索结果,还需其具有更好的时效性,更高的可扩展性,更低的故障率。大数据时代,对数据的处理能力要求越来越高,随着分布式计算技术的不断发展,以及云计算的不断普及,基于分布式的搜索引擎无疑会成为未来发展的趋势。本论文针对基于分布式的搜索引擎,论述了国内外对搜索引擎的研究现状以及未来发展的趋势,分析了搜索引擎的工作原理,详细介绍了分布式搜索引擎涉及的相关理论技术。对主要的几种分布式搜索引擎方案进行对比分析,研究改进措施,提出了基于Hadoop的分布式搜索引擎技术方案。根据搜索引擎本身特点,将搜索引擎分为爬行、索引、检索三个子模块,对系统的每个子模块进行详细设计并实现,将Hadoop的Map/Reduce模型和分布式文件系统HDFS应用在整个搜索引擎中。在原有PageRank算法基础,进行优化,添加用户访问反馈影响因子,提出一种基于用户访问反馈的PageRank算法,来对网页进行评分。利用轻量级Web应用框架SpringMVC对检索子模块进行构建,视图层采用新一代Java模板引擎jetbrick-template替代Jsp,提高了页面加载速度,提升搜索引擎的时效性。最后,对实验环境进行介绍和部署,搭建分布式搜索引擎系统,对实现的搜索引擎系统从功能、可靠性、可扩展性几个方面分别进行了测试。对实验结果进行对比和分析,论证了基于Hadoop的分布式搜索引擎技术方案的可行性。
Lucene在医学影像资源检索平台中的应用
这是一篇关于医学影像,Lucene,搜索引擎,索引,中文分词,双哈希表的论文, 主要内容为随着数字医疗程度的不断提高,医学影像技术广泛的应用于医疗领域,临床中产生的大量医学影像文件对医疗科研有着重要参考价值,但是由于其数量庞大,不易管理,在检索效率和准确率上都有所不足。传统的数据库查询机制由于自身的局限性无法应对大数据量的访问,而目前应用广泛的通用搜索引擎无法对信息资源进行深度索引和及时的索引信息更新,因而在检索的专业性以及全面性方面都有所不足。Lucene是一个完全面向对象的全文搜索引擎架构,提供了完整的查询和索引引擎,用户可以基于它开发出各种垂直搜索引擎,满足专业领域的信息查询需求。 无论对于通用搜索引擎还是垂直搜索引擎,分词技术都广泛的应用于这些领域中,是其重要的组成部分,由于中文语言自身的特点,在分词的过程中需要采用一定的算法对其进行处理。结合传统的分词词典机制,提出了双哈希表词典结构,并采用正向最大匹配算法,设计了中文分词器总体结构,包括中文信息预处理、词典管理和中文切分单元,并成功应用于医学影像系统中,该分词器速度快,准确率高。 本文结合ExtJS Ajax显示框架、Struts2控制框架、Spring组件管理框架和Hibernate 0/R映射框架将Lucene引入医学影像检索系统中,设计了系统总体结构,包括医学影像信息的预处理、索引建立和资源检索,并根据医疗行业的特点以及Lucene框架的特性对整个系统进行了优化,基于该框架开发的检索系统功能完善,检索效率高。
基于Solr的新媒体稿件检索系统研究与设计
这是一篇关于新媒体,Solr,索引,全文检索的论文, 主要内容为随着近年来互联网和移动互联网的兴起,新媒体也取得了蓬勃发展,新媒体文章和稿件也呈现爆发式增长的趋势。面对海量和多种格式的新媒体数据信息,如何在这样大规模的数据信息中快速和准确地找到所需要的稿件信息成为自媒体用户所面临的一个问题。本文根据以上问题和需求,基于Spring+SpringMVC+Hibernate的架构进行设计开发,结合了 Solr搜索引擎服务和百度语音识别工具,提出了一种B/S架构的新媒体稿件检索系统,系统使用Java作为开发语言进行实现。本文重点分析了系统架构设计中使用的关键技术和策略,开发设计了基于Solr的新媒体稿件检索系统,主要包括预处理,构建Solr系统,用户查询和数据库几部分。本文以开源搜索引擎Solr作为系统的核心,研究了搜索引擎核心技术索引的实现原理。为了保证分词的效率和质量,研究了分词的算法以及各种中文分词器的性能对比,为了方便Solr使用文本构建索引,研究了将非文本文件进行文本转化的方法。本文研究的主要创新点如下:第一,由于传统的关系型数据库无法满足能够应对庞大的实时请求,且关系数据库对中文的全文检索效果不佳,需要使用企业级搜索引擎来解决搜索的问题。Solr作为企业级搜索引擎,其强大的全文检索功能能够满足企业搜索的需要。开发者基于Solr搜索引擎服务的框架上进行开发,利用其稳定的搜索框架,只需要开发上层的业务逻辑而不需要负责底层实现逻辑,缩减了开发周期和开发成本,提高了系统的稳定性。第二,鉴于新媒体稿件当中包含大量图片,音频,视频等多媒体文件,本系统将Solr快速索引和成熟的百度语音识别相结合,构成面向企业平台的新媒体稿件检索系统。相对于传统的通过文本这类单一格式进行查询的方式,本系统集成了百度语音识别的功能,可以对音视频格式的文件进行文字转化,从而进行查询。通过音视频文件信息的加入,使得查询准确度更高,查询资源变得多元化,丰富了系统检索功能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://m.bishedaima.com/lunwen/47242.html