基于分布式ElasticSearch相似内容比对算法研究与应用
这是一篇关于文本比对,Elastic Search,动态文本权重,文档处理器,字符串查找算法的论文, 主要内容为文本匹配作为文字处理领域的一项热门技术,在查重检测、智能问答等领域有广泛的应用实践。目前,诸多学术不端行为,如论文剽窃、数据造假和内容恶意篡改,在高校和其它学术界越来越严重,许多学生通过同义词替换法、打乱语序排列法、语义重述法等主要方式来降低论文查重率。为解决上述问题,经过对已有文本比对算法的大量调研和分析,结合先进搜索引擎已具备文本精确匹配等强大功能的支撑,本文选取开源企业级搜索和数据分析引擎Elastic Search为研究基础,基于开源微服务框架Spring Cloud搭建系统平台,完成基于分布式Elastic Search文本相似内容比对算法研究与实现。本文主要研究内容如下:首先,针对TF-IDF未能反映词的重要程度和特征词的分布情况的问题,本文设计了基于Elastic Search搜索语法实现的文本加权融合算法。该算法利用POI文档处理器挖掘特殊位置文本,基于Elastic Search查询语法提高标题和段落首末句文本权重。其次,针对网络、社会环境中不断出现的网络流行词、新词及停用词在文本比对过程中对Elastic Search分词器分词工作带来的影响,本文研究并设计了一套分词器词库管理和热更新词典的解决方案,该方案保证随着新词的出现,分词器能正确进行分词工作。再次,针对自然语言预处理中经常涉及到的同义词替换导致的文本匹配失效问题,本文提出基于Elastic Search搭建同义词词库,同义词通过相连的概念来扩大搜索匹配范围,达到提高文本比对准确度的效果。利用Rabin Karp算法实现文本完全匹配预检测,以克服Elastic Search不支持识别文本完全匹配的缺陷。本文基于志愿者主观评价的实验方案,将系统评价结果与人工评价结果对比,本文研究的算法相似度比较结果与志愿者主观评价结果一致的比例达到了85.6%,而二者评价结果完全不一致的比例只有3%,这两项对比结果比例均优于“基于强类别特征的文本相似度计算及其性能评估”算法的对应对比结果(81.78%,5.52%),表明本文研究的文本相似度比较算法在正确率和准确性上有较好的改进,能更好的应用于实际。
军队营门精细化管理系统的设计与实现
这是一篇关于军队营门,Hbase,Elastic Search,精细化管理的论文, 主要内容为随着信息技术的深入,社交媒体、智能终端、智慧城市不断发展,运用技术手段实现单位管理智能化、正规化、精准化是提高管理水平的必然趋势。军队管理具有人员数量多、车辆动用频、外来审查严、营门管控难等特点,传统管理手段呈现出很多弊端。在数字信息化时代,强有力地做好军队管理工作必须以现代信息技术为依托来进行创新性的改革。要在新的管理工作中融入各项新型的优秀的信息技术,实现军队营门的人员、车辆、访客的实时监管。采用先进的信息技术对军队进行精细化的人员和车辆管理,既可以实现军队管理的正规化、有效性、科学性,也可以提高军队的信息化管理水平,在科学管理和信息技术上提高军队的整体能力。为了详细的介绍军队营门精细化管理系统的设计开发的生命周期,本文采用绪论、相关技术介绍、系统需求分析、系统设计、系统实现与测试的顺序进行系统实现过程的说明。首先在系统绪论部分明确了军队营门精细化管理系统开发实现的背景意义、当前军队管理方面和技术发展方面的研究现状、以及开发系统需要解决的主要问题。之后介绍了该系统需要用到的机器学习相关的算法技术和系统开发框架平台SpringBoot、分布式数据库Hbase等。对该系统的整体需求、主要功能流程以及系统的非功能性需求进行了简要分析,并对军队营门精细化管理系统开发时需要采用的技术架构进行了详细设计,重点介绍人员访客信息的追踪处理,以便于监控军队访客状态的异常情况的出现。在系统数据存储方面对支持大数据量存储的HBase存储系统与全文检索存储系统的数据同步进行了详细的设计。之后介绍了系统主要功能模块的实现,说明了该系统的具体功能测试过程。该系统基于各项功能模块能够通过部分大数据技术和机器学习技术提高军队采用的系统平台的技术水平,提高军队管理能力,为军队人员的考勤、请假、档案管理等提供便利。相比以往军队实现的管理系统,该系统具有以下两点特色:一是传统系统多数采用相当成熟但较旧的开发技术进行系统开发,而该系统将新兴的微服务架构SpringCloud以及大数据分析技术应用到军队单位进行新技术的推广,采用k-means对访客信息进行异常监控,对访客信息的异常数据有所感知。二是传统军队的系统多采用单一数据库进行数据存储和维护,而该系统积极融合大数据技术采用混合存储的方式提高数据检索的效率。
基于文本挖掘的医疗信息检索系统的设计与实现
这是一篇关于文本挖掘,垂直搜索,Elastic Search的论文, 主要内容为随着物质、文化、生活水平的日益提高,人们愈发重视自身的健康状况。而传统的线下医疗服务存在着时间、空间等方面的诸多不便。随着信息化和智能化的高速发展,越来越多的人有在网上阅读医疗健康类的科普资讯并获取相关知识的需求。但是,目前通用搜索引擎在针对垂直领域的信息检索时,搜索结果可靠性和准确性难以保证,尤其在医疗领域更为显著。而目前针对医疗领域的信息检索系统又多为对原始数据的集成和展示。为提供可靠、精准、快速的医疗信息检索服务,设计实现了医疗信息检索系统。医疗信息检索系统由数据处理模块、问答系统模块和信息检索模块这三个模块构成。数据处理模块用于对基础数据的爬取和整合;问答系统模块则通过多个算法模型对问答数据进行处理并提供问答匹配服务;信息检索模块主要为用户提供数据检索服务和其他通用服务。系统的核心数据来源为爬取,为保证医疗科普信息的准确性,本文采用了人工预选的方式来进行门户网站数据的采集和抽取,并通过ETL处理将结构化与半结构化目标数据分别存储于My SQL、HBase。为了解决各大门户数据的错误与空缺,作者提出了基于数据源优先级的数据整合策略。数据经过整合后导入Elastic Search搭建分布式集群,并实现索引数据的批量更新。Web平台采用微服务架构,使用目前较为流行的框架Spring Cloud,为用户提供一般检索、文章检索、问答检索等检索服务和收藏、评论、点赞等通用服务,同时为数据管理员提供模板添加、批量导出、ES集群健康状况展示等运维服务。作者以句子对相似度计算任务为基础设计完成FAQ问答模型,并结合命名实体识别任务、意图识别任务对候选集进行初步筛选,实现了对问答系统准确性和时效性的平衡。其中医疗实体识别采用BERT-Bi LSTM-CRF模型,意图识别采用Text CNN模型,句子对相似度计算采用基于微调的BERT模型。医疗信息检索系统给用户带来了极大的便利,用户可更专注于医疗领域的信息检索和知识获取。平台可根据用户需求为用户提供智能、专业的信息检索服务。目前该系统已经通过了功能性测试和非功能性测试,等待部署上线。
面向分布式数据库的Insight监控系统的设计与实现
这是一篇关于分布式数据库,监控系统,SpringBoot,Elastic Search,Kafka的论文, 主要内容为随着软件技术的发展,软件系统对高并发访问的要求越来越高,这使得分布式数据库逐渐取代了传统数据库。然而分布式数据库需要部署在分布式集群中运行,并且其系统架构相当复杂,给运维人员带来了高成本、高难度、高挑战的数据库运维监控问题。一旦分布式数据库发生运行故障,运维人员很难快速定位、分析并解决故障问题。基于分布式数据库带来的问题,本文研究了Insight监控系统的解决方案,该系统的目标是监控分布式数据库集群各个组件的运行情况、执行性能、响应效率,提高运维人员在分布式数据库发生故障时解决问题的效率。本文着重介绍了Insight监控系统部分功能的设计和实现,从系统模块划分上,该系统主要分为网络监控模块、组件监控模块、SQL诊断模块、数据维护模块,每一模块都负责Insight监控系统的不同功能实现。网络监控模块负责外界应用访问分布式数据库集群的网络性能监控;组件监控模块负责监控分布式数据库集群各个组件在服务器上的部署和运行情况;SQL诊断模块负责诊断分布式数据库集群执行SQL请求的执行性能;数据维护模块负责定时清理Insight系统中My SQL数据库和Elastic Search集群的过时数据。针对分布式数据库的监控问题,Insight系统解决的技术问题有以下三点:(1)整个项目的构建采用了SpringBoot框架,极大地提高了系统开发效率。(2)基于Elastic Search搜索引擎,为分布式数据库集群的非结构化数据建立了索引,并定时将数据同步到索引库中,极大的提高了搜索效率。(3)基于Kafka中间件,一方面为Insight系统提供了高效采集分布式数据库集群数据的方案;另一方面,为Insight系统提供与分布式数据库集群进行消息交互的消息队列。目前Insight系统还需要集成更多的分布式数据库监控功能,还处于第三期开发阶段。
面向分布式数据库的Insight监控系统的设计与实现
这是一篇关于分布式数据库,监控系统,SpringBoot,Elastic Search,Kafka的论文, 主要内容为随着软件技术的发展,软件系统对高并发访问的要求越来越高,这使得分布式数据库逐渐取代了传统数据库。然而分布式数据库需要部署在分布式集群中运行,并且其系统架构相当复杂,给运维人员带来了高成本、高难度、高挑战的数据库运维监控问题。一旦分布式数据库发生运行故障,运维人员很难快速定位、分析并解决故障问题。基于分布式数据库带来的问题,本文研究了Insight监控系统的解决方案,该系统的目标是监控分布式数据库集群各个组件的运行情况、执行性能、响应效率,提高运维人员在分布式数据库发生故障时解决问题的效率。本文着重介绍了Insight监控系统部分功能的设计和实现,从系统模块划分上,该系统主要分为网络监控模块、组件监控模块、SQL诊断模块、数据维护模块,每一模块都负责Insight监控系统的不同功能实现。网络监控模块负责外界应用访问分布式数据库集群的网络性能监控;组件监控模块负责监控分布式数据库集群各个组件在服务器上的部署和运行情况;SQL诊断模块负责诊断分布式数据库集群执行SQL请求的执行性能;数据维护模块负责定时清理Insight系统中My SQL数据库和Elastic Search集群的过时数据。针对分布式数据库的监控问题,Insight系统解决的技术问题有以下三点:(1)整个项目的构建采用了SpringBoot框架,极大地提高了系统开发效率。(2)基于Elastic Search搜索引擎,为分布式数据库集群的非结构化数据建立了索引,并定时将数据同步到索引库中,极大的提高了搜索效率。(3)基于Kafka中间件,一方面为Insight系统提供了高效采集分布式数据库集群数据的方案;另一方面,为Insight系统提供与分布式数据库集群进行消息交互的消息队列。目前Insight系统还需要集成更多的分布式数据库监控功能,还处于第三期开发阶段。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计客栈 ,原文地址:https://m.bishedaima.com/lunwen/49938.html