金融行业内容管理系统的设计与实现
这是一篇关于内容管理系统,模型视图控制器,对象关系映射,工作流,搜索引擎的论文, 主要内容为随着网络的普及,信息传递速度的加快,人们可以更容易、快捷的获取信息,数以千万计的信息不断地在互联网上传递和更新。对于如此巨大的信息量,有效的筛选,定时的更新,清晰的展现变得尤为重要。Forrester Research的一个调查显示:企业的信息内容量在以每年200%的速度增长。这些内容大量产生于企业的生产和活动中,由于内容的表现形式存在多样性,人们在内容管理上耗费了大量时间,在寻找内容上也付出了相当大的精力,所以迫切需要有效地将内容管理起来。使得有用的信息能真正的被人们所分析和利用。 因此,内容管理系统应运而生,内容管理系统是利用IT先进技术对数据进行采集、管理、利用、传递、增值,满足内部员工与管理阶层,以及外部协作厂商,客户与企业投资者对内容的需求。另外,随着市场的不断开拓,内容管理已经由理论产品,逐渐深入到我们现实管理中来。 本论文以银行外网系统为背景详细阐述了CMS系统从需求、分析、设计、测试到完成的整个过程。主要内容为后台内容管理系统和前台内容展示系统的构建过程。针对金融行业CMS的特点,运用适当的技术和方法对其进行了分析与设计。本系统采用了spring框架,使用依赖注入的方式降低各模块间的耦合性。前台使用springMVC并采用标注注入的方式减少配置,加快开发效率。使用hibernate持久层框架屏蔽了对不同数据库的依赖,利用其ORM的特性,更好地进行面向对象的设计与开发。为了实现页面的发布审核流程,采用了Jbpm框架作为工作流基础框架,并实现了流程的可视化,增强了用户的体验度。用lucene对整个站点的内容进行索引以支持全文搜索,使用了一些其他工具如itext等对word和pdf也进行了解析,从而支持多种文档格式的搜索。使用jquery作为前端javascript框架以支持多种浏览器。
Lucene在医学影像资源检索平台中的应用
这是一篇关于医学影像,Lucene,搜索引擎,索引,中文分词,双哈希表的论文, 主要内容为随着数字医疗程度的不断提高,医学影像技术广泛的应用于医疗领域,临床中产生的大量医学影像文件对医疗科研有着重要参考价值,但是由于其数量庞大,不易管理,在检索效率和准确率上都有所不足。传统的数据库查询机制由于自身的局限性无法应对大数据量的访问,而目前应用广泛的通用搜索引擎无法对信息资源进行深度索引和及时的索引信息更新,因而在检索的专业性以及全面性方面都有所不足。Lucene是一个完全面向对象的全文搜索引擎架构,提供了完整的查询和索引引擎,用户可以基于它开发出各种垂直搜索引擎,满足专业领域的信息查询需求。 无论对于通用搜索引擎还是垂直搜索引擎,分词技术都广泛的应用于这些领域中,是其重要的组成部分,由于中文语言自身的特点,在分词的过程中需要采用一定的算法对其进行处理。结合传统的分词词典机制,提出了双哈希表词典结构,并采用正向最大匹配算法,设计了中文分词器总体结构,包括中文信息预处理、词典管理和中文切分单元,并成功应用于医学影像系统中,该分词器速度快,准确率高。 本文结合ExtJS Ajax显示框架、Struts2控制框架、Spring组件管理框架和Hibernate 0/R映射框架将Lucene引入医学影像检索系统中,设计了系统总体结构,包括医学影像信息的预处理、索引建立和资源检索,并根据医疗行业的特点以及Lucene框架的特性对整个系统进行了优化,基于该框架开发的检索系统功能完善,检索效率高。
Web中LaTex数学公式提取方法研究
这是一篇关于数学公式,LaTex,查准率,查全率,BNF,搜索引擎的论文, 主要内容为随着互联网技术的不断发展,网络信息急速增长,大量的信息涌现在互联网上。搜索引擎为广大人们提供了信息检索和共享的一个平台,而传统的搜索引擎在一些方面已经满足不了人们增长的需求。在数学领域,Web中的数学论坛、Wiki等社会性的网站在数学教育方面影响力日益增长,而这些网站中存在大量的数学公式,而全文搜索引擎已经不能满足人们对数学公式搜索能力的要求。因此,如何对这些网站中数学公式进行搜索,对数学方面的学习、科学研究十分重要,其中,数学公式提取是索引系统的前提和基础,是搜索引擎中的重要环节。 在此类网站中,数学公式主要以LaTex、图片等形式存在,本文主要研究LaTex格式的数学公式的提取方法,一方面,本文结合BNF表述方式,提出自动分析提取包含LaTex公式特征的方法,来找出网页中包含LaTex公式的特征;另一方面,依据公式包含特征,提出提取和过滤LaTex数学公式的方法,过滤掉提取内容中存在的非LaTex数学公式,增加提取公式的精度,通过实验发现,该方法的查全率达到75%,查准率达到99%。
基于UCL国家标准的智能化搜索引擎研究
这是一篇关于搜索引擎,统一内容标签,知识图谱,话题挖掘,语义解析的论文, 主要内容为随着互联网的迅速普及和数字信息的爆炸式增长,各种海量化、碎片化的内容不断涌现,如何从这些异构驳杂的数据中检索有效信息对于搜索引擎挑战巨大。以网页链接为中心的传统搜索引擎通过关键字匹配的方式从互联网中检索信息,然后返回给用户相关链接。这种方式不能准确理解用户搜索意图,且返回的结果过于单一,包含的语义信息不够丰富,需要用户做多次检索。为了改善这种搜索模式的弊端,基于知识的搜索引擎已引起了业界的广泛关注。基于知识的搜索引擎技术核心是构建知识图谱,目前知识图谱相关研究已取得一定进展。但其对知识表示的方式主要是以较为简单的三元组形式将结构化数据组织,富含的语义信息不够丰富。而统一内容标签(Uniform Content Label,UCL)可以将互联网上杂乱无序的异构内容进行有效聚合,能够对互联网内容中的丰富语义信息进行统一格式编码。因此如何充分利用UCL对互联网信息进行富语义矢量编码的优势,构建以知识为中心的智能化搜索引擎极具研究价值。为此,本文结合UCL的优势,构建UCL知识图谱(UCL Knowlegde Graph,UCLKG),并对智能化搜索相关技术进行研究。提出了基于语义环境相似度的实体消歧算法与基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱(UCL Knowlegde Graph,UCLKG)的构建和更新。提出了针对搜索环境的动态主题挖掘算法DLDASE(Dynamic Latent Dirichlet Allocation for Search Environment)和基于SDP(Semantic Depency Parsing)依赖分析的查询式生成算法,提高搜索引擎对用户搜索意图识别和对知识语义解析的能力。本文的主要研究工作如下:(1)结合智能化搜索引擎的需求,针对如何将互联网中异构驳杂的数据进行语义关联的问题,提出了一种基于语义融合的UCL知识图谱构建方法。该方法首先解析Wikidata和百度百科离线语料库,并结合信息抽取工具抽取实体信息,完成基础知识库的构建;然后计算UCL中内容实体的语义权重,并借助实体消歧算法将UCL与基础实体库融合;最后提出基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱的自动化更新。(2)针对传统搜索引擎不能有效识别用户意图且缺乏对内容的语义解析能力的问题,实现基于UCL的智能化搜索引擎,对其中涉及的关键技术进行研究。基于UCL的智能化搜索引擎主要从两方面对用户搜索信息进行处理。一是以用户兴趣为中心提供个性化搜索,提出了针对搜索环境的动态主题挖掘算法DLDASE,识别用户搜索意图,并结合用户意图和UCL文档的主题关联对搜索结果进行排序。二是以知识为中心提供内容语义解析服务,提出了基于SDP依赖分析的查询式生成算法将用户搜索的自然语言问句翻译为数据库查询语句,直接获取知识。(3)实现了智能化搜索引擎原型系统,并通过实验对其中涉及的相关算法进行验证。实验结果表明,相比于传统实体消歧算法,基于语义环境相似度的实体消歧算法消歧效果更好;相比于传统关系推理算法,基于表示学习和UCL语义感知的关系推理算法对“一对多”和“多对多”类型关系有更好的区分能力;相比于传统LDA算法,DLDASE算法更适合对在线语料进行动态主题挖掘;基于SDP分析的查询式生成算法对本文定义的四类基本问题的转换能力较好。
基于爬虫的小企业搜索系统的设计与实现
这是一篇关于搜索引擎,站内搜索,全文检索,Compass,网络爬虫的论文, 主要内容为随着互联网的不断发展,网络已逐步成为众人获取信息的一种主要手段,而且目前一些门户网站的信息内容正以惊人的速度增加着。面对如此大量的信息,如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇迎接挑战的首要条件。针对一些门户网站,目前传统的WEB搜索引擎具有更新慢,准确度低等几个缺点,为了提高针对一些网站的信息检索能力,本课题研究设计了一套基于爬虫技术的站内搜索引擎系统。 本论文首先简要介绍和分析基于爬虫技术的搜索引擎系统的研究背景、国内外现有的搜索技术。接着,进行需求分析,提出系统应具备实时性和高准确性等特点,对此提出系统的总体设计框架、模块划分,以及模块相关介绍。 本系统采用Maven进行项目管理,选用Velocity模板技术实现网络机器人,基于Compass和中文分词技术,采用Service模式设计搜索框架以及采用Webwork、 Spring等J2EE技术,采用MVC模式、Command模式等以及多种RPC技术等实现多种搜索接口。该系统可为企业提供通用的垂直搜索服务,具备实时性、通用性等特点,并可通过多种搜索接口可以很方便的与企业应用集成。
基于分布式计算的网络爬虫技术研究
这是一篇关于分布式计算,网络爬虫,搜索引擎,Hadoop的论文, 主要内容为随着互联网技术的发展,网站技术日趋成熟,互联网上的站点也越来越多,信息量非常巨大,而人们的工作和生活中对互联网上的信息需求也越来越大,搜索引擎技术的重要性愈加明显。就目前来看,搜索引擎技术已经深入人心,贴近人们的生活,对人们生活影响越来越大,而网络爬虫是搜索引擎中至关重要的一个模块,它影响着搜索引擎的方方面面。 基于单机的网络爬虫的抓取能力有限,已经不能完成当前的链接抓取更新的需求,这样就促使了基于分布式系统网络爬虫技术的出现,构建一套大区域、分布广的分布式集群系统,多台机器有效的合作、分工,可以有效的消除站点分散,各网间访问速度慢对网页抓取的影响,提高大数据量的计算速度,提高了网络爬虫的性能。分布式的另一个应用就是分布式存储,存储设计也是网络爬虫设计的一个很重要的环节,抓取到得的网页数据的存储方式影响了整个系统的性能,由于其数据吞吐量巨大,简单的数据库存储已经不能满足其需求,因此最好的解决办法就是采用分布式集群存储的方式。 本课题在对上述技术研究的基础上,利用Java编程语言在Linux平台上实现了一套基于Hadoop分布式系统的网络爬虫,本系统具有抓取速度快、覆盖面广、可扩展性好、移植性强的特性,本文从分布式计算和分布式存储两个方面,对分布式网络爬虫系统的架构整体设计以及模块的具体实现流程进行了详细的研究和论述,给出详细的分布式网络爬虫的设计方案、系统整体原理架构图,各模块的MapReduce实现方式,以及各具体模块的具体实现流程。 最后,为了验证该分布式网络爬虫的特性,搭建了一套Hadoop分布式系统测试环境,从功能性测试、性能测试和可扩展性测试三个方面出发,设计了详细的系统测试方案,依据该方案实施了实际数据的测试,并对测试数据进行了分析得出了系统的具体性能参数。
基于Web的网络搜索技术研究
这是一篇关于搜索引擎,用户个性化,网络挖掘,信息检索的论文, 主要内容为随着互联网规模的急剧膨胀,面对用户无法正确找寻所需网络资源的困境,搜索引擎为用户提供了便利的网络信息检索条件,成为现代信息获取的重要手段之一。面向不同用户的智能网络搜索技术结合了搜索引擎的各种特性,并能够根据用户需求、总结其不同的浏览行为,为用户提供良好的个性化网络搜索服务,具有良好的应用前景。 本文首先介绍了搜索引擎的历史和现状,以及所需的技术指标和发展趋势。随后按照一般网络搜索技术的流程,即网页搜索技术、网页分析技术和网页检索技术,组织全文。并分别对这三个阶段的一般性技术和面向用户的个性化技术进行了详细研究和全面的描述。 网页信息收集阶段首先描述了搜索引擎中网页收集的几种方式,并讨论了全文搜索引擎使用爬虫进行网页收集的技术特点。在该章中,本文着重描述了面向主题的网页信息收集技术,包括一个主题爬虫的系统模型、网页爬取超链接预测、网页下载分析、主题hub网页的发现和对收集到的网页在主题上的质量控制。 网页分析阶段综合了一整套网页内容识别和语义信息提取技术,是数据挖掘在网络资源上的典型应用。这章包括了使用正则匹配识别网页源代码中的内容、网页预处理、网页特征项提取和量化,倒排文件的建立,和对具有相似内容的网页进行消重。 网页检索阶段首先介绍了信息检索的定义和经典的网页排序算法PageRank和HITS,随后描述了智能在线Rss阅读器的内部核心对象和模型建立流程。最后简单描述了系统检索和排序功能。
基于Elasticsearch的电商推荐系统的设计与实现
这是一篇关于推荐系统,Elasticsearch,搜索引擎,电商,机器学习的论文, 主要内容为在当今快速发展时代下,随着移动互联网的快速发展,由此带来的巨大便利正慢慢渗透到人们日常生活中,覆盖到衣食住行的方方面面。无论是线下O2O平台如美团、大众点评;还是电商平台如京东、淘宝,其中的商品服务和店铺管理呈现指数级别的增长,内容庞大且特色各异,面对数量庞大的商品和店铺,如何从中找到自己最满意的成为能否提升商品或店铺的浏览点击率和交易转化率的关键。因此利用搜索引擎的快速检索性质,将搜索引擎与推荐系统相结合应用到电商领域,提出了一种基于Elasticsearch的电商推荐系统架构。本文在电商领域设计并实现了一个基于Elasticsearch的分布式电商推荐系统搜索引擎,首先,介绍了课题的研究背景和意义,并对国内外搜索引擎的研究现状进行了分析,然后介绍了系统的实现过程中涉及到的技术和算法,其次阐述了系统的功能性与非功能性需求、技术方案,架构设计,技术设计与系统实现,最后对系统进行了测试与性能分析,通过点击率预估模型得出可解释且有实际意义的评价指标,即对用户的浏览点击率和交易转化率有了明显的提升。在系统搜索部分,本文介绍了Elasticsearch搜索引擎的全文检索能力,结合TMDB开源数据源来设计Elasticsearch多字段查询和打分原理,并实现可自定义打分排序逻辑。其可通过中文分词器完成中文分词,借助logstash-input-jdbc构建全量及非实时增量索引,在搜索引擎架构中,通过定制化分词器以及同义词扩展去丰富搜索准确性,并且通过一个词性分析以及相关性重塑的算法,打造一个可理解语义的搜索引擎。在系统推荐部分,本文采用关键词提取算法、多路召回推荐算法、混合GBDT和LR模型的排序算法,实现面向用户数据的个性化推荐和在线点击率预估。本文推荐系统适用于具有物品和评价的推荐系统,比如电影推荐系统、商品推荐系统,同时恶意评价过滤的有效性需要积累大量用户原始数据,在本文中实现的推荐系统在用户数据较少阶段,恶意评价过滤只能依赖公开数据集,在系统数据积累足够后,切换为历史用户评价。本文最终实现的是一个结合推荐和搜索的电商系统,结合用户的历史行为使用不同的推荐算法混合实现推荐召回和推荐排序,通过展示各主要功能模块详细设计方案说明系统实现过程。在最终的系统测试部分,对于不同的推荐算法进行了点击率预估对比,在测试结果中发现系统召回率和准确率均有提高,影响浏览点击率和交易转化率也有所提高。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设客栈 ,原文地址:https://m.bishedaima.com/lunwen/45782.html