分布式全文检索系统中索引管理及文件预处理研究
这是一篇关于全文检索,分布式,文本提取,中文分词,Katta,页面缓存的论文, 主要内容为信息时代,数据规模呈现爆炸式增长,非结构化信息越来越庞大。网络中的信息具有海量规模和非结构化两大特点,传统的集中式索引难以提供高效、可靠的服务,需要建立分布式全文检索系统,处理海量的非结构化信息。 分布式检索系统的主要处理对象是文本数据,使用自然语言进行检索,就需要对网络上获得的各种类型的数据进行文本提取、自然语言的分词,以便建立结构化的索引。同时也需要建立分布式索引管理机制,实现索引在各节点的负载均衡、数据同步、分布式查询,并保证信息安全。本文主要研究分布式检索系统的文本提取、中英文混合分词、分布式索引管理。 本文设计并实现了支持多种文件格式的文本实时提取系统。该系统包括文件实时监控、文件类型识别、编码识别与转换、文本内容提取四个模块,使用Inotify监控数据源,将发生写操作的文件加入任务队列,识别文件类型,针对文件类型采取相应的方案进行文本提取,提取Office系列文档、pdf文档、压缩文档、邮件文档、网页文档和xml文档等文件的文本内容,制成统一编码的纯文本文件。 本文设计并实现了中英文分词器对中英文语料进行分词。分词器包括中文分词、英文分词、混合分词三个子分词器,均基于Trie树构造词典。处理文本时,首先调用混合分词器,若分词不成功则根据当前字符的语种分别调用中文或英文分词器。中文分词器采用折半扫描的正向增字最大匹配算法采集歧义字段,并设计了一套歧义处理机制来消歧。英文分词器结合波特词干算法与词典匹配法提取单词词根。结合三种分词器,能对中英文混合的语料文本准确高效地分词。 本文设计并实现了基于Katta的分布式索引管理平台,用于管理大规模索引文件,并实现了提供给用户的搜索接口和交互页面。从Katta源码中开发出接口函数,建立了一套任务管理机制,定时合并索引,并利用Zookeeper的虚拟文件系统解决索引更新和客户端搜索之间的冲突。采用Tomcat搭建Web服务器,通过JSP/Servlet技术与客户端交互,优化了搜索算法,支持分页查询、条件查询等高级搜索,为客户端提供简洁的搜索页面,设计了一套页面缓存算法增强用户体验。将数据源挂载到Web服务器,使客户端能从结果列表的链接查看原始文件,提高了搜索性能,用户体验良好。
基于自然语言理解的全文搜索研究
这是一篇关于自然语言理解,倒排索引,全文搜索,中文分词,局部索引的论文, 主要内容为随着网络技术的发展,网络中存在的信息量也越来越大,如何高效、快速、准确地从庞大的信息海中获取到满足要求的信息已经成为人们重点关注的问题。传统的信息检索技术仅仅是从关键字的角度出发进行信息的机械匹配,现在越来越多的人已经开始将自然语言与搜索引擎技术结合研究,探索智能搜索引擎的开发。本文分析研究了信息检索技术中比较主流的全文搜索技术,全文搜索技术对非结构化文本的处理就是将文档中的所有内容作为研究对象,经过文本处理得到可以被索引的纯文本信息,然后对文本信息分词建立索引形成索引库,当有用户进行信息检索时,对用户输入的关键字进行一定的处理再与索引库中的索引关键字进行匹配,从索引库中提取出满足用户要求的信息。在全文搜索技术的基础上,加入自然语言理解的中文分词处理层次,具体的研究内容和成果如下: ①分析研究了全文搜索、自然语言理解的关键原理及处理机制,在理论的基础上,结合SS (Struts+Spring)框架开发出一个基于自然语言理解全切分中文分词的全文搜索系统原型,此系统原型是针对目前各种典型非结构化文档的全部内容进行文本预处理、中文分词、建立索引库、在索引库中进行信息检索; ②已开发出的系统原型对于文档信息量较小的文档库进行建立索引库检索信息的效率、准确率都比较高。但是可以预想,当文档库所包含的信息量非常大,对文档全部内容进行预处理,再分词建立索引库,时空耗费必然也相当庞大。针对这一缺陷,本文提出了一种对文档内容建立局部索引的思想,并且在已开发完成的系统原型基础上进一步研究,比较两种不同的文档处理机制,经过试验,得出对文档内容建立局部索引在信息检索领域是相当有研究价值的。
基于社交关系的职位推荐系统的架构与实现
这是一篇关于职位,求职,招聘,社交网络,搜索引擎,中文分词,推荐系统,微博的论文, 主要内容为近年来,业界都在关注传统行业与互联网行业的结合点,网络招聘正是其中一个风口。社交网络的兴起对网络招聘既带来了机会,又带来挑战,一方面越来越多的企业尝试通过社交网络招聘来节省成本,但这些活跃的企业大量发布的招聘信息,对求职者来说形成了信息过载,无法快速找到合适的职位。另一方面,当人们寻找工作机会时,相较于陌生公司,社交好友所在的公司往往运营状况,薪酬待遇更加透明,所以更受青睐,而公司也乐于采用内部推荐这种成本低廉的招聘方案,但目前求职者并没有这样好的工具找到这样的机会。通过对以上问题的分析和对推荐系统的研究,本文提出了构建基于社交关系的职位推荐系统,给用户推荐其好友工作过的公司正在招聘的职位,来解决职位相关度不足和过载的问题。系统在对分布式数据抓取,短文本语义分析,搜索引擎及推荐引擎的研究基础上,通过搭建分布式数据采集系统对新浪微博上的微博数据,用户好友关系和职业信息进行采集,利用中文分词工具和自行研发的布尔逻辑组合分析微博语义,挖掘出属于职位信息的微博数据作为系统职位数据源,对用户好友关系及职业信息进行预处理,作为推荐职位的依据。通过构建职位索引来搭建搜索引擎对社交网络职位关键字搜索,再利用对用户好友的公司集合的分析,建立推荐引擎为用户推荐与自己好友公司相关的职位。最后搭建网站端和Android及i OS移动端,让用户随时随地,无缝的搜索和订阅社交网络上的职位,得到个性化的职位推荐。同时在本系统的搭建过程中,我也发现了在用户社交关系和职业信息获取,职位数据源的丰富,社交职位分析的准确性和此类职位推荐产品商业模式方面还有很多问题值得深入探索。
基于Heritrix和Lucene的国内机票比价系统的设计与实现
这是一篇关于比较系统,中文分词,机票价格,Hertrix,Lucene的论文, 主要内容为随着信息产业的高速发展,互联网逐渐成为许多行业的重要载体。当前各行各业的电子商务层出不穷,比价系统是电子商务发展中一个非常重要的应用,可以方便用户对产品价格进行比较,也可以给各大电商提供定价参考。比较系统逐渐成为各大电子商务网站提升自身竞争力和增加用户粘度的利器。在航空领域,电子机票的使用已经非常广泛,网上订票系统极大地方便了人们的出行。但是在机票的销售领域竞争也非常激烈,同一航班的机票价格在不同的销售站点差异也非常大,给用户购买机票带来价格上的困扰,也给机票销售站点的定价带来混乱。本文针对这钟状况,基于开源的Heritrix和Lucene项目,设计并实现一款基于国内机票的比价系统。本系统对互联网机票价格数据爬取、处理和比较后,会对某条航线或者航班的价格进行排序,并给出是否低于均价、性价比是否合适的判断,同时会给出用户购票的跳转链接。论文的主要工作包括如下几个方面:1.系统的需求分析。主要分析了系统实现的目标、功能以及性能要求等,明确了系统的构成和要求。2.详细分析了实现比价系统的关键技术。主要包括:主题爬虫、中文分词、以及开源软件Hertrix和Lucene的使用进行了讨论,并结合机票价格的主题对如何使用这些技术做了分析,解决主题相关性、中文分词技术选择、页面解析和DOM等关键技术难点。3.系统的设计和实现。论文分析了系统的总体设计、各模块组成和数据库的实现,分析和讨论了数据库关键表项。分模块论述了机票信息的爬取,数据相关性计算,通过页面处理实现目标数据的提取和入库,对机票价格数据信息的处理获取最低票价并实现价格走势图,最后提供给用户通过终端查询。4.测试与验证。对本系统的功能和性能分别加以测试和验证,测试结果显示,本文利用Hertrix和Lucene技术实现了对机票价格的比较。本课题探索了Hertrix和Lucene技术在机票价格比较系统上的设计和实现,并在一定范围内得到了应用。
基于SSH和Lucene垂直搜索引擎研究
这是一篇关于垂直搜索引擎,中文分词,条件随机场,Lucene,SSH的论文, 主要内容为随着互联网的发展,现在中国网民居世界首位。网络上信息量的剧增使得通用搜索引擎显得有点力不从心,垂直搜索引擎的出现,就是为了解决这类问题。开源垂直搜索引擎中Lucene的分词模块使用简单分词机制,存在分词精度不高的缺点。因此本文引入了一种基于位图数据结构与条件随机场模型的中文分词词典机制,在一定程度上提高了分词的精度,降低了词典机制的空间复杂度。实验表明:分词词典所占用的内存减少的同时,垂直搜索精度有一定的提高。具体工作如下: (1)论述了垂直搜索引擎的研究价值跟背景,并且深入分析了垂直搜索引擎的两大核心技术:中文分词技术,以及Lucene排序技术。 (2)主要对Lucene源码包进行了必要的学习与研究,分析其中两种中文分词算法,双字切分算法和正向最大匹配算法,但是存在分词精度不高的缺点,因而可以改进既有的Lucene分词包来提高中文分词的精度,并将它应用于垂直搜索引擎当中。 (3)设计了一个垂直搜索引擎系统,使用了一些开源的框架:Spring、Struts2和Hibernate。整个系统包括了网页抓取模块、蜘蛛模块、信息提取模块、以及索引与检索模块。采用HtmlParser提取网页信息,引入了改进的基于位图与条件随机场中文分词模块来对中文进行分词,提高了中文分词的精度。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://m.bishedaima.com/lunwen/45761.html