面向物联网的实体智能搜索与推荐策略研究
这是一篇关于物联网搜索,搜索算法,边缘计算,实体识别,推荐系统的论文, 主要内容为随着物联网的日益成熟,物理世界中实体数量的爆炸增长,物联网搜索技术通过传感器采集并整合物理世界中的实体信息,及时为用户提供所需实体的状态信息。而由于实体的异构性与海量性,导致传感器采集到的信息过于驳杂,用户难以精确地获取实体信息。实体的动态性导致传统的互联网搜索和推荐模式无法满足物联网搜索的实时性要求。并且用户对获取实体信息的实时性要求较高,面向时变性实体的搜索和推荐方法亟待研究。首先,文中介绍了物联网搜索的研究背景和典型的应用场景,描述了物联网搜索技术的特点。其次,简述了国内外的研究现状,着重叙述和分析了物理实体搜索策略以及物理实体推荐策略。之后,文中提出面向物联网搜索的边云协同实体搜索方法。设计了边云协同的实体搜索系统架构,联合云端与边缘侧协同进行实体信息的搜索。提出适用于边缘侧的实体识别方法,考虑实体的特征信息并基于深度聚类模型进行实体的有效识别,提高实体状态信息搜索的实时性与准确性。仿真结果表明,所提搜索方法相比传统方法可有效提升实体搜索的实时性与准确性。再次,文中提出适用于物联网的边云协同实体推荐方法。现有的物联网数据推荐方法忽略了物联网数据和用户搜索行为的特征,因此其推荐性能相对受限。考虑物联网实体状态的时变特征和用户搜索行为的特征,结合边缘计算和云计算的优势,提出了一种边云协同的实体推荐方法。首先,设计了一种基于边云协同的实体推荐系统架构。此外,设计了一种在适用于云端的兴趣团体划分方法,该方法充分考虑了用户的潜在搜索需求,并基于聚类模型对用户兴趣组进行了划分,以提高推荐系统的质量。仿真结果表明,与传统方法相比,该推荐方法可以有效提高实体推荐的实时性和准确性。最后,对全文的工作进行了总结,并简要展望了未来可能的研究方向。
基于领域本体的主题爬虫系统研究与实现
这是一篇关于搜索引擎,主题爬虫,搜索算法,K-means算法,本体的论文, 主要内容为搜索引擎是人们从网络中获取信息资源的重要工具。目前主要的搜索引擎服务商有Google、百度、Yahoo等,这些搜索引擎面向的是广大的互联网用户,提供的都是横向的信息搜索服务。但是,由于互联网中的信息量巨大,网页内容参差不齐,如何为用户搜索到与搜索需求最相关的高质量网页是目前搜索引擎研究的热点问题之一。 本文着眼于目前主题爬虫研究的主要问题即爬虫搜索策略,主要进行了以下几个方面的工作。 首先对网络蜘蛛爬虫技术进行了深入研究。研究了搜索引擎的相关理论和技术之后,掌握了网络爬虫的工作原理以及具体的实现技术,在结合了主题爬虫通用工作模型理论之后,提出了本系统所采用的主题搜索引擎体系结构。这部分工作主要解决了主题爬虫主题概念集合表述、URL重要度判断的问题。主题概念集合将知识领域本体库中的知识点抽取出来之后,结合知识节点之间的关系,对整个集合中的特征词计算权重,以此作为主题特征词集合。在主题爬虫进行页面搜集的过程中,系统采用一种将网页内容相似度与链接结构相结合的算法,来对URL的重要程度进行计算,将解析出的URL按照重要程度的高低插入到待爬取链接队列中。网页内容的相似度是利用空间向量模型来计算网页相关信息与主题特征词集合向量的相似度,同时还考虑了关键词的位置,关键词所在位置不同,相应的权重也不同。在考虑链接结构时,本算法对HITS算法进行了一些改进,仅考虑了页面的Hub值,网页Hub值越大,越有可能是导航页,导航页比较容易发现相关的主题资源。该算法将父链接的网页文本价值与链接价值相结合,同时还考虑了父链接的重要度对子链接的贡献,可以提高链接价值的预测准确度,能够确保爬虫总是优先搜集重要程度高的页面。 其次对爬虫搜索结果的排序算法进行了研究。提出了将K-means算法应用于网页主题凝聚度的计算。以K-means算法为基础,通过对网页文本内容进行分词,计算分词与主题词的凝聚度,对页面的搜索结果就以该凝聚度为标准来排序。 最后,实现了一个基于领域知识本体的主题爬虫系统,利用数学知识本体库,通过实验对本系统进行测试。对实验结果进行了分析,并与相关算法进行了比较,验证了算法的可行性。
基于分布式开发-生物医学互联网服务平台的建设
这是一篇关于生物医学应用,分布式系统,SSM开发框架,搜索算法,Redis数据库的论文, 主要内容为随着互联网技术的发展,网络催生了有关于生物医学领域的小型电商网站,这些网站可交易一些实验用品,但垃圾信息过多,界面过于简单化,不能调优。不能应对多线程与高并发的访问,没有提供搜索引擎或者搜索引擎的准确率过于低下;随着技术发展,基于分布式的网站开发逐渐流行起来,分布式网站开发是分模块,能够整合现有的分散资源,整合Redis做数据缓存,使分布式网站能应对多线程与高并发访问。分布式网站开发能较好优化前端界面、系统I/O、开发代码,提供负载均衡的算法。本文采用基于分布式开发的方式创建一个生物医学服务平台,可实时提供商品信息,能应对高并发和多线程访问,提高了搜索引擎准确率和主题相关率。本文分布式网站开发是分模块来开发,由五个子系统(模块)组成。总的来说,本文的主要研究内容和创新点如下:对五个子系统组成的分布式生物医学服务平台的设计,采用分模块开发,五个模块分别是前端展示界面、后台商品管理系统、文件服务器、子系统管理工程、代码工程。这五个子系统共同组成了基于分布式开发的生物医学服务平台。对基于分布式开发-生物医学服务平台的后台数据库的设计,采用Oracle数据库,它整合Redis做数据缓存,使得分布式网站有能力应对大量用户同时访问的情况。对商城搜索引擎与结果排序算法的改进工作,通用搜索引擎的查找准确率不高、结果相关性有待提高的缺点,本文采用基于Nutch的开源引擎,使用最细的粒度分割算法程序做分词,对Link Rank排序算法做二次改进,改进后的搜索引擎的准确率与主题相关率得到提高。本文结合当下主流开发架构和实际需求,设计了一套分布式生物医学服务平台,解决了非分布式传统网站不能面对高并发访问的问题与提高了搜索引擎准确率和主题相关率。对于系统测试主要分为三部分,第一部分是测试分布式生物医学服务平台的功能,采用五个子系统串行测试的方法,结果表明五个子系统功能运行正常,即分布式生物医学服务平台能正常运行。第二部分测试此分布式系统的高负载能力,利用Jmeter对此服务平台平台和非分布式传统网站进行多用户高并发访问的测试,测试表明此平台的负载能力明显优于非分布式传统网站。第三部分测试对改进后的搜索引擎,选取五个关键字进行检索,并选取30个结果网页进行分析,得出改进后的结果网页与目标网页之间的主题相关率提高了6%。
基于领域本体的主题爬虫系统研究与实现
这是一篇关于搜索引擎,主题爬虫,搜索算法,K-means算法,本体的论文, 主要内容为搜索引擎是人们从网络中获取信息资源的重要工具。目前主要的搜索引擎服务商有Google、百度、Yahoo等,这些搜索引擎面向的是广大的互联网用户,提供的都是横向的信息搜索服务。但是,由于互联网中的信息量巨大,网页内容参差不齐,如何为用户搜索到与搜索需求最相关的高质量网页是目前搜索引擎研究的热点问题之一。 本文着眼于目前主题爬虫研究的主要问题即爬虫搜索策略,主要进行了以下几个方面的工作。 首先对网络蜘蛛爬虫技术进行了深入研究。研究了搜索引擎的相关理论和技术之后,掌握了网络爬虫的工作原理以及具体的实现技术,在结合了主题爬虫通用工作模型理论之后,提出了本系统所采用的主题搜索引擎体系结构。这部分工作主要解决了主题爬虫主题概念集合表述、URL重要度判断的问题。主题概念集合将知识领域本体库中的知识点抽取出来之后,结合知识节点之间的关系,对整个集合中的特征词计算权重,以此作为主题特征词集合。在主题爬虫进行页面搜集的过程中,系统采用一种将网页内容相似度与链接结构相结合的算法,来对URL的重要程度进行计算,将解析出的URL按照重要程度的高低插入到待爬取链接队列中。网页内容的相似度是利用空间向量模型来计算网页相关信息与主题特征词集合向量的相似度,同时还考虑了关键词的位置,关键词所在位置不同,相应的权重也不同。在考虑链接结构时,本算法对HITS算法进行了一些改进,仅考虑了页面的Hub值,网页Hub值越大,越有可能是导航页,导航页比较容易发现相关的主题资源。该算法将父链接的网页文本价值与链接价值相结合,同时还考虑了父链接的重要度对子链接的贡献,可以提高链接价值的预测准确度,能够确保爬虫总是优先搜集重要程度高的页面。 其次对爬虫搜索结果的排序算法进行了研究。提出了将K-means算法应用于网页主题凝聚度的计算。以K-means算法为基础,通过对网页文本内容进行分词,计算分词与主题词的凝聚度,对页面的搜索结果就以该凝聚度为标准来排序。 最后,实现了一个基于领域知识本体的主题爬虫系统,利用数学知识本体库,通过实验对本系统进行测试。对实验结果进行了分析,并与相关算法进行了比较,验证了算法的可行性。
基于领域本体的主题爬虫系统研究与实现
这是一篇关于搜索引擎,主题爬虫,搜索算法,K-means算法,本体的论文, 主要内容为搜索引擎是人们从网络中获取信息资源的重要工具。目前主要的搜索引擎服务商有Google、百度、Yahoo等,这些搜索引擎面向的是广大的互联网用户,提供的都是横向的信息搜索服务。但是,由于互联网中的信息量巨大,网页内容参差不齐,如何为用户搜索到与搜索需求最相关的高质量网页是目前搜索引擎研究的热点问题之一。 本文着眼于目前主题爬虫研究的主要问题即爬虫搜索策略,主要进行了以下几个方面的工作。 首先对网络蜘蛛爬虫技术进行了深入研究。研究了搜索引擎的相关理论和技术之后,掌握了网络爬虫的工作原理以及具体的实现技术,在结合了主题爬虫通用工作模型理论之后,提出了本系统所采用的主题搜索引擎体系结构。这部分工作主要解决了主题爬虫主题概念集合表述、URL重要度判断的问题。主题概念集合将知识领域本体库中的知识点抽取出来之后,结合知识节点之间的关系,对整个集合中的特征词计算权重,以此作为主题特征词集合。在主题爬虫进行页面搜集的过程中,系统采用一种将网页内容相似度与链接结构相结合的算法,来对URL的重要程度进行计算,将解析出的URL按照重要程度的高低插入到待爬取链接队列中。网页内容的相似度是利用空间向量模型来计算网页相关信息与主题特征词集合向量的相似度,同时还考虑了关键词的位置,关键词所在位置不同,相应的权重也不同。在考虑链接结构时,本算法对HITS算法进行了一些改进,仅考虑了页面的Hub值,网页Hub值越大,越有可能是导航页,导航页比较容易发现相关的主题资源。该算法将父链接的网页文本价值与链接价值相结合,同时还考虑了父链接的重要度对子链接的贡献,可以提高链接价值的预测准确度,能够确保爬虫总是优先搜集重要程度高的页面。 其次对爬虫搜索结果的排序算法进行了研究。提出了将K-means算法应用于网页主题凝聚度的计算。以K-means算法为基础,通过对网页文本内容进行分词,计算分词与主题词的凝聚度,对页面的搜索结果就以该凝聚度为标准来排序。 最后,实现了一个基于领域知识本体的主题爬虫系统,利用数学知识本体库,通过实验对本系统进行测试。对实验结果进行了分析,并与相关算法进行了比较,验证了算法的可行性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/lunwen/53783.html