面向汽车领域采购线索发现的主题爬虫设计与实现
这是一篇关于主题爬虫,PageRank算法,网页排序,主题相关度的论文, 主要内容为随着互联网的不断发展,网络现已成为全球化的信息库。在当今工业化、信息化的时代,汽车领域的网络数据增长迅速,其中关于车辆采购的信息能够充分表明市场中对于汽车的具体需求。对于汽车采购线索的发现与研究,在汽车销售、研发等方面起着重要的作用。互联网中存在着大量汽车领域相关采购数据的信息资源,但是由于信息获取较为复杂,不能被共享,导致了大量资源的浪费。如何定向爬取汽车采购线索的数据,将信息资源进行整合,成为目前主要的研究方向。政府采购网站是一个获取汽车采购数据的重要来源,主题爬虫技术是获取网络数据信息的主要方法,也是本文的主要研究内容。主题爬虫的功能是根据预设的关键词和初始网络url地址,在web上爬取与主题相关的数据资源。为获取汽车领域内采购线索的信息,本文在进行充分研究后,设计并实现了面向汽车领域采购线索发现的主题爬虫系统,主要工作如下:首先对各省市政府采购网站进行网页结构分析,爬取网站公告中与车辆采购、汽车租赁相关的网页信息,获取网页间的链接关系并存入数据库。其次,对PageRank算法进行改进,使其更加适用于汽车领域内采购线索的发现。传统的PageRank算法只考虑到网页之间的链入链出关系,并没有考虑主题相关度,会出现“主题漂移”现象,以及算法没有考虑到网页发布时间而导致“偏重旧网页”等问题。本文针对以上不足,将传统PageRank算法与车辆采购主题相结合,提出了一种面向汽车领域采购线索的APC-PageRank算法。该算法通过判断文本与汽车采购主题的相关性计算得到文本的权重值。权重值向量作为APC-PageRank算法的一个参数进行迭代计算。此外,文本在网页文档中出现的位置不同,重要性也不相同,例如标题的重要程度会高于正文内容。因此,对词项出现的不同位置赋予不同权重,作为APC-PageRank算法的一个参数。由于采购网公告会显示发布时间,所以添加时间反馈因子,对新发布的网页做出一定的补偿,使新网页在一定程度上能够上浮。最终得出PR值,并根据得分进行网页排名,使排序的结果更加符合主题。最后,针对设计出的面向汽车领域采购线索发现的主题爬虫系统进行实现。实验结果表明改进后的算法在汽车领域内对于汽车采购线索的主题表示方面具有良好的效果,主题明确且链入链出度高的网页,能够获得更高的排名,网页排序的主题准确率有所提高。
金融领域的博客信息采集与排序算法研究
这是一篇关于金融,博客搜索,信息检索,链接分析,网页排序的论文, 主要内容为博客是一个个人性与公共性相结合的媒介,它充分利用了网络双向互动,超文本链接,动态更新,覆盖范围广的特点,其精髓不是表达个人思想或是记录个人的日常经历,而是从个人的角度,来精选和链接互联网上最具有价值的信息、知识与资源,为他人提供共享资源。 随着博客的迅猛发展,带来了海量的博客资源,如何组织,检索,有效利用丰富的博客资源,挖掘有价值的信息引起了包括科研界和工业界的广泛关注,各种方法和技术的应用正在被探索中。目前google、百度等主要中英文搜索引擎加大了对博客的关注,但是对于博客的排序基本上还是采用传统的页面排序算法。 本课题在分析了博客与传统网页之间的区别的基础上,根据博客页面特征设计实现了一种基于RSS结构的博客爬虫系统,针对网络上的金融博客文章进行特定的爬取。对现有的博客搜索结果排序算法进行分析,对比BlogRank、B2Rank和EigenRumor等算法,找出可能影响博客排序的因素,并对可能影响最终排序结果的因素通过量化的方式加以评估,最后给出了一种不基于查询的金融博客搜索结果排序算法。 在此基础上,设计并实现一个博客系统平台,为爬取到的金融博客文章提供展示平台,并与整个海天园知识服务系统整合,提供常见博客服务。最后,对算法的试验结果利用文章热度进行评价,评价结果表明,对于特定领域,找到一种不基于查询的博客排序算法是可行的,68%的准确率也验证了算法的有效性。
视频检索与推荐系统的设计与实现
这是一篇关于内容检索,网页排序,文本分类,个性化推荐的论文, 主要内容为随着互联网的持续发展,视频数据大量积累,人们对于视频的有效获取有了更高的要求。目前,一般的检索系统没有评估资源的好坏,也没有对用户做有针对性的检索,个性化推荐时也并未考虑当前用户的意图。为了使用户检索视频资源时能够获取质量相对较高并且和用户相关程度较大的视频,也为了使用户能够获取个性化推荐的视频,加快用户获取合适资源的效率,缓解用户在检索效果上的体验不佳,设计并实现了视频检索与推荐系统。系统首先抽取了用户的历史检索文本以及各个视频资源的相关文本,采用基于信息熵和互信息的命名实体识别技术获取了视频领域的命名实体,作为后续分词的重要依据。通过设计倒排索引表,计算出检索文本与视频资源的匹配度得分。通过设计计算规则来计算视频资源的质量得分,以及采用词频-逆词频(TF-IDF)技术计算出视频与用户的相关度得分,最终根据上述三种评分对检索到的候选视频重新排序,按照得分顺序展示搜索结果。通过文本卷积神经网络(Text-Convolutional Neural Network)对检索文本分类,识别出用户的检索意图,获取意图分类下的热门视频作为待推荐视频。根据用户的历史行为记录,采用基于用户的协同过滤算法以及基于视频资源的协同过滤算法得到两种待推荐视频。最终,综合考虑三部分待推荐视频的质量得分排序给用户个性化推荐视频。系统详细介绍了检索和推荐的原理及实现过程,在完成各个模块之后,对各个模块做了功能测试和性能测试,测试表明各个模块都能正常工作,检索到的资源与检索文本一致,推荐的视频合理。
基于Shark优化算法的主题搜索引擎研究
这是一篇关于主题搜索引擎,网络爬虫,网页排序,Shark Search的论文, 主要内容为由于高新技术不断推动着产业种类与结构向专业化和精细化发展,那么如何高效获取专业实用信息成为了人们普遍关注的问题之一。因传统搜索引擎的检索精度不断下降,于是掀起了研究基于主题的搜索引擎的热潮。本文以搜索引擎相关理论基础为铺垫,简明介绍了搜索引擎的特点、基本架构、关键技术以及主题网络爬虫的原理、结构及工作原理等,接着详细分析了常见的三种主题爬行算法与比较了Page Rank与HITS两种基于链接结构的网页排序算法,针对使用单一的评估方法无法达到有效预测链接地址实际价值的目的,提出了基于内容评估与Web链接结构组合的搜索策略方案,并基于主题搜索引擎基本思路提出了一种新的主题爬行模型和设计了一种新的多线程协作式主题爬行器。在讨论与设计了搜索引擎基本方案与爬虫系统之后,针对shark算法存在的不足,如无关网页后面连接着相关网页链接、优先度区别过小及URL队列过长,提出了优化改进思路,同时也设计与实现了shark算法,最后根据网页内容链接相关性计算,描述了多媒体主题的网页搜索算法实现步骤与通过仿真实验比较了传统Fish、shark Search算法与优化的shark算法。与通用搜索引擎相比,主题搜索引擎像是一种变体,它在其基本结构与技术上优化了通用搜索引擎的一些功能。为了专业用户更高效更准确地获取所需要的专业领域信息,特针对主题搜索引擎设计了网络爬行器,其爬行网页的基本思想是:针对既定主题搜索网页并过滤与主题无关的网页,留下主题相关网页。Shark-Search算法是一种十分有代表性的主题搜索引擎算法,根据多媒体素材在网页中分布特点,Shark-Search算法主要从三个方面:搜索广度、链接相似性判断与要抓取链接选择策略上做了进一步优化,而且采用“先搜索、后判断”的查询方案,大大提升了多媒体网页主题搜索的效率。
基于Nutch的分布式爬虫系统的研究与优化
这是一篇关于分布式爬虫系统,Nutch,网页去重,网页排序,文档指纹的论文, 主要内容为伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展成为计算机产业界及学术界研究的热点。Hadoop以其良好的扩展性及可靠性成为当前应用较为广泛的云平台,得到了许多研究人员的关注。而作为Hadoop起初的主项目Nutch,是一个Java语言开发的开源搜索引擎,其支持分布式爬虫,且底层实现使用Hadoop,越来越多的学者围绕两者的结合展开研究,通过各种方式提高分布式搜索的效率。本文首先对Hadoop平台以及Nutch框架进行了分析研究,包括Nutch的插件机制与索引机制以及Hadoop分布式文件系统与分布式计算模型Map/Reduce。研究并分析了几种常见的网页去重算法与网页排序算法。在此基础之上,针对原生的Nutch系统在网页去重及网页排序方面的不足,提出了基于加权特征句提取的网页去重算法以及基于文档指纹与页面重要性的PageRank算法。其中基于加权特征句抽取的网页去重算法采用了网页内容加权提取的方式,并利用sim-Hash算法将文档表示成特征指纹集合,并通过计算集合间的Jaccard系数判断页面是否相似;基于文档指纹与页面重要性的PageRank算法利用本文提出的去重算法中的文档指纹来衡量网页间的主题相似度,并根据页面的链入链接数来分配所得的PageRank值,改善传统PageRank算法中出现的主题漂移问题以及权值的平均分配问题,并给出了这两个算法在系统中具体的Map/Reduce实现。最后,搭建Hadoop+Nutch的实验环境,并在Nutch系统实现中文分词的基础上对相关算法进行了测试实验,实验结果表明基于加权特征句抽取的网页去重算法拥有良好的去重效果与时间效率,并且这两方面达到了良好的平衡;基于文档指纹与页面重要性的PageRank算法与传统的PageRank算法相比,具有更高的查准率与稳定性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码港湾 ,原文地址:https://m.bishedaima.com/lunwen/56147.html