百事公司大数据技术应用及实施管理研究
这是一篇关于大数据应用,Hadoop,SAP HANA,项目管理的论文, 主要内容为本文通过研读对国内外大数据相关文献,并结合国内外大数据发展状况,对比期间的差异,找出差距。通过国内外大数据相关公司和最新的解决方案,以及大数据核心技术和应用Hadoop,剖析其工作原理,用结构图的方式进行表达和展示,并研究其特点。以百事公司为案例,描述企业运转现状,并对发现的问题进行分析。通过SWOT分析法,结合企业内部自身的优劣和外部环境的机会与威胁,提出运用大数据工具解决当前问题的理由和设想,并阐述实施策略和方法。提出结合目前公司系统运转的现状,利用大数据技术来整合多系统平台,解决信息孤岛的问题。实现提高后台数据处理速度和报表展现效率,并对整个项目进程进行管理和把控。具体包括项目实施前的SAP HAN A内存计算技术验证,验证场景的选择。项目准备阶段人员架构及功能职责的确立和沟通机制的建立。以及项目实施计划和步骤,项目交付物,知识转移和培训,还将对项目实施的过程进行的项目需求、范围、系统和沟通等管理,控制风险,通过对项目的管理达成目标。希望此文对大数据相关技术和理论方面的学习、了解,以及实施大数据技术和解决方案策略方法,能够提供经验和参考。最终能为企业管理者分析和实施大数据的管理决策,提供决策支持以及解决方案。
基于HBase的路面影像数据库构建与应用研究
这是一篇关于公路养护,Hadoop,HBase,二级索引,Zookeeper,影像数据库的论文, 主要内容为我国公路管理正逐渐从过去以建设为主向以养护运营管理为主过渡,逐步开启了公路的智能养护管理的新时代。路面影像能够全面直观反映公路的养护状况,是公路信息化管理的基础数据,也是路面技术状况分析与评价的核心数据,在智能养护领域不可或缺。由于路面影像数据量大、更新调用频繁,给数据的存储、组织、管理、检索与服务带来了巨大的挑战,因此路面影像数据的高效组织与服务已成为智能养护信息化领域的技术关键。本文基于HBase大数据技术,针对道路路面影像的特点,研究提出了路面影像分布式数据库原型系统,实现了路面影像数据的高效组织和服务,支撑辽宁公路信息化管理平台,实现了公路空间矢量数据、属性数据和路面影像数据的无缝整合,支撑养护管理数据、路况评价信息的可视化表达,提升了公路养护部门的信息化水平和科学决策能力。论文主要研究内容如下:(1)对路面影像数据及现行的公路信息化平台进行了分析,提出使用基于分布式文件系统的非关系型数据库系统来实现路面影像数据管理的技术路线,在对比分析了9种主流的分布式文件系统后,采用基于Hadoop并行计算框架的分布式数据库HBase,利用它提供的Get、Put、Scan和Delete等功能在HBase API的基础之上进行二次开发,实现路面影像数据精准的增删改查功能。(2)搭建了HBase分布式数据库集群。采用Zookeeper+Hadoop+HBase+JDK技术路线,研究提出了HBase分布式数据库优化策略,对HBase读写性能影响最大的KeyValue值进行了实验,确定了吞吐率、延迟以及平均运行时间的最优值范围;研究了二级索引的理论与方法,提出了基于哈希索引算法、逆序算法以及RowKey散列化算法,结合数据库表共同构成了列二级索引,将单条数据的读取性能提升到毫秒级。(3)基于Spring Boot框架、HBase API以及相关Java代码编写实现了路面影像的自动化读写微服务接口,为影像数据批量入库、批量读取以及数据管理提供支持,成果最终应用到“辽宁省公路大数据基础管理平台”与“路面病害检测云平台”中,取得了良好的效果。该论文有图27幅,表10个,参考文献56篇。
结合信任模型的协同过滤推荐系统研究与实现
这是一篇关于信任模型,协同过滤,电影推荐系统,Hadoop的论文, 主要内容为当今,网络中充斥着各种各样的信息,信息过载问题日益严重。对于普通的网络用户而言,很容易被复杂的信息所干扰,使得他们需要花费成倍的时间以及精力去寻找自己需要的信息。而推荐系统为信息过载问题提供了一种有效的解决方法,它能够针对用户的特点为其提供个性化的推荐服务。推荐系统根据不同的应用需求使用的推荐算法不同,其中协同过滤推荐是目前最为流行并且实用的一种推荐技术。在本文中对现有基于信任的协同过滤推荐算法进行研究和改进,最后设计并实现了一个结合多算法电影推荐系统。本文的主要工作包括:①对推荐系统进行深入研究,分析其概念构成、评估标准等。对几种常用的推荐算法的流程、特点进行重点分析。②传统的协同过滤推荐存在数据稀疏性问题,这在很大程度上影响了推荐结果的准确性。在本文中将信任关系与协同过滤推荐相结合,通过用户之间的信任关系扩充用户最近邻集合,从而缓解数据稀疏性问题。③使用Movie Lens数据集来对改进的算法进行实验,然后将实验的结果与现有的一些协同过滤算法进行比较,以此来对算法改进的有效性进行验证。④设计并实现一个电影推荐系统。为了尽可能多地覆盖到用户的兴趣点,系统中实现了基于内容推荐、基于项目协同过滤推荐以及结合信任模型的协同过滤推荐这三种推荐算法。并且为了满足大数据的处理需求,推荐引擎是基于Hadoop分布式平台实现的。
分布式环境下的网络爬虫系统研究与优化
这是一篇关于URL,去重策略,Libevent,框架,网络爬虫,Hadoop的论文, 主要内容为在信息每天都以爆炸式速度增长的今天,单机网络爬虫系统抓取性能遇到了瓶颈。基于分布式系统的网络爬虫技术的出现,大大提高了并发抓取的性能。但是现有分布式网络爬虫系统存在不足之处,采用纯多线程异步方式进行抓取的网页抓取模块为了解决线程同步和资源竞争等问题设计了线程管理模块,执行该模块降低了系统性能。网络爬虫中的URL去重算法在处理大数据集时或存在去重效率低的问题或存在占用存储空间大的问题。因此本文对网页抓取模块和URL去重策略进行优化具有重要工程意义。 本文基于现有网络爬虫的不足之处,对网页抓取模块和URL去重策略提出了改进优化方案。网页抓取模块采用半同步/半异步方式设计的多线程池,主线程负责任务调度,工作线程负责具体的逻辑处理。各线程对网络事件的处理将由Libevent网络库完成,采用这种方式设计的网页抓取模块非常适合高并发大数据处理。URL去重策略采用缓存机制,将重复度高的URL保存在缓存队列中,减少了访问存储系统的次数,提高了URL去重的效率。本文基于上述优化方案设计了运行在Hadoop分布式环境的网络爬虫系统。 最后通过搭建测试环境,从功能和性能两个方面设计了详细的系统测试方案,对优化后的爬虫系统进行测试,通过与现有分布式网络爬虫在单机模式、集群模式下的抓取能力进行对比,验证本文基于优化方案设计的网络爬虫是高效的。通过与现有URL去重策略从去重时间和准确性两方面进行对比,验证本文提出的去重策略是高效的。
基于Hadoop的智能家居管理软件的研究与设计
这是一篇关于智能家居,任务调度,分层设计,Hadoop,SSH的论文, 主要内容为近年来,随着人们生活品质的不断提高,智能家居越来越受到人们的亲睐。传统智能家居系统大多都是独立的,每个家庭都由其家庭服务器提供服务,但家庭服务器的冗余性、容错性和数据处理能力较差,这种模式下的智能家居不够灵活。此外,智能家居厂商采用的标准不统一,很难实现不同厂商设备间的互联互通。同时,厂商也很难保障底层设备数据的安全。本课题针对上述情形和用户的需求,利用分布式计算平台Hadoop具有冗余性较高、数据处理能力较强等优势,将Hadoop与现有的智能家居系统结合,采用分层设计的思想设计了松耦合、易扩展的基于Hadoop的智能家居管理软件,为用户提供可灵活扩展家居系统的统一化管理服务,实现不同厂商的智能设备互联互通、保障底层设备数据安全。本文的主要工作如下:1.分析国内外分布式计算框架技术、分布式计算技术在智能家居领域应用的研究现状。根据当前智能家居系统存在服务器处理能力不够及不同厂商的设备间无法互联互通等缺点,结合智能家居系统的需求,提出了本课题研究的内容和意义。2.搭建本课题所需的分布式计算平台Hadoop。同时,考虑到软件向多个社区的用户提供服务时,易出现高并发访问的情形,对Hadoop平台的任务调度算法进行研究与改进,使用多维约束目标改进遗传-蚁群算法,并将改进后的算法应用于Hadoop平台上。根据仿真结果,改进后的算法比改进前任务执行时间减少2.03%,平台负载均衡水平提高1.44%,一定程度上改善了用户的体验效果。3.根据分层设计思想和B/S设计模式,将智能家居管理软件划分为五层:表示层、控制层、业务逻辑层、数据访问层、数据层,采用Struts2、Spring4、Hibernate5(SSH)框架,按照用户需求设计和实现软件的各项服务功能,这些服务功能包括用户登录及注册、用户管理、数据信息管理、设备管理、视频监控、家电控制和消息推送。4.搭建智能家居管理软件测试环境,按照用户对智能家居服务的需求,依据软件质量测试标准GB/T25000.51-2016和GB/T25000.10-2016、标准GB/T35136-2017,对软件的功能和非功能进行测试,以此来测试软件功能的合理性和可行性。测试结果表明,软件满足用户对智能家居服务的需求,稳定性和兼容性符合国家软件标准。
基于Hadoop的个性化推荐系统的设计与实现
这是一篇关于推荐系统,Hadoop,协同过滤,并行化,用户特征,项目特征的论文, 主要内容为随着互联网的普及与迅猛发展,产生信息成本的降低与传播信息途径的增多,导致了信息的爆炸式增长。互联网中的海量信息给用户带来了信息过载的困扰。推荐系统可以为广大用户在互联网的信息海洋中,快速有效地定位符合用户自身喜好的个性化信息,是解决信息过载问题的一种有效方法。另外,随着系统数据量的急剧增长,传统单机模式会难以负荷如此海量的数据,推荐过程中的运算难以进行,会遭遇较为严重的扩展瓶颈。因此,大规模数据量对推荐系统的实现提出了新要求。本文重点研究了提高推荐准确度与系统的可扩展性及运行效率的问题。为改善传统协同过滤推荐算法存在的冷启动和数据稀疏性问题,本文首先在用户相似度计算中引入了用户特征因素,使那些没有历史评分数据或者评分数据十分稀疏的用户可以基于自身特征发现相似用户集,从而初步为这些用户产生未评分项的预测评分,对原本稀疏的数据集进行填充。随后,在填充后变得密集的数据集上,利用项目自身属性提高项目间相似度计算的准确性,从而能更加准确地预测用户的喜好。通过大量实验研究,确定了用户特征和项目特征在相似度计算中的权值。为了提升系统的可扩展性和运行效率,本文引入Hadoop平台实现了数据的分布式处理,运用MapReduce编程框架实现了算法的并行化计算,克服了单机处理的运算瓶颈。利用Hadoop集群,在不同集群节点数的环境下,分别对本文提出的算法进行了实验,分析了算法的推荐准确度,对比了分布式与单机模式的运行效率。最后,对整个系统进行了前端与后台的交互设计,数据存储与展示的实现,以及推荐引擎的搭载。实验结果表明,使用本文所提出的改进算法对用户产生的预测评分的平均绝对偏差MAE值普遍更小,推荐准确度更高。同时搭载Hadoop的分布式架构使得系统具有良好的扩展性,在本文所用的数据集上,分布式处理数据比单机处理的运行时间缩短了近三成。由实验结果也可以看出,数据量越大,并行化计算的优势越明显,可以带来的效率提升越高。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://m.bishedaima.com/lunwen/44957.html