基于无锁结构的大容量数据高性能检索系统研究
这是一篇关于无锁,多核心,大数据,检索系统的论文, 主要内容为处理器的发展趋势由高频转向多核,普通的桌面PC有望在2017年末2018年初达到24核心(或者16核32线程),主流服务器的CPU核心数也都达到12核以上。基于锁同步机制的大容量数据检索系统在各方面无法发挥多核CPU的优势,开发过程中经常容易引入非常严重的缺陷,增加了引起死锁和数据竞争等严重问题的风险。同时随着核数的增加性能出现严重下降,不具备可扩展性。近年来软件开发者开始对无锁(Lock Free)数据结构进行不断研究,使用CAS的细粒度同步原语的无锁数据结构能够摆脱死锁和数据竞争问题,更重要的是它对于多核是可扩展的。业界也有诸多基于无锁的数据结构库。将这类结构应用到检索系统中,将会对检索的性能产生显著提升。本文以对现有电商商品检索系统的改进为背景,以无锁数据结构相关技术为切入点,对大容量数据高性能检索系统的实现进行了研究。具体工作可以概括为以下几点:本文首先对高性能检索系统的现状和发展趋势进行了深入分析。研究了当前检索系统在数据结构使用上的现状和局限性,分析了各类数据结构在多核计算机系统场景下所面临的问题和挑战,阐述了研究无锁数据结构对检索系统带来的作用和意义。其次,研究了大容量数据高性能检索系统的总体技术。概括性的介绍了检索系统的各组成部分及其功能,以及使用到的主要的数据结构。重点分析了 RPC消息队列、正排检索和倒排检索。然后,对RPC消息队列、正排检索和倒排检索进行无锁化结构重新设计,确定了各数据结构方案,并进行了设计和性能测试。利用无锁CAS技术提出了新的无锁队列、受限的无等待跳跃列表和受限的无等待散列表结构,并与现有常用的有锁的各类方法进行了对比,并进行了工程实践,并最终将这些新的数据结构应用到大容量数据检索系统中去。最后在单机的工作条件下,对新旧两种检索系统在相同的条件下进行检索正确率和召回率测试,在保证检索系统的检索正确率以及召回率的前提下验证了新的检索系统的检索性能改善。
大数据背景下电商平台价值创造路径及财务绩效研究——以京东为例
这是一篇关于大数据,电商平台,价值创造,路径创新的论文, 主要内容为大数据时代的到来促进生产力增长并推动创新,从中可以开发出巨大价值,各国也将大数据研究和发展作为国家的重要发展战略。在大数据的时代背景下,电商企业手握获取大数据的天然优势,却往往陷入资本的热潮中,利用一些手段来不断地扩大自身的发展规模,对“量”过分追求,忽视了“质”,导致商品种类创新速度提升,但是产业经营却变得逐渐空心化。如何运用大数据进行价值创造路径创新,建立切实可行、明确的盈利模式,是各电商平台亟需解决的问题。本文通过案例分析的方法,选取在利用大数据进行价值创造处于领先者地位的京东集团,从价值发现、价值创造和价值获取效果三个阶段入手,研究在大数据的背景下其如何运用大数据进行价值创造路径创新,并深入分析京东在价值链上通过优化特定环节进一步创造价值的过程,提炼特点为同行业企业正在进行的价值创造提供思路和建议。通过研究总结出京东价值创造路径创新的特点:(1)在价值发现阶段,首先电商平台要针对大数据的主要特点采取针对性的措施,快速、准确地收集大量的原始数据并分析加工成为数据资源。其次要提升企业数据数据分析处理能力,改良出高效率模型,以此打造一体化、自助化的平台,开发了一系列工具提升数据处理效率。(2)在价值创造阶段,根据大数据分析提取出具有实用价值的数据资源,对整个供应链进行流程优化,这些环节包括加强与上游供应商信息共享,实现了深度协同节约采购仓储成本、个性推荐及精准营销提高用户体验、优化物流节约成本。(3)在价值获取效果分析中,根据财务绩效指标验证了,京东作为电商平台企业不断通过大数据进行供应链的流程优化。这对公司运营效率的提升以及成本的降低具有重要的意义,并从各个层面对影响进行总结。最后针对特点提出大数据背景下,电商在价值创造路径开辟的相关意见。在价值发现阶段提升价值判断准确性,实时应对市场环境变化。在价值创造阶段増强信息交互降低交易成本,提升决策效率和节约成本。
基于Hadoop网上购物系统算法的分析与实现
这是一篇关于大数据,Hadoop,MapReduce,算法的论文, 主要内容为当今社会,科技的发展越来越迅速,随之应用技术也层出不穷,数据量的骤增,互联网成为当之无愧的数据库巨头之一,从此也代表着大数据时代的到来。在大数据时代下,如何获取更有价值的数据信息才是重中之重,给人们的生活带来便捷。当前,越来越多的计算机技术以及宽带网络技术迅速发展,应用极其广泛。目前,由于“大数据”在消费者对产品的使用中起到潜移默化的作用,如何能在大数据中获得有利信息大大吸引了许多电子商务企业,最典型的非淘宝莫属。纵观当今电商,成为购买者的首项评判标准就是产品销售量的多少,人们总是倾向于销售量高的产品,因为这些产品不仅有更多的评价也有更多的反馈,因此可以多方面的判断商品是否最大程度的符合消费者。“大数据”不仅给消费者带来更多的安全感,并且带来更高的可靠度。所以,电子商务如此重视“大数据”也是情理之中。由此可知,重中之重就是如何从大数据中提取出有价值的数据,然而Hadoop工具平台就有效的解决了这个难题。处理大数据的技术具备如下三大优势:(1)强大的信息检索服务功能;(2)准确的数据分析;(3)快速的弹性处理能力。本文主要介绍基于Hadoop网上购物系统的工作流程以及内部相关算法的研究与分析,大数据给电商企业提供了5个方面的价值:(1)数据的可见程度高以及获取便捷;(2)竞争方式多样化;(3)众多实时性用户的运营;(4)大数据在其管理方式的运用;(5)构建基于大数据的商业模式。主要研究的主要内容:(1)研究了Hadoop基础框架以及Hadoop的核心组件。(2)分析HDFS和MapReduce的体系结构及工作原理。(3)基于MapReduce框架中,分别对朴素贝叶斯算法、K-modes算法、ECLAT算法进行分析研究,探讨大数据流在Hadoop上快速运行的原理。(4)针对这三类算法,进行分布式算法的实现,均能够基于Hadoop平台高效、稳定运行,并能对其进行分析对比,说明其适用于大数据中。
大数据视角下房地产公司项目预算管理优化研究——以A公司为例
这是一篇关于项目预算管理,大数据,房地产企业的论文, 主要内容为项目预算管理是一种能够有效实施资源分配的管理方法,同时也是房地产开发企业主要的经济管理手段,而信息技术的飞速发展带领我们进入了大数据时代,凭借着快速、全面的数据处理能力,可以为预算管理注入新的活力,如何将大数据技术与预算管理有机结合成为优化企业管理的重点。同时房地产企业受到“三道红线”等政策调控的影响,已经进入了缓慢发展期,企业之间的竞争压力加大。房地产行业作为政策敏感型、资金密集型的行业,如何能更为有效地进行项目预算管理以达到成本效益最大化就成为可持续发展的重中之重。本文对当前房地产开发企业的发展现状与影响因素进行分析,之后以A公司为例,运用文献研究法和实地调查法探究大数据背景下房地产企业如何优化项目预算管理。通过对目前集团内的项目预算管理制度以及执行情况梳理过后,发现如下几个问题:(1)在项目预算编制环节中:预算编制方法粗放,预算数据不够精准;预算数据基础不全面,预算方案缺乏指导性。(2)在项目预算执行与控制环节中:预算控制薄弱,项目预算执行不到位。(3)在项目预算考核环节中:考核制度不全面。针对这些问题,本文提出了一整套项目预算管理优化方案:首先重构A公司项目预算管理框架,建立大数据管理中心,负责将已有的三个系统数据打通,并在此基础上建立大数据平台,对内外部数据进行挖掘分析,开发可视化应用。其次从预算的编制、执行、控制、考核角度入手,基于大数据分析框架,能够提升预算编制的准确性,提高预算编制效率,加强预算控制的及时性,达成预算考核的全面性。最后结合项目开发的五个阶段的核心使用场景进行优化:在项目可行性研讨阶段,开发智能拿地决策系统;在项目设计阶段,运用大数据技术对产品精准定位;在项目施工阶段对资金预算等进行动态编制、监控;在项目竣工结算阶段建立产品成本数据库;在项目交付后管理阶段,对已购买产品的客户再次进行精准客户群体描述,同时针对自持物业的服务满意度进行调查,完善对非财务预算指标的控制。以上的这些改进措施不仅适用于案例企业,同样可以尝试推广到整个房地产企业中,对于企业管理的整体效果有着显著的提升,为该企业和类似企业加强项目预算管理水平,促进可持续发展提供参考借鉴。但同时由于对大数据知识的了解不够深入,本文仅对房地产行业建立大数据视角下的预算管理体系提出了初步构想,对于大数据平台搭建的具体细节等有待进一步研究,因此本文仅仅是提出一种理想化的优化方案,存在一定的局限性。
基于大数据平台的MOOC混合推荐算法的研究及应用
这是一篇关于大规模公开线上课程,推荐系统,大数据,推荐引擎组,Hadoop框架的论文, 主要内容为得益于互联网的高速发展,传统教育领域正在发生翻天覆地的变化。近年来,一种无门槛、费用低廉、学习资源丰富的新兴教育方式正在普及——MOOC。但随着MOOC平台的迅速发展,MOOC课程数量大幅度增长,造成信息过载的问题。用户很难从大量的MOOC课程中选取自己需要的课程,造成“选课难”的问题。因此使用智能算法解决MOOC平台信息过载问题,帮助用户选取合适的课程,同时让优秀的课程脱颖而出是很有必要的。推荐系统被认为是一种解决信息过载问题更加高效的方法。虽然推荐系统已经成功应用于很多领域,但是在MOOC领域应用推荐系统的国内外相关研究依旧很少。如果直接生搬硬套以往的使用经验,不考虑MOOC应用的场景特征,那么课程推荐结果的准确率会比较低。为了解决MOOC平台的“选课难”问题,本文提出了MOOC隐式评分模型,并且根据当下互联网大数据环境,设计实现了一个基于大数据平台的MOOC推荐系统。本文的主要贡献和创新有:(1)提出MOOC隐式评分模型。该模型根据MOOC平台的应用场景特征,利用用户学习行为,并借鉴以往推荐系统在其他领域的成功经验。(2)利用MOOC隐式评分模型改进了传统的基于物品的协同过滤推荐算法和矩阵分解算法。通过实验结果证明,使用MOOC隐式评分模型可以提高传统推荐算法在MOOC应用中的推荐准确率。(3)设计基于大数据平台的MOOC推荐系统以便于应对当今互联网的大数据环境。该系统根据大数据MOOC应用的业务特点分为六个模块,每个模块都采用微服务架构实现,方便系统以后的扩展和维护。(4)利用MapReduce计算模型给出了基于MOOC隐式评分模型的协同过滤推荐算法的并行化解决方案。然后针对迭代式算法的特点,使用Spark MLlib实现矩阵分解算法,大大减少计算时间和对大规模数据集的处理能力。
大数据分析技术及其在贫困生帮扶工作中的应用研究
这是一篇关于大数据,教育资助,决策树,聚类的论文, 主要内容为教育资助工作是实施教育扶贫,实现教育公平的重要手段,关系着贫困学生的切生利益,关乎着国家教育大计。当前的教育资助工作面临着工作效率低、资助及时性差、信息比对困难等难题,如何更加高效地开展好教育资助工作,提升教育资助工作管理水平是当前迫切需要解决的问题。本文首先分析了国内外教育大数据应用现状及当前教育资助工作中常规手段难以解决的问题,并提出将大数据分析技术应用到教育资助工作中。本文在数据采集、清洗、整合的基础上,将C4.5决策树和基于最优分类数K值的K-Means聚类算法应用到教育资助工作中,利用C4.5决策树算法建立了学生贫困状态识别模型,实现了学生贫困状态的准确判别。利用K-Means聚类算法实现了根据贫困学生特征进行分类的目的,为教育精准扶贫、精准资助提供参考依据。同时,本文结合当前教育资助工作开展中存在的问题,基于J2EE架构开发了教育精准扶贫系统。系统改进了原有的教育扶贫工作机制,大大缩短了贫困认定审核周期,减轻了各级教育资助工作者的负担,提高了工作效率和工作质量。同时系统系统整合了扶贫部门、招生考试部门和教育资助部门数据,通过数据比对实现了贫困学生信息精准推送,解决了教育资助工作中面临的数据不精准问题。本文利用大数据技术建立的贫困状态识别模型和贫困分类模型能够帮助实现贫困学生精准资助,同时教育精准扶贫系统能够满足目前的教育资助工作需求,提高教育资助工作效率。
数据资产安全管控技术平台的设计与实现
这是一篇关于数据资产,数据分类分级,平台管理,大数据,JavaEE的论文, 主要内容为当前电网运营业务数据资产呈现出大量,多样,高价值的特性,公司的数据资产已经进入了大数据时代。数据安全的意义已不仅仅限于数据本身,也直接影响到是否能够将数据提升为数据资产来服务于企业的业务发展和核心竞争力的提升。本系统便是针对广东电网有限责任公司信息中心大数据环境下的数据安全研究项目技术研究子项展开研究,研发数据资产安全技术管控平台,旨在对公司数据的生命周期进行安全监控。其中数据分类分级管理就是对多源、异构的数据资产进行分类分级,根据其数据价值制定差异化的防护策略;策略管理就是管理员根据公司的数据资产分级分类管理,以及公司策略需求,对不同等级的数据资产,分别对不同的防护工具包括防泄漏工具、加解密软件等工具进行相应策略的操作;综合展示也就是数据可视化展示即是展示一定时间内被数据资产安全技术管控平台,即数据安全防护工具监控的数据资产流量的动态统计数据包括告警数据等;平台管理是对数据资产安全管控技术平台的用户、角色、组织机构、日志、进行统一管理,平台安全控制是控制本平台的安全,解决比如防止CSRF跨域请求攻击,用户请求超时,不同角色用户的操作界面不同等安全防护问题。课题期间,主要参与到系统的平台管理,数据分类分级管理,数据可视化展示,平台管理,平台安全控制的开发,并参与系统的部署和维护工作。本项目采用B/S架构,后台使用java开发,选择SpringMVC框架开发,数据库使用Mysq15.6, ORM (Object Relational Mapping)框架采用Hibernate开发,利用Hibernate封装底层数据库操作,使得项目可以在不同数据库之间进行移植,可以直接使用相关接口来对数据库进行操作,并使用EasyUI做为前端框架,该框架提供了用于创建跨浏览器网页的完整的组件集合,有丰富的组件可以供开发人员选择,有较好的浏览器兼容性。本项目已部署上线,运行良好,可以满足现阶段企业的业务需求,实现了数据的生命周期的管控,并且将数据更加直观的展现出来,具有较好的程序可维护性和可扩展性。
大数据背景下M公司供应链管理策略研究
这是一篇关于大数据,供应链管理,消费者,商家的论文, 主要内容为在世界经济一体化背景下,供应链管理对于企业的生存和发展起着至关重要的作用,随着互联网技术的突飞猛进,企业的发展离不开互联网的有效利用,各个公司开始研究运用大数据对供应链进行管理,使供应链与互联网相互连接,以提高供应链管理的质量,提高市场竞争力,提高顾客满意度,推进企业经济实现快速增长。在供应链管理发展过程中,电子商务平台发挥着重要的作用,电子商务平台使得供应链之间的连接更加紧密,信息传递更加及时完整。而在现有的电商平台当中,M公司逐渐发展成为电商平台的中坚力量。本文以M公司供应链管理策略为研究对象,重点研究M公司的供应链管理市场运作,通过查阅相关理论文献,运用相关理论概念,充分运用文献分析法、数据分析法、综合分析法等多种分析方法,深入探讨研究了 M公司供应链管理的具体现状,搜集了相关的信息,进一步探讨了 M公司供应链管理当中出现的各种问题,这些问题主要体现为:供应链云平台管理技术缺失、自建物流体系投资成本较大、隐私安全未能有效保护、忽视消费者需求和意见反馈、供应链协同管理水平不足等。在这样的情况下,M公司在管理供应链方面应当从以下这些途径入手加以改变:开发建设供应链云平台技术、适当缩减投资规模、强化用户的隐私保护、强化客户关系管理质量、提升供应链协同运作水平。希望这些建议可以为完善M公司供应链管理提供参考,以促进我国大数据背景下供应链管理的健康发展。
某医院电子病历信息管理系统的设计与实现
这是一篇关于电子病历,大数据,数据存储,数据挖掘的论文, 主要内容为随着电子病历数据的大量增长,数据的存储、管理、分析变得越来越复杂,课题以电子病历为研究对象,设计并实现一个功能全面的电子病历信息管理系统。系统不仅可以方便医生记录患者的病历信息,而且有助于医疗人员挖掘数据背后的价值,通过有效的数据挖掘方法,探索隐藏在病历数据中有价值的医疗信息,为疾病的诊断与治疗提供辅助手段。电子病历信息管理系统基于J2EE平台开发,并采用了扩展性强的B/S架构,主要实现了以下功能:电子病历管理功能、病历数据挖掘功能、系统管理功能,以及系统缓存功能和文件存储功能等。系统按照软件工程的开发方法,进行了详细的架构设计、功能设计和数据库的设计。服务端的实现使用的是主流的开源框架Spring MVC、Spring和Hibernate整合开发,前端的设计使用Html、Css和Java Script等技术来构建界面,数据库使用My SQL存储结构化的电子病历信息。另外,Hadoop是用来处理超大数据集,Hadoop分布式文件系统(HDFS)可以用来保存文件类型的病历记录,实现大文件数据的高速存储和读取。Hadoop分布式计算框架(Map Reduce)将数据分散计算,提供分布式的数据并行处理分析。在数据集中存储的基础上,使用数据挖掘中的关联分析方法,对常见的慢性疾病进行分析,从大量病历数据中提取出具有关联关系的规则,经过解释与评估,整理成有用的信息,帮助医生对患者的疾病进行诊断与分析,并为医疗科研提供可靠的依据。系统的测试和运行结果表明,电子病历信息管理系统在功能性、易用性、安全性等方面性能良好,满足实际的需要。系统以病人为中心开发产品,解决了病历数据存储的问题,为医生提供高效、快捷的医疗服务,帮助医疗人员挖掘出对研究有价值的信息,促进了医疗信息化的发展。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/lunwen/45112.html