5篇关于数据仓库的计算机毕业论文

今天分享的是关于数据仓库的5篇计算机毕业论文范文, 如果你的论文涉及到数据仓库等主题,本文能够帮助到你

基于数据仓库的中国中老年人胃肠疾病影响因素分析与患病风险评估研究

这是一篇关于中老年人,胃肠疾病,数据仓库,空间自相关,空间分析,集成学习,风险模拟的论文, 主要内容为慢性病一直以来都是困扰中老年人健康生活的严重问题,胃肠疾病更是直接影响患病者的日常生活、饮食等方面。随着我国老龄化人口的加剧,公共医疗方面的负担也愈发加重。虽然目前关于胃肠疾病病理方面的研究较多,但较少见胃肠疾病空间分布与影响因素等方面的研究。因此针对中国地区中老年人的胃肠疾病开展空间分布、影响因素及患病风险评估方面的研究是对现有研究的有益补充,具有重要的科学意义和实际应用价值。本研究考虑到现代社会数据信息化的发展,从搭建以胃肠疾病为主题的数据仓库开始,结合地理信息系统和机器学习算法,参考空间流行病学方面的原理,以北京大学国家发展研究院主持开展,中国健康与养老跟踪调查报告数据为研究对象,首先利用统计分析、空间分析,对胃肠疾病患病情况进行探索,确定易患病的人群特征、地域范围及患病聚集区;其次,利用SPSS统计软件中的假设检验方法,确定统计学显著的患病影响因素;最后,基于确定的相关因素,通过重采样方法对用于搭建集成学习的分类器进行分析对比,选择效果较好的分类器搭建集成学习分类器,最终将集成学习分类器的分类结果通过GIS软件绘制得到患病风险地图,研究结果能够确定潜在的患病高风险地区并对各个地区的患病风险进行评估。本研究的主要内容为以下几点。(1)中老年人胃肠疾病主题的数据仓库搭建。通过搭建Hadoop集群,配置基于Flume和Kafka框架的数据采集模块。在数据仓库中,为使数据流转更加清晰条理,本研究设计了四层逻辑模型,每层承担不同功能,将原始数据与最终抽取使用的数据完全隔离开,增加了系统的鲁棒性,降低了数据耦合性。(2)患病情况的可视化统计分析。根据搭建好的数据仓库,抽取数据应用层数据表,通过B/S架构的可视化系统,对患病人群的地区分布、年龄分布、性别分布以及各个地区的患病率进行可视化。分析可视化结果发现,患病人群主要集中在45至64岁,女性患病人数多于男性,患病人数较多、患病率较高的地区均在我国的西南地区。其他地区如江西一带、内蒙古东部地区与河北地区也存在患病率较高且集中的现象,其他地区如东部沿海地区,只零星出现了几处高患病率地区。(3)相关影响因素的筛选以及传统Logistic回归模型的分析。通过抽取数据仓库中服务数据层数据,导入SPSS软件进行假设检验与传统Logistic回归建模。对于数值型数据使用T检验,类别型数据使用卡方检验。根据假设试验原理,选择具有显著性水平的因素(P<0.10)纳入Logistic模型的建立。在SPSS软件中,建立Logistic模型时会对影响因素进行进一步筛选,最终得到具有显著相关的20项影响因素。其中,身体状况对患病的影响最为显著,表现为身体健康状况越差,患病风险越高。另外情绪方面因素如睡眠质量、感到开心和因小事而感到烦恼对患病也有明显影响,具体表现为正面的情绪因素对是否患病有保护作用而负面的情绪因素有危险作用。此外,胃肠疾病的患病也与其他多种慢性病存在相关性,考虑慢性病之间存在并发关联。(4)基于筛选后的影响因素建立胃肠疾病患病风险评估模型,并绘制患病风险地图。首先通过三种重采样方法对数据仓库中的服务数据层数据进行处理,通过Python在每种采样方法后建立Logistic回归、决策树和支持向量机三种模型进行分类预测,研究结果显示在三种不同的重采样方法中,决策树对比另外两种分类器具有更好的性能。集成学习时,建立集成投票分类器、集成Stacking分类器和随机森林模型对原始数据进行分类预测,结果发现集成Stacking分类器与随机森林模型的分类性能由于集成投票分类器,拟合精度均在83%左右。基于此分类结果绘制中国地区胃肠疾病患病风险地图,研究结果显示我国西南地区是胃肠疾病的患病高风险地区,其他地区也存在部分分布较为分散、且影响范围较小的高风险地区。本研究通过建立数据仓库,对中国地区中老年人胃肠疾病的分布情况与患病影响因素进行分析,并建立胃肠疾病风险评估模型模拟各个地区的患病风险,研究结果能为公共卫生部门合理配置公共卫生资源和制定预防策略提供有效的科学理论依据和信息化决策工具。

数据导入和预处理系统设计与实现

这是一篇关于Hadoop,数据仓库,数据预处理的论文, 主要内容为传统数据仓库随着Hadoop技术的发展受到巨大挑战,Hadoop从最初解决海量数据的存储难题,到现在被越来越多的企业用来解决大数据处理问题,其应用广泛性越来越高。本文主要研究基于Hadoop系统对传统数据库数据和文本数据进行迁移,帮助传统数据仓库解决在大数据存储处理等方面遇到的难题,同时依靠Hadoop的扩展性提升数据存储和处理的性能。论文中系统根据现今传统数据仓库的应用情况及Hadoop大数据平台的前景预测,针对传统数据仓库已无法满足用户需求的问题,设计出传统数据仓库与基于Hadoop的hdfs文件系统协作进行数据存储与处理的架构,同时解决企业用户数据控制权限的要求。系统分为四个部分,数据管理、数据预处理、系统管理和发布管理提供从数据导入到数据控制,数据预处理最终实现数据发布共享的功能。系统的主要功能是采集数据和对采集到的数据进行预处理,系统设计成能够对多种类型的数据进行采集和预处理,同时系统能够实现很好的扩展功能,为系统中增加机器学习算法节点对数据进一步挖掘处理提供了可能。系统采用当下流行的Hadoop基本架构,同时结合Haddoop生态圈中的数据仓库Hive和数据迁移工具Sqoop进行数据的迁移和处理。在一定程度上能够满足企业的基本需求。系统以Web系统的方式实现,方便用户使用,在实现Web系统时采用成熟的ssm框架进行开发,保证系统的稳定性。系统从企业的实际需求出发,同时充分考虑传统数据库在企业中的应用,设计实现基于Hadoop的数据管理平台原型,为企业提供实际应用指导。本论文从系统实现的背景、系统系统需求、系统设计、系统实现以及系统测试五大模块对系统进行了全面详细的论述,全面阐述了系统实现的意义,有一定的实际应用指导意义。

基于商业智能的高校教学数据管理平台的设计与实现

这是一篇关于商业智能,数据仓库,ETL,数据集成,数据缺失填补的论文, 主要内容为随着互联网技术的进步和我国高等教育规模的不断扩大,高校信息化建设在改善教学科研质量、提高行政管理水平等方面的重要性日益凸显。高校教学数据具有来源多样、存在数据孤岛、流动性大、更新频繁等特点,数据管理面临较大挑战。商业智能是近年来兴起的商业数据管理和分析技术,可以通过数据仓库和数据集成实现对海量数据的存储和组织,在高校教学数据管理中具有重要应用前景。本文基于商业智能技术,通过优化数据集成策略,设计开发出稳定、高效的高校教学数据管理平台。取得的主要研究成果和创新点包括:(1)设计出一种数据抽取、清洗、转换、装载(ETL)策略,能够获取时效更高的数据,且耗时较传统ETL策略降低了 20%;设计出一种基于Hive分区表的数据存储策略,解决了流动的历史数据的存储问题。(2)针对数据清洗环节中数据集有可能出现数据缺失的问题,提出了一种基于K-means聚类和CART决策树的缺失数据填补算法,能够对单一缺失的数据集进行缺失数据填补,在不同缺失率下的平均准确率达到81%,优于使用K-means算法或KNN算法的结果。(3)基于商业智能完成了高校教学数据管理平台的详细设计、开发和测试。系统涵盖课堂教学测评、教学运行监控、校园防疫等多个功能模块,非高峰期、高峰期报表查询响应时间分别在1秒、3秒以内。

基于组件的人力资源管理与决策支持系统研究与开发

这是一篇关于人力资源管理,中间件,数据仓库,数据挖掘,马尔科夫分析的论文, 主要内容为本文论述了人力资源管理系统的发展、特点及研究现状,采用组件和中间件技术,建立了系统组件模型,研究了以J2EE为平台的基于组件的人力资源管理系统。以软件工程理论为指导,应用UML, EJB, JSP等多种计算机新技术,对人力资源管理系统进行了开发。同时,系统以提供人力资源供给预测为目的,研究了决策支持系统、数据仓库及数据挖掘技术并应用到人力资源管理系统中,建立了人力资源供给预测数据仓库。以此为基础,采用数据挖掘技术中的马尔科夫转移矩阵分析方法,结合人力资源管理理论,给出了人力资源供给预测模型,对人力资源供给进行预测,提供了人力资源供给预测科学的理论依据。

基于数据挖掘的四川移动CRM管理平台的设计与实现

这是一篇关于数据挖掘,数据仓库,客户关系管理,营销管理的论文, 主要内容为随着中国通信业的不断改革和重组,中国通信业的市场格局发生了翻天覆地的改变。在此格局下,中国移动通信集团四川移动公司(下文简称四川移动)意识到客户是企业发展革新和生存的核心因素,企业要发展壮大,提高市场核心竞争力,就需要通过自身机制改革和发展,保有原客户,吸引和发掘新的潜在客户群体。因此,如何提高四川移动的核心价值体系,提升其经济实力的发展和效益的最大化,提高服务满意度以及客户的忠实度等问题,已经成为四川移动着重解决的重要课题。在该市场主导环境下,一种新颖的基于信息技术的管理理念-客户关系管理(CRM,Customer Relationship Management)结合数据挖掘技术被运用到了本次系统开发中。CRM是一个融合数据仓库技术、数据挖掘技术和客户支持管理为一体的综合应用系统。电信行业CRM中的数据挖掘,主要是针对与用户有关的消费数据进行筛选、改变、分析比较和优化模型,从而获得相关数据统计,辅助经营者做出正确合理的经营决策,并且优化现有的实施方案,确保企业快速健康发展。论文针对四川移动CRM管理平台为基础进行分析,将维护顾客关系有关标准作为重点,通过数据挖掘的分析处理方式,运用ASP技术进行系统编辑,SQL Server2005数据库技术进行系统数据存储,采用B/S体系架构,成功获得一种能够解决实际问题的CRM系统操作模式。论文主要工作如下:第一,论文将确保系统正常运行的研究工作作为前提,详细说明ASP、数据库等组成的意义;第二,通过了解目前存在的CRM系统的特点,得到该系统的研发生产理念,同时一一列明本文采取的操作步骤与研发条件;在这个前提下,结合四川移动的实际需求,设计了一套适用于四川移动的CRM管理平台,其主要分析设计内容包括:1、系统总体设计;2、数据挖掘处理;3、数据库的建设;4、系统相应功能的合理布局;第三,论文详细介绍了该系统重要模块存在的原理,同时以部分检测系统为标准,使该系统得到最公正的评价。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕业设计驿站，原文地址：https://m.bishedaima.com/lunwen/44956.html