基于自动分词处理的城市供水投诉管理平台的设计与实现
这是一篇关于供水投诉,文本分词,R语言,HDFS,数据展示的论文, 主要内容为随着我国经济快速增长和人民生活水平显著提升,居民对身体健康和生活品质提出了更高的要求,尤其是生活中赖以生存的饮用水水质问题,同时随着社会发展与科技变革,水质中的污染有害物种类也在不断增加,供水水质安全问题已成为社会安全的热点问题。而居民对自来水水质的疑问和投诉是对供水水质最直接的判断,是对企业供水工作最直接的监督,同时通过对水质投诉数据的分析与标记,有利于及时发现水质变化以及辅助发现水质变化规律。基于居民的投诉需求和水务部门的管理需求,某市已经成立供水服务热线,二十年来处理了上百万件供水投诉问题,有限的工作人员和众多的投诉需求,既对合理答复并处理的效率提出了更高的要求,也促使投诉方式与形式更加多元化、信息化,为居民投诉提供便利;同时,投诉的问题多而复杂,这些投诉数据本身又是一种具有研究价值的数据,通过对这些投诉数据进行深入的分析,可以实现高效的水务管理、发现水质变化的规律,使居民的投诉热线“冷”下来,城市供水水平与质量得到大幅度提升。本文基于实际需求,建立了一个基于自动分词处理的城市供水投诉管理平台,实现了对大量电话录音转制的投诉文本数据的自动分词、分析和可视化的展示。在本文工作中,系统地解决了从不同数据源数据的导入、管理、分词处理、数据分析与可视化的一站式服务流程。本文的主要工作包括以下几个方面:首先,针对城市供水投诉的数据来源不同,建立了基于HDFS的统一数据导入接口,可以支持页面输入数据、本地文件数据、服务器数据等多种来源的数据导入。第二,通过集成分词工具,实现了对大量历史投诉文本数据的分词处理,建立了增量式供水与投诉词典库,并为管理者提供了词典管理接口,方便后续对投诉词典的维护。当用户的投诉数据导入进来时,系统会自动根据投诉词典为用户的投诉内容进行匹配,同时用户可以对投诉结果进行满意度评价。第三,设计并实现了通过Java调用R服务的技术路线,在系统中实现了投诉数据的分析,并提供多种形式的可视化展示方式,针对不同的数据类型与分析结果,为用户提供具有交互性的数据可视化图表,同时扩展了多级图表、表级联动等展示选择。第四,搭建了基于Web服务的城市供水投诉分析管理平台。系统采用MVC架构,数据存储层采用基于HDFS的分布式文件存储系统,易于未来与水质大数据分析系统集成;实现了用户投诉、投诉管理、文件管理、词典管理、数据处理工具、可视化展示、投诉处理管理等主要模块。最后,本文实现的平台为水务管理部门提供了界面友好、具有交互性的城市供水投诉管理系统,既满足了用水用户的投诉需求,大大提升了对供水投诉数据处理的效率,又便利了水务管理部门对投诉数据的管理,通过利用平台中的工具对投诉数据进行更深入的认识,做出更好的决策,提供更加便利、高质量的供水服务。
交互式R语言开发工具的设计与实现
这是一篇关于R语言,交互式R语言开发工具,RMLTP,JavaGD,rJava的论文, 主要内容为R语言是一种基于S语言发展来的用于统计分析的命令语言。R语言以其开放性和免费性,目前在国外已经广泛的使用。R语言是一种开发统计分析工具,它允许使用者根据自己的需要开发自己的拓展包,并且可以分发这些包,这使得R语言不仅仅是一个统计分析的工具,更成为统计分析的交流平台。 R语言的命令语句的格式和种类非常的众多,使用者需要通过一定时间的学习才能掌握其具体的使用方法。如果能开发一款能够R语言软件使得用户不需要进行深入的R学习就可以使用将会帮助R语言的推广,所以交互式R语言开发工具(英文名称RMLTP)的开发正是基于这个目的。 RMLTP使用了Java1.6语言,在Eclipse3.2上,通过使用R-to-Java拓展包rJava的JRI拓展包和图像拓展包JavaGD进行开发。rJava的JRI拓展包是用于Java中调用R的一个专用的工具包;JavaGD拓展包是绘图的拓展包,其能够把R语言的结果绘图接收到并进行展示,但是JavaGD的功能非常的简单,在使用时需要对其的各种功能进行重新的设计和实现。 在RMLTP的开发过程中,通过把R语言的各种需求进行了分析和分类,把所有的需求划分为若干个功能模块,这些模块分别是命令接收和执行模块、对象和空间的导入导出模块、新对象的建立模块、绘图模块、窗口控制模块、对象列表模块和包管理和查询模块。考虑到R的开放性,为了使用户在使用RMLTP时也能拓展自己所需要的功能,并使这种拓展尽量的简单明了,专门设计了RMLTP的拓展接口RMLTPJInternalFrame类,这是一个继承自Java内部面板的类,在其中已经定义好了内部面板窗口和对其进行窗管理的标签,用户只需要根据需要设计内部面板,并定义好命令语句的生成,而无需对其他模块进行调整。在本文中,分别论述了各个模块的主要作用,并对这些模块的需求进行了仔细的分析,设计了各个模块的具体的实现方法。最后对这些模块进行了调整和整合,最终完成了RMLTP的设计。 在论文的第五章,介绍使用RMLTP时所需要对电脑进行的一些配置。并简要的介绍了RMLTP的一些使用的方法。 在RMLPT的开发中,进行了JavaGD图像拓展包和rJava包的拓展,使得其功能更为得丰富和完善。在使用rJava包进行开发中,发现了一些rJava包的错误和不完善的地方,并积极与开发者进行了联系和沟通。 希望交互式R语言开发工具的开发能够对R语言的推广做出贡献。
基于Copula模型的统计分析平台的实现
这是一篇关于Copula函数,R语言,Seam框架,统计分析,Web2.0的论文, 主要内容为本文实现了基于Copula模型的数据分析平台。该平台以开源的企业级JBoss Seam为集合框架,采用了该框架中的Richfaces作为人机交互界面,EJB3SessionBean作为业务逻辑层,JPA持久化到Oracle数据库。同时该平台以R语言作为计算引擎实现的Copula算法,分析了上证指数和深成指数5年的数据的相关性分析和时间序列图。通过该平台可以很方便的实现数据库中记录的Copula参数值和密度图的计算,为股指的相关性分析提供了决策支持。 具体工作如下: Copula算法的编程实现; Copula算法与Java应用程序的整合与测试; Copula算法实现Oracle数据库中数据的分析; 上市公司金融数据的提取、加工、导入和分析; Oracle数据在CentOS平台下的安装与调试; JavaEE轻量级Seam的实现,主要包括:数据的增删改查,数据查询的分页,Excel导出功能,标签显示功能; Web2.0前台界面人机交互的实现; 通过四种Copula函数对金融数据的时间序列分析以及金融数据的参数计算和密度图的绘制。
基于企业移动办公软件的运营数据分析与研究
这是一篇关于移动办公软件,数据分析,运营数据,Hadoop框架,R语言,ARIMA的论文, 主要内容为目前,MOA(Mobile Office Automation,简称MOA)业务产生的数据量已经达到了 GB级别,随着部署的局点越来越多,业务的不断拓展,MOA所产生的数据量与日俱增。此现象的出现,不只是在MOA中,很多领域也面临着数据量巨大的问题,该如何可靠的大数据存储与分析已成为目前应用与研究的热点与难点问题。尽管Hadoop能够对MOA业务产生的海量日志数据进行可靠的处理,但是在数据建模、可视化方面有所欠缺,本文采用R语言与能够进行大数据处理的Hadoop框架结合,进行基于Hadoop+Hive+R的MOA运营数据的分析与研究,尝试挖掘MOA日志蕴涵的运营决策信息,并将统计处理的结果构建可视化系统,对提高MOA业务服务具有重要的实际应用意义。本文具体研究与探讨工作如下:(1)根据Hadoop、Hive和R语言它们各自的长处,构建了适合MOA运营数据处理的Hadoop+Hive+R语言云环境。(2)根据MOA日志数据的特点,研究MapReduce的内部结构以深入了解其并行计算架构,设计符合处理MOA日志数据的输入输出及读写格式,以提高MOA日志处理效率。针对MOA日志格式多样性问题,采用Hive进行处理,节约了编写MapReduce的时间,提高了开发效率。(3)为了能够信息交互,使用Struts2 MVC搭建基于J2EE的国内通信行业某知名企业的MOA真实运营数据可视化系统,主要提供了物理资源、客户管理、资源管理、业务拓展分析统计等统计功能,并将R语言分析预测的结果进行可视化处理。(4)通过对MOA真实的运营数据的License进行建模,根据R包建立二次指数平滑模型、Holt-Winters模型、ARIMA模型来完成对License的时间序列分析,再进行模型检验后,得出拟合显著的模型。最后为了验证最佳模型的有效性及可靠性,本文通过拟合显著的模型的预测值与真实值进行比较验证,计算其平均相对误差值、最大误差值,来选择适合License序列的最佳预测模型。通过对MOA运营数据分析与研究结果表明,本文设计的框架能够较好地解决以上MOA存在的问题,云环境能够实现对MOA日志进行有效可靠地存储、处理;可视化系统直观地体现MOA运营数据,为相关决策人员提供直观的数据依据;最佳预测模型ARIMA模型能够实现对MOA运营数据序列License的有效预测。
基于Copula模型的统计分析平台的实现
这是一篇关于Copula函数,R语言,Seam框架,统计分析,Web2.0的论文, 主要内容为本文实现了基于Copula模型的数据分析平台。该平台以开源的企业级JBoss Seam为集合框架,采用了该框架中的Richfaces作为人机交互界面,EJB3SessionBean作为业务逻辑层,JPA持久化到Oracle数据库。同时该平台以R语言作为计算引擎实现的Copula算法,分析了上证指数和深成指数5年的数据的相关性分析和时间序列图。通过该平台可以很方便的实现数据库中记录的Copula参数值和密度图的计算,为股指的相关性分析提供了决策支持。 具体工作如下: Copula算法的编程实现; Copula算法与Java应用程序的整合与测试; Copula算法实现Oracle数据库中数据的分析; 上市公司金融数据的提取、加工、导入和分析; Oracle数据在CentOS平台下的安装与调试; JavaEE轻量级Seam的实现,主要包括:数据的增删改查,数据查询的分页,Excel导出功能,标签显示功能; Web2.0前台界面人机交互的实现; 通过四种Copula函数对金融数据的时间序列分析以及金融数据的参数计算和密度图的绘制。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://m.bishedaima.com/lunwen/53867.html