python数据分析

python数据分析(4)——数据预处理(上) 数据预处理的主要内容包括数据清洗,数据集成,数据变换和数据规约, 1 数据清洗 数据清洗主要是删除原始数据集中的无关数据

本文包含相关资料包-----> 点击直达获取<-------

python数据分析(4)——数据预处理(上)

数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。

1 数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。

1.1 缺失值处理

方法主要分为删除记录、数据插补和不处理,其中常用的数据插补方法如下。

这里主要介绍拉格朗日插值法和牛顿插值法。其他的插值方法还有Hermite插值、分段插值和样条插值。

P(x)是牛顿插值逼近函数,R(x)是误差函数。

3)将缺失的函数值对应的点x代入插值多项式得到缺失值的近似值f(x).

牛顿插值法也是多项式插值,但采用了另一种构造插值多项式的方法,与拉格朗日插值相比,具有承袭型和易于变动节点的特点。从本质上来说,两者给出的结果是一样的(相同次数、相同系数的多项式),只不过表示的形式不同。因此,在Python的Scipy库中,只提供了拉格朗日插值法的函数(因为实现上比较容易),如果需要牛顿插值法,则需要自行编写函数。

例子是catering_sale.xls

```python

拉格朗日插值代码

import pandas as pd #导入数据分析库Pandas from scipy.interpolate import lagrange #导入拉格朗日插值函数

inputfile = 'catering_sale.xls' #销量数据路径 outputfile = 'sales.xls' #输出数据路径

data = pd.read_excel(inputfile) #读入数据 data[u'销量'][(data[u'销量'] < 400) | (data[u'销量'] > 5000)] = None #过滤异常值,将其变为空值

自定义列向量插值函数

s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5

def ployinterp_column(s, n, k=5): y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数 y = y[y.notnull()] #剔除空值 return lagrange(y.index, list(y))(n) #插值并返回插值结果

逐个元素判断是否需要插值

for i in data.columns: for j in range(len(data)): if (data[i].isnull())[j]: #如果为空即插值。 data[i][j] = ployinterp_column(data[i], j)

data.to_excel(outputfile) #输出结果,写入文件 ```

1.2 异常值处理

我们一般将异常值视为缺失值进行插补。

python中判断每个元素是否空值/非空值

D.isnull/notnull()

2. 数据集成

2.1 实体识别

实体识别是指从不同数据源识别出现实世界的实体,它的任务是统一不同源数据的矛盾之处。

2.1.1 同名异义

数据源中同样是属性ID,不一定是同一实体。

2.1.2 异名同义

不同数据源中不同名字的数据项表示是同一实体。

2.1.3 单位不统一

描述同一个实体分别用的是国际单位和中国传统的计量单位。

检测和解决这些冲突就是实体识别的任务。

2.2 冗余属性识别

  • 同一属性多次出现
  • 同一属性命名不一致导致重复

有些冗余属性可以用相关分析检测。

python去除数据中的重复元素

D.unique()

np.unique(D)

参考文献

  • 零售业大数据下载与分析系统的设计与实现(西安电子科技大学·吴霜)
  • 基于数据挖掘的学生数据剖析系统研究(哈尔滨师范大学·李晓楠)
  • 制造业数据交互式分析平台的设计与实现(西安电子科技大学·杨妍)
  • 生物农药智能推荐系统的设计与实现(电子科技大学·彭亚飞)
  • 电子商务网站的数据分析系统研究与开发(北方工业大学·韩杰)
  • 标准化报表的数据分析在电信财务收入系统中的应用(电子科技大学·金鑫)
  • 数据挖掘技术在大型企业物流平台的应用研究(成都理工大学·沈哲)
  • 股票数据库管理系统的设计与实现(电子科技大学·卢火)
  • 连锁超市数据分析系统的开发与实现(首都经济贸易大学·刘亚云)
  • 基于移动平台股票资讯搜索与预测系统研究(哈尔滨理工大学·滕文达)
  • 生物农药智能推荐系统的设计与实现(电子科技大学·彭亚飞)
  • 股票数据库管理系统的设计与实现(电子科技大学·卢火)
  • 基于云计算的用户网络行为挖掘分析系统的研究与设计(湖北大学·皮健夫)
  • 标准化报表的数据分析在电信财务收入系统中的应用(电子科技大学·金鑫)
  • 主题网络爬虫的研究与设计(南京理工大学·朱良峰)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://m.bishedaima.com/yuanma/35390.html

相关推荐

发表回复

登录后才能评论