简述数据预处理的常用操作 数据预处理方法和内容


从菜市场买来的菜,总有一些是坏掉的不太好的,所以把菜买回来之后要做一遍预处理,也就是把那些坏掉的不太好的部分扔掉 。现实中大部分的数据都类似于菜市场的菜品,拿到手以后会有一些不好的数据,所以都要先做一次预处理 。
常见的不规则数据主要有缺失数据、重复数据、异常数据几种,在开始正式的数据分析之前,我们需要先把这些不太规整的数据处理掉,做数据预处理 。
一、缺失值处理
缺失值就是由某些原因导致部分数据是空的,对于为空的这部分数据我们一般是有两种处理方式的,一种是做删除处理,即把含有缺失值的数据删除;另一种是做填充处理,即把缺失的那部分数据用某个值代替 。
1、缺失值查看
对缺失值进行处理,首先要把数据中的缺失值找出来,也就是查看数据中有哪些列有缺失值 。
(1)、Excel实现
在Excel中我们选中一列没有缺失值的数据,看一下这一列数据共有多少个,然后把其他列的计数与这一列进行做对比,小于这一列数据个数的就代表该列数据有缺失值,差值就是缺失个数 。
下图中非缺失值列的数据计数为5,性别这一列计数为4,这就表示性别这一列是有一个缺失值的 。
如果想要看整个数据表中每列数据的缺失情况,则要挨个选中数据中每一列去判断该列是否有缺失值 。
如果数据不是特别多,你想看数据中具体是哪个单元格的缺失,则可以利用定位条件(按快捷键Ctrl G可弹出对话框)查找 。在定位条件对话框中选择空值,单击确定就会把所有的空值选中,如下图所示:
通过定位条件把数据中缺失值选出来的结果,如下图所示:
(2)Python实现
在Python中直接调用info ( ) 函数的方法就会返回每一列的缺失情况 。关于info ( ) 函数方法我们在之前就用过,但是没有说明这个方法可以判断数据的缺失情况 。
Pythoy中缺失值一般用NaN表示,从用info ( ) 方法的结果来看,数据中性别这一列是3 non-null object,表示性别这一列有3个非null值,而其他列有4个非null值,说明性别这一列有1个null值 。
我们在python中还可以用isnull ( ) 方法来判断哪个值是缺失值,如果是缺失值则返回True,一行中如果不是缺失值则返回False 。
2、缺失值删除
缺失值分为两种,第一种是一行中某个字段是缺失值;另一种是一行中的字段全部为缺失值,即为一个空白行 。
(1)Excel实现
在Excel中,这两种缺失值都可以通过定位条件(按快捷键Ctrl G可弹出该对话框),对话框中选择空值就可以找到 。
这样含有缺失值的部分数据就会被选中,包括某个具体的单元格及一整行,然后单击鼠标右键在弹出的删除对话框中选择删除整行选项,并单击确定按钮即可实现整行的删除 。

猜你喜欢