加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

一文看懂怎么用Python做数据分析

发布时间:2019-06-27 07:43:09 所属栏目:教程 来源:程序员ACE
导读:副标题#e# 常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的,一类是平常用 Excel 做分析但不太会用 Python 分析的。如果和你很像,那下面这篇系统长文会很适合你,建议先收藏。 Excel 是数据分析中最常用的工具,本文通过 Python 与 excel 的

Colums 函数用来单独查看数据表中的列名称。

  1. #查看列名称 
  2. df.columns 
  3.   
  4. Index(['id', 'date', 'city', 'category', 'age', 'price'], dtype='object') 

查看前 10 行数据

Head 函数用来查看数据表中的前 N 行数据,默认 head()显示前 10 行数据,可以自己设置参数值来确定查看的行数。下面的代码中设置查看前 3 行的数据。

  1. #查看前3行数据 
  2. df.head(3) 
一文看懂怎么用 Python 做数据分析

查看后 10 行数据

Tail 行数与 head 函数相反,用来查看数据表中后 N 行的数据,默认 tail()显示后 10 行数据,可以自己设置参数值来确定查看的行数。下面的代码中设置查看后 3 行的数据。

  1. #查看最后3行 
  2. df.tail(3) 
一文看懂怎么用 Python 做数据分析

03 数据表清洗

第三部分是对数据表中的问题进行清洗。主要内容包括对空值,大小写问题,数据格式和重复值的处理。这里不包含对数据间的逻辑验证。

处理空值(删除或填充)

我们在创建数据表的时候在 price 字段中故意设置了几个 NA 值。对于空值的处理方式有很多种,可以直接删除包含空值的数据,也可以对空值进行填充,比如用 0 填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。

Excel 中可以通过“查找和替换”功能对空值进行处理,将空值统一替换为 0 或均值。也可以通过“定位”空值来实现。

一文看懂怎么用 Python 做数据分析

Python 中处理空值的方法比较灵活,可以使用 Dropna 函数用来删除数据表中包含空值的数据,也可以使用 fillna 函数对空值进行填充。下面的代码和结果中可以看到使用 dropna 函数后,包含 NA 值的两个字段已经不见了。返回的是一个不包含空值的数据表。

  1. #删除数据表中含有空值的行 
  2. df.dropna(how='any') 
一文看懂怎么用 Python 做数据分析

除此之外也可以使用数字对空值进行填充,下面的代码使用 fillna 函数对空值字段填充数字 0。

  1. #使用数字0填充数据表中空值 
  2. df.fillna(value=0) 

我们选择填充的方式来处理空值,使用 price 列的均值来填充 NA 字段,同样使用 fillna 函数,在要填充的数值中使用 mean 函数先计算 price 列当前的均值,然后使用这个均值对 NA 进行填

充。可以看到两个空值字段显示为 3299.5

  1. #使用price均值对NA进行填充 
  2. df['price'].fillna(df['price'].mean()) 
  3.   
  4. 0    1200.0 
  5. 1    3299.5 
  6. 2    2133.0 
  7. 3    5433.0 
  8. 4    3299.5 
  9. 5    4432.0 
  10. Name: price, dtype: float64 
一文看懂怎么用 Python 做数据分析

清理空格

除了空值,字符中的空格也是数据清洗中一个常见的问题,下面是清除字符中空格的代码。

  1. #清除city字段中的字符空格 
  2. df['city']=df['city'].map(str.strip) 

大小写转换

在英文字段中,字母的大小写不统一也是一个常见的问题。Excel 中有 UPPER,LOWER 等函数,python 中也有同名函数用来解决大小写的问题。在数据表的 city 列中就存在这样的问题。我们将 city 列的所有字母转换为小写。下面是具体的代码和结果。

  1. #city列大小写转换   
  2. df['city']=df['city'].str.lower() 
一文看懂怎么用 Python 做数据分析

更改数据格式

Excel 中通过“设置单元格格式”功能可以修改数据格式。Python 中通过 astype 函数用来修改数据格式。

一文看懂怎么用 Python 做数据分析

Python 中 dtype 是查看数据格式的函数,与之对应的是 astype 函数,用来更改数据格式。下面的代码中将 price 字段的值修改为 int 格式。

  1. #更改数据格式 
  2. df['price'].astype('int') 
  3.   
  4. 0    1200 
  5. 1    3299 
  6. 2    2133 
  7. 3    5433 
  8. 4    3299 
  9. 5    4432 
  10. Name: price, dtype: int32 

更改列名称

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读