Pandas中的describe()函数是一种统计数据的快捷方式,它可以帮助我们快速获取数据的描述性统计信息。describe()函数可以计算出数据的均值、标准差、最小值、最大值、四分位数等信息。
使用方法:
使用describe()函数的方法非常简单,只需要在DataFrame对象上调用即可。例如:
import pandas as pd df = pd.read_csv('data.csv') df.describe()
describe()函数默认会计算出所有列的数值型数据,如果想计算某一列,可以使用如下方法:
df['column_name'].describe()
如果想计算多列,可以使用如下方法:
df[['column_name1', 'column_name2']].describe()
describe()函数还可以指定计算特定的统计值,例如:
df.describe(include=['object', 'float'])
上面的代码表示只计算object和float类型的数据。
参数说明:
- percentiles:指定计算的百分位数,默认值为[.25, .5, .75],即计算四分位数。
- include:指定计算的数据类型,可以是'all'、'object'、'float'、'int'等类型。
- exclude:指定不计算的数据类型,可以是'all'、'object'、'float'、'int'等类型。
- datetime_is_numeric:指定datetime类型的数据是否计算,默认为False。