Pandas最常用的三种去重方法详解和示例演示

分类:知识百科 日期: 点击:0

Pandas是一种强大的分析工具,它可以帮助我们快速处理大量的数据。Pandas提供了几种去重的方法,其中最常用的三种去重方法是drop_duplicates()方法、duplicated()方法和isin()方法。下面我们将介绍这三种去重方法的使用方法和示例演示。

1. drop_duplicates()方法

drop_duplicates()方法是Pandas中最常用的去重方法,它可以根据指定的列进行去重,并将去重后的结果返回一个新的DataFrame。

import pandas as pd

# 创建一个DataFrame
data = {
    'name': ['Tom', 'Jack', 'Tom', 'Jack'],
    'age': [20, 21, 20, 20]
}
df = pd.DataFrame(data)

# 使用drop_duplicates()方法根据name列进行去重
df_drop = df.drop_duplicates(subset='name')

# 打印去重后的结果
print(df_drop)
   name  age
0   Tom   20
1  Jack   21

2. duplicated()方法

duplicated()方法可以根据指定的列返回一个布尔型Series,它可以用来检查每一行是否是重复行。

import pandas as pd

# 创建一个DataFrame
data = {
    'name': ['Tom', 'Jack', 'Tom', 'Jack'],
    'age': [20, 21, 20, 20]
}
df = pd.DataFrame(data)

# 使用duplicated()方法根据name列检查每一行是否是重复行
df_dup = df.duplicated(subset='name')

# 打印检查结果
print(df_dup)
0    False
1    False
2     True
3     True
dtype: bool

3. isin()方法

isin()方法可以根据指定的列返回一个布尔型Series,它可以用来检查每一行是否在指定的值列表中。

import pandas as pd

# 创建一个DataFrame
data = {
    'name': ['Tom', 'Jack', 'Tom', 'Jack'],
    'age': [20, 21, 20, 20]
}
df = pd.DataFrame(data)

# 使用isin()方法根据name列检查每一行是否在['Tom', 'Jack']列表中
df_isin = df.isin({'name': ['Tom', 'Jack']})

# 打印检查结果
print(df_isin)
    name    age
0   True    False
1   True    False
2   True    False
3   True    False

以上就是Pandas最常用的三种去重方法的使用方法和示例演示,它们分别是drop_duplicates()方法、duplicated()方法和isin()方法,可以根据实际情况选择合适的方法进行去重。

标签:

版权声明

1. 本站所有素材,仅限学习交流,仅展示部分内容,如需查看完整内容,请下载原文件。
2. 会员在本站下载的所有素材,只拥有使用权,著作权归原作者所有。
3. 所有素材,未经合法授权,请勿用于商业用途,会员不得以任何形式发布、传播、复制、转售该素材,否则一律封号处理。
4. 如果素材损害你的权益请联系客服QQ:77594475 处理。