Pandas.Duplicated()函数可以检测数据框中是否有重复值,它可以检测数据框中每一行是否有重复值,也可以检测某一列的值是否有重复。它返回的是一个布尔型的Series,其中值为True的表示有重复,值为False的表示没有重复。
Pandas.Duplicated()函数的使用方法
- 1、检测数据框中每一行是否有重复值:
import pandas as pd
df = pd.DataFrame({'A':[1,2,3,4,5,6],
'B':[2,3,4,5,6,7],
'C':[3,4,5,6,7,8]})
# 检测每一行是否有重复值
result = df.duplicated()
print(result)
# 输出结果
0 False
1 False
2 False
3 False
4 False
5 False
dtype: bool
- 2、检测某一列的值是否有重复:
import pandas as pd
df = pd.DataFrame({'A':[1,2,3,4,5,6],
'B':[2,3,4,5,6,7],
'C':[3,4,5,6,7,8]})
# 检测A列的值是否有重复
result = df['A'].duplicated()
print(result)
# 输出结果
0 False
1 False
2 False
3 False
4 False
5 False
Name: A, dtype: bool
- 3、检测某一列的值是否有重复,并且排除掉第一次出现的重复值:
import pandas as pd
df = pd.DataFrame({'A':[1,2,3,4,5,6],
'B':[2,3,4,5,6,7],
'C':[3,4,5,6,7,8]})
# 检测A列的值是否有重复,并且排除掉第一次出现的重复值
result = df['A'].duplicated(keep='first')
print(result)
# 输出结果
0 False
1 False
2 False
3 False
4 True
5 True
Name: A, dtype: bool