Pandas.Duplicated()函数可以检测数据框中是否有重复值,它可以检测数据框中每一行是否有重复值,也可以检测某一列的值是否有重复。它返回的是一个布尔型的Series,其中值为True的表示有重复,值为False的表示没有重复。
Pandas.Duplicated()函数的使用方法
- 1、检测数据框中每一行是否有重复值:
import pandas as pd df = pd.DataFrame({'A':[1,2,3,4,5,6], 'B':[2,3,4,5,6,7], 'C':[3,4,5,6,7,8]}) # 检测每一行是否有重复值 result = df.duplicated() print(result) # 输出结果 0 False 1 False 2 False 3 False 4 False 5 False dtype: bool
- 2、检测某一列的值是否有重复:
import pandas as pd df = pd.DataFrame({'A':[1,2,3,4,5,6], 'B':[2,3,4,5,6,7], 'C':[3,4,5,6,7,8]}) # 检测A列的值是否有重复 result = df['A'].duplicated() print(result) # 输出结果 0 False 1 False 2 False 3 False 4 False 5 False Name: A, dtype: bool
- 3、检测某一列的值是否有重复,并且排除掉第一次出现的重复值:
import pandas as pd df = pd.DataFrame({'A':[1,2,3,4,5,6], 'B':[2,3,4,5,6,7], 'C':[3,4,5,6,7,8]}) # 检测A列的值是否有重复,并且排除掉第一次出现的重复值 result = df['A'].duplicated(keep='first') print(result) # 输出结果 0 False 1 False 2 False 3 False 4 True 5 True Name: A, dtype: bool