pandas.drop_duplicates()函数是pandas中用于删除重复行的函数。它可以删除DataFrame中的重复行,并返回一个新的DataFrame。
使用方法
pandas.drop_duplicates()函数接受一个参数,即要删除重复行的DataFrame,并返回一个新的DataFrame,其中重复行已被删除。该函数有一些选项参数,允许您指定如何检测重复行,以及如何选择要保留的行。
# 使用pandas.drop_duplicates()函数 # 创建一个DataFrame df = pd.DataFrame({'A':[1,2,3,4,2,3], 'B':[4,5,6,7,5,6], 'C':[7,8,9,10,8,9]}) # 使用pandas.drop_duplicates()函数删除重复行 df = df.drop_duplicates() # 打印结果 print(df)
输出结果如下:
A B C 0 1 4 7 1 2 5 8 2 3 6 9 3 4 7 10
上面的代码中,我们创建了一个DataFrame,其中有两行重复,使用pandas.drop_duplicates()函数删除重复行,输出结果,可以看到重复行已被删除。
参数选项
pandas.drop_duplicates()函数有三个可选参数:
- subset:指定要检查重复性的列。
- keep:指定要保留的重复行,默认值为“first”,表示保留第一个重复行,可以指定为“last”,表示保留一个重复行。
- inplace:指定是否在原DataFrame上进行操作,默认值为False,表示不在原DataFrame上进行操作,而是返回一个新的DataFrame。
# 使用pandas.drop_duplicates()函数,指定subset参数 # 创建一个DataFrame df = pd.DataFrame({'A':[1,2,3,4,2,3], 'B':[4,5,6,7,5,6], 'C':[7,8,9,10,8,9]}) # 使用pandas.drop_duplicates()函数删除重复行,指定subset参数 df = df.drop_duplicates(subset=['A']) # 打印结果 print(df)
输出结果如下:
A B C 0 1 4 7 1 2 5 8 2 3 6 9 3 4 7 10
上面的代码中,我们指定subset参数为“A”,表示只检查“A”列中的重复行,输出结果,可以看到重复行已被删除。
pandas.drop_duplicates()函数是pandas中用于删除重复行的函数。它可以删除DataFrame中的重复行,并返回一个新的DataFrame。该函数接受一个参数,即要删除重复行的DataFrame,并返回一个新的DataFrame,其中重复行已被删除。该函数还有一些可选参数,允许您指定如何检测重复行,以及如何选择要保留的行。