pandas根据某列去重
drop_duplicates(subset=[‘comment’], keep=‘first’, inplace=True)
参数:
subset: 列表的形式填写要进行去重的列名,默认为 None ,表示根据所有列进行。
keep: 可选参数有三个:first、 last、 False, 默认值 first。其中,
(1)first 表示: 保留第一次出现的重复行,删除后面的重复行。
(2)last 表示: 删除重复项,保留最后一次出现。
(3)False 表示: 删除所有重复项。
inplace:默认为 False ,删除重复项后返回副本。True,直接在原数据上删除重复项。
使用 drop_duplicates 去除重复值,如果不指明 subset ,那么默认根据所有列来考虑,即当某两行数据所有列都重复时进行去重。
df =df.drop_duplicates(keep='first', inplace=True)
现在设置 subset 为 comment 即可删除该列重复值。
df =df.drop_duplicates(subset=['comment'], keep='first', inplace=True)
注意:此时索引没有重置,如有需要可使用 reset_index() 重置索引。
df =df.reset_index(drop=True, inplace=True)