pandas根据某列去重-深圳市維司達科技有限公司

pandas根据某列去重

drop_duplicates(subset=[‘comment’], keep=‘first’, inplace=True)

参数：

subset：列表的形式填写要进行去重的列名，默认为 None ，表示根据所有列进行。

keep：可选参数有三个：first、 last、 False，默认值 first。其中，

（1）first 表示：保留第一次出现的重复行，删除后面的重复行。

（2）last 表示：删除重复项，保留最后一次出现。

（3）False 表示：删除所有重复项。

inplace：默认为 False ，删除重复项后返回副本。True，直接在原数据上删除重复项。

使用 drop_duplicates 去除重复值，如果不指明 subset ，那么默认根据所有列来考虑，即当某两行数据所有列都重复时进行去重。

df =df.drop_duplicates(keep='first', inplace=True)

现在设置 subset 为 comment 即可删除该列重复值。

df =df.drop_duplicates(subset=['comment'], keep='first', inplace=True)

注意:此时索引没有重置，如有需要可使用 reset_index() 重置索引。

df =df.reset_index(drop=True, inplace=True)

如何快速解决Windows热键冲突：免费工具终极使用指南

如何快速解决Windows热键冲突：免费工具终极使用指南【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾经…

李华

BitNet b1.58-2B-4T-GGUF部署教程：Ansible自动化部署脚本编写实践

BitNet b1.58-2B-4T-GGUF部署教程：Ansible自动化部署脚本编写实践 1. 项目概述 BitNet b1.58-2B-4T是一款革命性的开源大语言模型，采用原生1.58-bit量化技术，相比传统模型具有显著优势： 极致高效：权重仅使用-1、0、…

李华

收藏！2026版AI时代新职业全解析：小白程序员必看，轻松抓住AI风口机遇

每次聊起AI，不管是小白还是程序员，都会问同一个问题：“AI会不会抢了我的工作？” 但2026年的现实的是：AI确实在替代重复、机械的旧岗位，却也在催生一批以前从未有过的新岗位——这些岗位缺口大、薪资高&…

李华

使用 TensorFlow 2.0 构建你的第一个模型

TensorFlow 2.0 是谷歌推出的强大深度学习框架，以其易用性和高效性成为开发者的首选。无论你是机器学习新手还是经验丰富的工程师，TensorFlow 2.0 都能帮助你快速构建和训练模型。本文将带你一步步完成第一个模型的构建，从数据准备到模型训练…

李华

别被P值骗了！用Minitab做二项分布过程能力分析，这3个图才是关键

别被P值骗了！用Minitab做二项分布过程能力分析，这3个图才是关键在质量控制的实战中，我们常常陷入数字游戏的陷阱——当Minitab输出的P值显示"达标"时，便迫不及待地宣告胜利。但真实情况往往如同冰山，表面数…

李华

ComfyUI ControlNet Aux终极指南：AI图像预处理功能完全解析

ComfyUI ControlNet Aux终极指南：AI图像预处理功能完全解析【免费下载链接】comfyui_controlnet_aux ComfyUIs ControlNet Auxiliary Preprocessors 项目地址: https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 想要在ComfyUI中实现精准的图像控制…

李华