使用pandas包中的duplicated()方法检测重复行,并根据需要选择保留某些列。示例如下:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'Alice'], 'age': [25, 30, 35, 25], 'city': ['Shanghai', 'Beijing', 'Shanghai', 'Shanghai']}
df = pd.DataFrame(data)
duplicated_rows = df[df.duplicated(subset=['name', 'age'], keep=False)][['name', 'age', 'city']]
print(duplicated_rows) # 输出重复的行,保留了city列
上一篇:按多类别变量对级别进行分组并求和
下一篇:按多列的和排序,Laravel