遍历Pandas数据框以查找重复项_编程开发

遍历Pandas数据框以查找重复项

创始人

2024-12-04 00:30:48

0次

要遍历Pandas数据框以查找重复项，可以使用duplicated()方法来标记重复项，然后使用循环遍历数据框以找到重复项。

以下是一个示例代码：

import pandas as pd

# 创建一个示例数据框
data = {'Name': ['John', 'Paul', 'George', 'Ringo', 'John'],
        'Age': [25, 32, 28, 45, 25]}
df = pd.DataFrame(data)

# 标记重复项
df['IsDuplicated'] = df.duplicated()

# 遍历数据框以查找重复项
for index, row in df.iterrows():
    if row['IsDuplicated']:
        print(f"重复项：第{index+1}行 - {row['Name']}，年龄{row['Age']}")

输出结果如下：

重复项：第5行 - John，年龄25

在上面的示例中，我们首先使用duplicated()方法标记重复项，将结果存储在新的列IsDuplicated中。然后，使用iterrows()方法在循环中遍历数据框的每一行。在循环中，我们检查IsDuplicated列的值，如果为True，则打印出重复项的信息。

请注意，duplicated()方法默认标记第一次出现的值为False，后续出现的相同值为True。如果要标记所有重复项（包括第一次出现的值），可以将keep参数设置为False，如下所示：

df['IsDuplicated'] = df.duplicated(keep=False)

这样，上面的示例中的输出结果将会是：

重复项：第1行 - John，年龄25
重复项：第5行 - John，年龄25

这是遍历Pandas数据框以查找重复项的一种解决方法。根据具体的需求，您还可以根据其他条件和方法来处理重复项。

上一篇：遍历pandas数据框或groupby对象

下一篇：遍历Pandas数据框以读取值到新数据框中

遍历Pandas数据框以查找重复项

相关内容

热门资讯