要遍历Pandas数据框以查找重复项,可以使用duplicated()
方法来标记重复项,然后使用循环遍历数据框以找到重复项。
以下是一个示例代码:
import pandas as pd
# 创建一个示例数据框
data = {'Name': ['John', 'Paul', 'George', 'Ringo', 'John'],
'Age': [25, 32, 28, 45, 25]}
df = pd.DataFrame(data)
# 标记重复项
df['IsDuplicated'] = df.duplicated()
# 遍历数据框以查找重复项
for index, row in df.iterrows():
if row['IsDuplicated']:
print(f"重复项:第{index+1}行 - {row['Name']},年龄{row['Age']}")
输出结果如下:
重复项:第5行 - John,年龄25
在上面的示例中,我们首先使用duplicated()
方法标记重复项,将结果存储在新的列IsDuplicated
中。然后,使用iterrows()
方法在循环中遍历数据框的每一行。在循环中,我们检查IsDuplicated
列的值,如果为True,则打印出重复项的信息。
请注意,duplicated()
方法默认标记第一次出现的值为False,后续出现的相同值为True。如果要标记所有重复项(包括第一次出现的值),可以将keep
参数设置为False,如下所示:
df['IsDuplicated'] = df.duplicated(keep=False)
这样,上面的示例中的输出结果将会是:
重复项:第1行 - John,年龄25
重复项:第5行 - John,年龄25
这是遍历Pandas数据框以查找重复项的一种解决方法。根据具体的需求,您还可以根据其他条件和方法来处理重复项。