要按条件对数据进行分组和子集筛选,可以使用Python中的pandas库。以下是一个示例代码,演示了如何按条件对数据进行分组和子集筛选。
import pandas as pd
# 创建示例数据
data = {'Name': ['John', 'Emily', 'Josh', 'Emma', 'Mike'],
'Age': [25, 30, 35, 28, 32],
'Gender': ['Male', 'Female', 'Male', 'Female', 'Male'],
'Salary': [5000, 6000, 4000, 5500, 4500]}
df = pd.DataFrame(data)
# 按条件分组
grouped = df.groupby('Gender')
# 输出每个分组的统计信息
for name, group in grouped:
print(f"Group: {name}")
print(group)
# 子集筛选
subset = df[df['Age'] > 30]
print(subset)
运行上述代码将会得到以下输出:
Group: Female
Name Age Gender Salary
1 Emily 30 Female 6000
3 Emma 28 Female 5500
Group: Male
Name Age Gender Salary
0 John 25 Male 5000
2 Josh 35 Male 4000
4 Mike 32 Male 4500
Name Age Gender Salary
2 Josh 35 Male 4000
4 Mike 32 Male 4500
上述代码首先创建了一个包含姓名、年龄、性别和工资的示例数据框df。然后,通过使用groupby()
函数将数据按性别进行分组,并使用for
循环输出每个分组的统计信息。
接下来,使用条件df['Age'] > 30
对数据进行子集筛选,并将结果存储在变量subset中。最后,使用print
语句打印出筛选后的子集。
上一篇:按条件对组进行顺序编号
下一篇:按条件分割并填充为NA