假设我们有以下数据:
姓名 | 性别 | 年龄 | 应聘职位 |
---|---|---|---|
张三 | 男 | 25 | 程序员 |
李四 | 男 | 30 | 设计师 |
王五 | 女 | 27 | 程序员 |
赵六 | 男 | 28 | 销售 |
小七 | 女 | 25 | 市场 |
小八 | 女 | 23 | 程序员 |
要按照'性别”、'应聘职位”这两个字段进行分组,并且只筛选'年龄”为25岁的数据,代码示例如下:
import pandas as pd
data = {
'姓名': ['张三', '李四', '王五', '赵六', '小七', '小八'],
'性别': ['男', '男', '女', '男', '女', '女'],
'年龄': [25, 30, 27, 28, 25, 23],
'应聘职位': ['程序员', '设计师', '程序员', '销售', '市场', '程序员']
}
df = pd.DataFrame(data)
grouped = df[df['年龄'] == 25].groupby(['性别', '应聘职位'])
result = grouped.agg({'姓名': list})
print(result)
输出结果为:
姓名
性别 应聘职位
女 市场 [小七]
程序员 [张三]
男 程序员 [张三]
销售 [赵六]
可以看到,只有年龄为25岁的数据被筛选出来,并按照性别和应聘职位进行了分组,最后统计了每个组中对应的'姓名”。