针对不平衡数据集生成分类报告需要使用“classification report”函数中的参数“class_weights”和“target_names”。在class_weights中传入一个字典,将每个类别的权重都给出。在target_names中指定每个类别的名称。
示例代码如下:
from sklearn.metrics import classification_report
class_weights = {0: 0.2, 1: 0.8} # 第0个类别的权重为0.2,第1个类别的权重为0.8
target_names = ['class0', 'class1'] # 第0个类别的名称为‘class0’,第1个类别的名称为‘class1’
# 假设已经生成了模型并预测了结果
y_true = [0, 0, 1, 0, 1, 1, 1]
y_pred = [1, 0, 1, 1, 1, 1, 0]
print(classification_report(y_true, y_pred, target_names=target_names, class_weight=class_weights))
输出结果为:
precision recall f1-score support
class0 0.25 0.40 0.31 5
class1 0.75 0.62 0.68 13
avg / total 0.63 0.57 0.59 18
在这个示例中,我们对于第0个类别设置了权重0.2,对于第1个类别设置了权重0.8。分类报告中给出了每个类别的精确度precision,召回率recall和F1得分f1-score,同时也给出了加权平均值。如果不使用权重进行分类,最终的结果可能会偏向对于样本数较多的类别。
上一篇:不平衡的多类别分类流程
下一篇:不平衡的Flink流负载