k折交叉验证是一种常用的模型评估方法,用于估计模型在未知数据上的性能。下面是一个使用Python实现k折交叉验证的示例代码:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
# 创建一个逻辑回归模型
model = LogisticRegression()
# 创建输入特征矩阵 X 和目标变量数组 y
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 1, 0, 1]
# 创建k折交叉验证对象,指定折数(例如k=5)
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
# 使用k折交叉验证评估模型
scores = cross_val_score(model, X, y, cv=kfold)
# 打印每次交叉验证的准确率得分
for i, score in enumerate(scores):
print(f"Fold {i+1} Score: {score:.2f}")
# 打印平均准确率得分
print(f"Average Score: {scores.mean():.2f}")
在上面的代码中,我们首先导入了必要的库,包括KFold
用于创建k折交叉验证对象,cross_val_score
用于计算每次交叉验证的得分,以及LogisticRegression
用于创建逻辑回归模型。
然后,我们创建了一个逻辑回归模型对象model
。接下来,我们创建了输入特征矩阵X
和目标变量数组y
,这是一个简化的示例。
然后,我们使用KFold
创建了一个k折交叉验证对象kfold
,指定了折数为5,并设置了随机种子random_state
为42。随机种子的作用是确保每次运行结果一致。
最后,我们使用cross_val_score
计算每次交叉验证的得分,并使用循环打印每次交叉验证的得分。最后,我们打印了平均准确率得分。
通过运行上述代码,你将得到每次交叉验证的得分以及平均准确率得分,以评估模型在未知数据上的性能。