在 Logistic Regression 中,通常会将数据集分为特征和标签两部分。在代码中,[:,1] 表示选取数据集中的第二列作为标签。例如:
import numpy as np
from sklearn.linear_model import LogisticRegression
# 假设我们有以下数据集
# 第一列是身高,第二列是性别(0代表女性,1代表男性),第三列是体重
X = np.array([
[160, 0, 50],
[170, 1, 60],
[165, 0, 55],
[180, 1, 70],
[155, 0, 45],
[175, 1, 65]
])
# [:,:2] 表示选取前两列作为特征,[:,2] 表示选取第三列作为标签
y = X[:,2]
X = X[:,:2]
# 构造 Logistic Regression 模型
lr = LogisticRegression()
lr.fit(X, y)
在这个例子中,[:,:] 表示选取所有行和列,所以 X 和 y 的值与原始数据集是相同的。但是,如果我们想要只选取前两列作为特征,就可以写成 X = X[:,:2];如果想要只选取第三列作为标签,就可以写成 y = X[:,2]。