若想在一个PCA biplot中添加两个目标变量并同时显示两个不同的图例,可以采用如下方法:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
# 使用sklearn PCA计算主成分
pca = PCA(n_components=2)
pc = pca.fit_transform(X)
# 绘制双变量坐标系 PCA biplot
plt.scatter(pc[:,0], pc[:,1], alpha=0.5)
plt.ylim(-0.3, 0.3)
# 添加第一个目标变量
for i, target in enumerate(targets):
indicesToKeep = target == y
plt.scatter(pc[indicesToKeep, 0], pc[indicesToKeep, 1], alpha=0.8, marker='o', c=colors[i], edgecolor='black', label=target)
# 添加第二个目标变量
for i, target2 in enumerate(targets2):
indicesToKeep2 = target2 == y2
plt.scatter(pc[indicesToKeep2, 0], pc[indicesToKeep2, 1], alpha=0.8, marker='+', c=colors2[i], edgecolor='black', label=target2)
# 添加图例
plt.legend(loc='best', framealpha=0.5)
# 为每个特征添加箭头
features = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
for i, feature in enumerate(features):
plt.arrow(0, 0, pca.components_[0,i], pca.components_[1,i], head_width=0.05, head_length=0.1, fc='k', ec='k')
plt.text(pca.components_[0,i]* 1.15, pca.components_[1,i] * 1.15, feature, color='k', fontsize=12)
plt.show()
其中,targets和targets2分别是两个目标变量的名称列表;y和y2是数据集中分类变量的列表(即两个目标变量对应的分类变量);colors和colors2分别是两个目标变量的标记颜色列表;X是数据矩阵,每一行代表一个样本;注意要将目标变量对应的分类变量和标记颜色一一对应,并在散点图中添加相应的图例。
另外,需要注意的是,在绘制双变量坐标系的biplot时,如果两个主成分不是同一单位的,应当对两个主成分做归一化处理,并且设置纵轴的取值范围。