算法步骤:给定一个训练数据集,对于一个新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于哪一个类,就把该输入实例分为这个类。
最邻近算法:最邻近算法是K=1时的特殊情形。
K近邻算法特点:K近邻算法没有显式的学习过程。
K近邻模型的三个基本要素:距离度量、K值的选择、分类决策规则。
K近邻模型的本质:对特征空间的划分。
距离度量的概念:在K近邻算法中两个实例点之间的距离是两个实例点相似程度的反映,使用的距离一般是欧式距离,但是也可以是其他距离(闵可夫斯基距离)。例如当维度为1时的距离称为曼哈顿距离。
K值的选择:
分类决策规则:K近邻算法中的分类决策规则往往是多数表决,也就是由K个邻近的训练实例中的多数类决定输入实例的类。等价于经验风险最小化。
kd树的作用概述:为了提高K近邻搜索的效率所使用的特殊结构,用于存储训练数据以减少距离计算的次数。
kd树的概念:对K维空间中的实例点进行存储以便对其进行快速检索的树形结构。
具体构造过程:每次选取一个维度,找到训练集中各个点在这个维度上的坐标中位数作为切分点,将原始区域划分为两个子区域;之后对两个子区域换用下一个维度递归执行这个过程,直到两个子区域没有实例点为止。
搜索kd树的过程:首先找到包含目标点的叶节点,然后从该叶结点出发依次回退到父节点,不断查找与目标点最邻近的节点,当确定不可能存在更近的节点时终止。这样搜索旧被限制在空间的局部区域上,效率大大提高。