统计学习方法学习笔记（3）K近邻法_编程开发

创始人

2024-05-16 03:34:10

0次

3.1.K近邻算法

算法步骤：给定一个训练数据集，对于一个新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于哪一个类，就把该输入实例分为这个类。

最邻近算法：最邻近算法是K=1时的特殊情形。

K近邻算法特点：K近邻算法没有显式的学习过程。

K近邻模型的三个基本要素：距离度量、K值的选择、分类决策规则。

K近邻模型的本质：对特征空间的划分。

距离度量的概念：在K近邻算法中两个实例点之间的距离是两个实例点相似程度的反映，使用的距离一般是欧式距离，但是也可以是其他距离（闵可夫斯基距离）。例如当维度为1时的距离称为曼哈顿距离。

K值的选择：

分类决策规则：K近邻算法中的分类决策规则往往是多数表决，也就是由K个邻近的训练实例中的多数类决定输入实例的类。等价于经验风险最小化。

kd树的作用概述：为了提高K近邻搜索的效率所使用的特殊结构，用于存储训练数据以减少距离计算的次数。

kd树的概念：对K维空间中的实例点进行存储以便对其进行快速检索的树形结构。

具体构造过程：每次选取一个维度，找到训练集中各个点在这个维度上的坐标中位数作为切分点，将原始区域划分为两个子区域；之后对两个子区域换用下一个维度递归执行这个过程，直到两个子区域没有实例点为止。

搜索kd树的过程：首先找到包含目标点的叶节点，然后从该叶结点出发依次回退到父节点，不断查找与目标点最邻近的节点，当确定不可能存在更近的节点时终止。这样搜索旧被限制在空间的局部区域上，效率大大提高。