【机器学习】支持向量机【下】软间隔与核函数
创始人
2024-03-17 14:53:53
0

有任何的书写错误、排版错误、概念错误等,希望大家包含指正。

在阅读本篇之前建议先学习:
【机器学习】拉格朗日对偶性
【机器学习】核函数

由于字数限制,分成两篇博客。
【机器学习】支持向量机【上】硬间隔
【机器学习】支持向量机【下】软间隔与核函数

线性支持向量机

软间隔最大化

在实际中,线性可分属于比较理想的情况,大多数数据都是线性不可分的,这时可以修改硬间隔最大化,使其成为软间隔最大化,来处理线性不可分问题。这里所谓的“线性不可分”是指,训练数据中有一些特异点(outlier),将这些特异点除去后,剩下大部分的样本点组成的集合是线性可分的。

线性不可分意味着某些样本点 (xi,yi)(x_i,y_i)(xi​,yi​) 不能满足约束条件 yi(wTxi+b)≥1y_i(w^Tx_i+b)\ge 1yi​(wTxi​+b)≥1。为了解决这个问题,可以对每个样本点 (xi,yi)(x_i,y_i)(xi​,yi​) 引进一个松弛变量 ξ≥0\xi\ge 0ξ≥0,使约束条件变为
yi(wTxi+b)≥1−ξiy_i(w^Tx_i+b)\ge 1-\xi_i yi​(wTxi​+b)≥1−ξi​
对每一个松弛变量 ξi\xi_iξi​,支付一个代价 ξi\xi_iξi​。目标函数由原来的 12∣∣w∣∣2\frac{1}{2} ||w||^221​∣∣w∣∣2 变为
12∣∣w∣∣2+C∑i=1nξi(9)\frac{1}{2} ||w||^2 + C\sum_{i=1}^n \xi_i \tag{9} 21​∣∣w∣∣2+Ci=1∑n​ξi​(9)
其中,C>0C>0C>0 称为惩罚(超)参数,一般根据应用问题人为决定,CCC 值越大对误分类的惩罚越大。最小化目标函数式 (9)(9)(9) 包含两层含义:使 12∣∣w∣∣2\frac{1}{2}||w||^221​∣∣w∣∣2 尽量小即间隔尽量大,同时使误分类点的个数尽量少,CCC 是调和二者的系数。

基于上面允许误分类的思想,对于线性不可分的支持向量机学习问题,我们可以采用与线性可分时类似的学习过程。

定义原始问题:
min⁡w,b,ξ12∣∣w∣∣2+C∑i=1nξis.t.yi(wTxi+b)≥1−ξi,i=1,2,…,nξi≥0,i=1,2,…,n(10)\begin{matrix} &\min_{w,b,\xi} \frac{1}{2} ||w||^2 + C\sum_{i=1}^n\xi_i& \\\\ s.t.&y_i(w^Tx_i+b)\ge 1-\xi_i,& i=1,2,\dots,n \\ &\xi_i\ge0,& i=1,2,\dots,n \\ \end{matrix} \tag{10} s.t.​minw,b,ξ​21​∣∣w∣∣2+C∑i=1n​ξi​yi​(wTxi​+b)≥1−ξi​,ξi​≥0,​i=1,2,…,ni=1,2,…,n​(10)
原始问题式 (10)(10)(10) 是一个凸二次规划问题,因而关于 (w,b,ξ)(w,b,\xi)(w,b,ξ) 的最优解是存在的。而且 www 的最优解是唯一的,但 bbb 的最优解可能不唯一,而是存在于一个区间。假设最优解为 w∗w^*w∗ 和 b∗b^*b∗,于是可以得到划分超平面 w∗Tx+b∗=0{w^*}^Tx+b^*=0w∗Tx+b∗=0 及分类决策函数 f(x)=sign(w∗Tx+b∗)f(x)={\rm sign}({w^*}^Tx+b^*)f(x)=sign(w∗Tx+b∗)。称这样的模型为训练样本线性不可分时的线性支持向量机,简称为线性支持向量机。

对偶问题

构建广义拉格朗日函数
L(w,b,ξ,α,β)=12∣∣w∣∣2+C∑i=1nξi−∑i=1nαi(yi(wTxi+b)−1+ξi)−∑i=1nβiξiL(w, b, \xi,\alpha,\beta) = \frac{1}{2} ||w||^2 + C\sum_{i=1}^n \xi_i -\sum_{i=1}^n \alpha_i \big(y_i(w^Tx_i+b)-1+\xi_i\big) - \sum_{i=1}^n\beta_i\xi_i L(w,b,ξ,α,β)=21​∣∣w∣∣2+Ci=1∑n​ξi​−i=1∑n​αi​(yi​(wTxi​+b)−1+ξi​)−i=1∑n​βi​ξi​
其中,拉格朗日乘子 αi≥0\alpha_i\ge 0αi​≥0,βi≥0\beta_i\ge 0βi​≥0。

首先求 L(w,b,ξ,α,β)L(w,b,\xi,\alpha,\beta)L(w,b,ξ,α,β) 对 www,bbb 和 ξ\xiξ 的极小,由
∇wL(w,b,ξ,α,β)=w−∑i=1nαiyixi=0∇bL(w,b,ξ,α,β)=−∑i=1nαiyi=0∇ξiL(w,b,ξ,α,β)=C−αi−βi=0\nabla_w L(w,b,\xi, \alpha,\beta) = w - \sum_{i=1}^n \alpha_iy_ix_i=0\\ \nabla_b L(w,b,\xi, \alpha,\beta) = - \sum_{i=1}^n \alpha_iy_i=0\\ \nabla_{\xi_i} L(w,b,\xi, \alpha,\beta) = C - \alpha_i - \beta_i=0\\ ∇w​L(w,b,ξ,α,β)=w−i=1∑n​αi​yi​xi​=0∇b​L(w,b,ξ,α,β)=−i=1∑n​αi​yi​=0∇ξi​​L(w,b,ξ,α,β)=C−αi​−βi​=0
可得
w=∑i=1nαiyixi(11)w = \sum_{i=1}^n \alpha_i y_i x_i\tag{11} w=i=1∑n​αi​yi​xi​(11)

∑i=1nαiyi=0(12)\sum_{i=1}^n \alpha_i y_i=0\tag{12} i=1∑n​αi​yi​=0(12)

C−αi−βi=0(13)C - \alpha_i - \beta_i = 0\tag{13} C−αi​−βi​=0(13)

将式 (11)∼(13)(11)\sim(13)(11)∼(13) 代入拉格朗日函数中得
min⁡w,b,ξL(w,b,ξ,α,β)=−12∑i=1n∑i=1nαiαjyuyj(xiTxj)+∑i=1nαi\min_{w,b, \xi} L(w, b, \xi,\alpha, \beta) = -\frac{1}{2} \sum_{i=1}^n\sum_{i=1}^n\alpha_i\alpha_jy_uy_j(x_i^Tx_j)+\sum_{i=1}^n\alpha_i w,b,ξmin​L(w,b,ξ,α,β)=−21​i=1∑n​i=1∑n​αi​αj​yu​yj​(xiT​xj​)+i=1∑n​αi​
再对 min⁡w,b,ξL(w,b,ξ,α,β)\min\limits_{w,b, \xi} L(w, b, \xi,\alpha, \beta)w,b,ξmin​L(w,b,ξ,α,β) 求 α\alphaα 和 β\betaβ 的极大。显然这已经与 β\betaβ 无关,得到对偶问题:
max⁡α−12∑i=1n∑i=1nαiαjyuyj(xiTxj)+∑i=1nαis.t.∑i=1nαiyi=0C−αi−βi=0αi≥0βi≥0,i=1,2,…,n(14)\begin{array}{ll} \max\limits_\alpha & -\frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{i=1}^n\alpha_i\alpha_jy_uy_j(x_i^Tx_j)+\sum\limits_{i=1}^n\alpha_i \\ \\ s.t.& \sum \limits_{i=1}^n\alpha_iy_i = 0\\ &C-\alpha_i - \beta_i = 0 \\ &\alpha_i\ge 0\\ &\beta_i\ge 0,\space\space\space\space i=1,2,\dots, n \end{array} \tag{14} αmax​s.t.​−21​i=1∑n​i=1∑n​αi​αj​yu​yj​(xiT​xj​)+i=1∑n​αi​i=1∑n​αi​yi​=0C−αi​−βi​=0αi​≥0βi​≥0,    i=1,2,…,n​(14)
对对偶问题式 (14)(14)(14) 进行变形:利用等式约束 C−αi−βi=0C-\alpha_i-\beta_i=0C−αi​−βi​=0 消去 βi\beta_iβi​,从而只留下变量 αi\alpha_iαi​,并将后三条约束共同表达为
0≤αi≤C0\le \alpha_i\le C 0≤αi​≤C
最终将问题从求极大转化为求极小,得
min⁡α12∑i=1n∑j=1nαiαjyuyj(xiTxj)−∑i=1nαis.t.∑i=1nαiyi=00≤αi≤C,i=1,2,…,n(15)\begin{matrix} &\min\limits_\alpha \frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_uy_j(x_i^Tx_j)-\sum\limits_{i=1}^n\alpha_i \\ \\ s.t.& \sum_{i=1}^n \alpha_iy_i = 0 \\ & 0\le \alpha_i\le C,\space\space\space\space i=1,2,\dots,n \\ \end{matrix} \tag{15} s.t.​αmin​21​i=1∑n​j=1∑n​αi​αj​yu​yj​(xiT​xj​)−i=1∑n​αi​∑i=1n​αi​yi​=00≤αi​≤C,    i=1,2,…,n​(15)
由于问题具有强对偶性,所以 KKT 条件成立,即得
yi(w∗Txi+b∗)−1+ξi∗≥0ξi∗≥0y_i({w^*}^Tx_i+b^*)-1+\xi_i^* \ge 0\\\\ \xi_i^*\ge0\\ yi​(w∗Txi​+b∗)−1+ξi∗​≥0ξi∗​≥0

∇wL(w∗,b∗,ξ∗,α∗,β∗)=w∗−∑i=1nαi∗yixi=0(16)\nabla_w L(w^*,b^*,\xi^*, \alpha^*,\beta^*) = w^* - \sum_{i=1}^n \alpha_i^*y_ix_i=0\tag{16} \\ ∇w​L(w∗,b∗,ξ∗,α∗,β∗)=w∗−i=1∑n​αi∗​yi​xi​=0(16)

∇bL(w∗,b∗,ξ∗,α∗,β∗)=−∑i=1nαi∗yi=0\nabla_b L(w^*,b^*,\xi^*, \alpha^*,\beta^*) = - \sum_{i=1}^n \alpha_i^*y_i=0 ∇b​L(w∗,b∗,ξ∗,α∗,β∗)=−i=1∑n​αi∗​yi​=0

∇ξL(w∗,b∗,ξ∗,α∗,β∗)=C−α∗−β∗=0(17)\nabla_{\xi} L(w^*,b^*,\xi^*, \alpha^*,\beta^*) = C - \alpha^* - \beta^*=0 \tag{17} ∇ξ​L(w∗,b∗,ξ∗,α∗,β∗)=C−α∗−β∗=0(17)

αi∗≥0βi∗≥0\alpha_i^*\ge 0\\\\ \beta_i^*\ge 0 αi∗​≥0βi∗​≥0

αi∗(yi(w∗Txi+b∗)−1+ξi∗)=0(18)\alpha_i^*\big( y_i({w^*}^Tx_i+b^*)-1+\xi_i^* \big) = 0\tag{18} αi∗​(yi​(w∗Txi​+b∗)−1+ξi∗​)=0(18)

βi∗ξi∗=0(19)\beta^*_i\xi_i^*=0\tag{19} βi∗​ξi∗​=0(19)

由式 (16)(16)(16) 可知
w∗=∑i=1nαi∗yixi(20)w^* = \sum_{i=1}^n \alpha_i^*y_ix_i \tag{20} w∗=i=1∑n​αi∗​yi​xi​(20)
若存在 αj∗\alpha_j^*αj∗​,0<αj∗ b∗=yj−∑i=1nyiαi∗(xiTxj)(21)b^* = y_j - \sum_{i=1}^n y_i\alpha_i^*(x_i^Tx_j)\tag{21} b∗=yj​−i=1∑n​yi​αi∗​(xiT​xj​)(21)
由此,划分超平面可以写为
∑i=1nαi∗yi(xiTx)+b∗=0\sum_{i=1}^n \alpha_i^*y_i(x_i^Tx)+b^*=0 i=1∑n​αi∗​yi​(xiT​x)+b∗=0
分类决策函数可以写为
f(x)=sign(∑i=1nαi∗yi(xiTx)+b∗)f(x) ={\rm sign}\Big( \sum_{i=1}^n \alpha_i^*y_i(x_i^Tx)+b^* \Big) f(x)=sign(i=1∑n​αi∗​yi​(xiT​x)+b∗)
上式称为线性支持向量机的对偶形式。线性支持向量机学习算法如下。

输入:训练集D={(x1,y1),⋅⋅⋅,(xn,yn)},其中xi∈Rd,yi∈{+1,−1},i=1,…,n过程:\begin{array}{ll} \textbf{输入:}&\space训练集\space D = \{(x_1,y_1),···,(x_n,y_n)\},\space 其中\space x_i\in \mathbb R^{d},\space y_i\in \{+1,-1\},\space i=1,\dots,n \\ \textbf{过程:} \end{array} 输入:过程:​ 训练集 D={(x1​,y1​),⋅⋅⋅,(xn​,yn​)}, 其中 xi​∈Rd, yi​∈{+1,−1}, i=1,…,n

1:选择惩罚参数C>0,构造并求解凸二次规划问题min⁡α12∑i=1n∑j=1nαiαjyiyj(xiTxj)−∑i=1nαis.t.∑i=1nαiyi=00≤αi≤C,i=1,2,…,n求得最优解α∗={αi∗},i=1,2,…,n2:计算w∗=∑i=1nαi∗yixi3:选择0<αj∗0,构造并求解凸二次规划问题\\ \\ &\begin{array}{c} & \min \limits_\alpha \frac{1}{2}\sum \limits_{i=1}^n\sum \limits_{j=1}^n \alpha_i\alpha_jy_iy_j(x_i^Tx_j) -\sum \limits_{i=1}^n \alpha_i &\\ &s.t.\space\space\space\space \sum\limits_{i=1}^n \alpha_iy_i = 0 \\ &0\le\alpha_i\le C,\space\space\space\space i=1,2,\dots, n \\\\ \end{array}\\ & 求得最优解 \space \alpha^* = \{\alpha_i^*\},\space i=1,2,\dots,n \\ 2:& 计算\\ \\ &\begin{array}{c} &&w^* = \sum \limits_{i=1}^n \alpha_i^*y_ix_i \end{array}\\\\ 3:& 选择 \space 0<\alpha_j^*0,构造并求解凸二次规划问题​αmin​21​i=1∑n​j=1∑n​αi​αj​yi​yj​(xiT​xj​)−i=1∑n​αi​s.t.    i=1∑n​αi​yi​=00≤αi​≤C,    i=1,2,…,n​求得最优解 α∗={αi∗​}, i=1,2,…,n计算​​w∗=i=1∑n​αi∗​yi​xi​​选择 0<αj∗​

输出:划分超平面和分类决策函数\begin{array}{l} \textbf{输出:}\space 划分超平面和分类决策函数 &&&&&&&&&&&&&&&&&& \end{array} 输出: 划分超平面和分类决策函数​​​​​​​​​​​​​​​​​​​

算法 2    线性支持向量机学习算法

支持向量

在线性不可分的情况下,将对偶问题式 (15)(15)(15) 的解 α∗={αi∗}α^*=\{\alpha_i^*\}α∗={αi∗​} 中对应于 αi∗>0α_i^* > 0αi∗​>0 的样本点 (xi,yj)(x_i, y_j)(xi​,yj​) 的实例 xix_ixi​ 称为支持向量(软间隔的支持向量)。如图 333 所示,这时的支持向量要比线性可分时的情况复杂一些。图中,划分超平面由实线表示,间隔边界由虚线表示,正样本由“o”表示,负样本由“×”表示。图中还标出了样本 xix_ixi​ 到间隔边界的距离 ξi∣∣w∣∣\frac{\xi_i}{||w||}∣∣w∣∣ξi​​ 。

在这里插入图片描述

图 3    软间隔的支持向量

软间隔的支持向量 xix_ixi​ 或者在间隔边界上,或者在间隔边界与划分超平面之间,或者在划分超平面误分一侧。由式 (17)(17)(17) 和 (19)(19)(19) 可得,若 αi∗1\xi_i> 1ξi​>1,则 xix_ixi​ 位于划分超平面误分一侧。

合页损失函数

还可以从另一个角度解释线性支持向量机学习。定义损失函数为划分错误的样本个数,即
J(w,b)=∑i=1n1{yi(wTxi+b)<1}J(w,b) = \sum_{i=1}^n1\{y_i(w^Tx_i+b)<1\} J(w,b)=i=1∑n​1{yi​(wTxi​+b)<1}
其中,1{⋅}1\{·\}1{⋅} 的作用类似于艾弗森括号,即括号内为真返回 111,否则返回 000。显然,函数 JJJ 非连续,且存在跳跃,数学性质不好,不便于求导。故将损失函数 JJJ 重新定义
J(w,b)=∑i=1n[1−yi(wTxi+b)]+J(w,b) = \sum_{i=1}^n[1-y_i(w^Tx_i+b)]_+ J(w,b)=i=1∑n​[1−yi​(wTxi​+b)]+​
其中,函数 [z]+[z]_+[z]+​ 为合页函数(hinge function)
[z]+={z,z>00,z≤0[z]_+ = \left\{ \begin{matrix} z,&z>0\\ 0,&z\le 0 \end{matrix} \right. [z]+​={z,0,​z>0z≤0​
也可以等价表示为
[z]+=max⁡(0,z)[z]_+ = \max(0, z) [z]+​=max(0,z)
函数 JJJ 加上正则化项后定义为最终损失函数 LLL
L(w,b)=J(w,b)+λ∣∣w∣∣2=∑i=1n[1−yi(wTxi+b)]++λ∣∣w∣∣2\begin{aligned} L(w,b) &= J(w,b) + \lambda ||w||^2 \\ &= \sum_{i=1}^n[1-y_i(w^Tx_i+b)]_+ + \lambda ||w||^2 \end{aligned} L(w,b)​=J(w,b)+λ∣∣w∣∣2=i=1∑n​[1−yi​(wTxi​+b)]+​+λ∣∣w∣∣2​
因此我们的优化目标为
min⁡w,b∑i=1n[1−yi(wTxi+b)]++λ∣∣w∣∣2(22)\min_{w,b} \sum_{i=1}^n[1-y_i(w^Tx_i+b)]_+ + \lambda ||w||^2 \tag{22} w,bmin​i=1∑n​[1−yi​(wTxi​+b)]+​+λ∣∣w∣∣2(22)
观察损失函数 LLL,当样本点 (xi,yi)(x_i ,y_i)(xi​,yi​) 被正确分类且确信度 yi(wTxi+b)y_i(w^T x_i+b)yi​(wTxi​+b) 大于 111 时,损失为 000,否则损失为 1−yi(wTxi+b)1-y_i(w^T x_i+b)1−yi​(wTxi​+b)。注意到图 333 中的样本点 x4x_4x4​ 被正确分类,但损失不是 000。损失函数的第二项是系数为 λ\lambdaλ 的 www 的 L2L_2L2​ 范数,是正则化项。

可以很容易证明优化问题 (22)(22)(22) 与原始问题 (10)(10)(10) 等价。令
[1−yi(wTxi+b)]+=ξi[1-y_i(w^Tx_i+b)]_+ = \xi_i [1−yi​(wTxi​+b)]+​=ξi​
则 ξi≥0\xi_i\ge0ξi​≥0,式 (10)(10)(10) 中的第二个不等式约束成立。由上式,当 1−yi(wTxi+b)>01-y_i(w^Tx_i+b)>01−yi​(wTxi​+b)>0 时,有 yi(wTxi+b)=1−ξiy_i(w^Tx_i+b)=1-\xi_iyi​(wTxi​+b)=1−ξi​;当 1−yi(wTxi+b)≤01-y_i(w^Tx_i+b)\le 01−yi​(wTxi​+b)≤0 时,ξi=0\xi_i=0ξi​=0,有 yi(wTxi+b)≥1−ξiy_i(w^Tx_i+b)\ge 1-\xi_iyi​(wTxi​+b)≥1−ξi​。故式 (10)(10)(10) 中的第一个不等式约束成立。于是 www,bbb 和 ξi\xi_iξi​ 满足式 (10)(10)(10) 的约束条件,所以最优化问题 (22)(22)(22) 可以写成
min⁡w,b∑i=1nξi+λ∣∣w∣∣2\min_{w,b} \sum_{i=1}^n \xi_i + \lambda||w||^2 w,bmin​i=1∑n​ξi​+λ∣∣w∣∣2
若取 λ=12C\lambda=\frac{1}{2C}λ=2C1​,则
min⁡w,b1C(12∣∣w∣∣2+C∑i=1nξi)\min_{w,b}\frac{1}{C} \Big(\frac{1}{2} ||w||^2 + C\sum_{i=1}^n\xi_i \Big) w,bmin​C1​(21​∣∣w∣∣2+Ci=1∑n​ξi​)
与原始问题 (10)(10)(10) 等价。反之,也可以将优化问题 (22)(22)(22) 表示成问题 (10)(10)(10)。

合页损失函数 L(y(xTx+b))L\big(y(x^Tx+b)\big)L(y(xTx+b)) 的图形如图 444 所示,横轴为 y(wTx+b)y(w^Tx+b)y(wTx+b),纵轴为损失。由于函数形状像一个合页,故名合页损失函数。图中还画出了出 010101 损失函数,可以认为它是二类分类问题的真正的损失函数,而合页损失函数是 0~10\text{\textasciitilde}10~1 损失函数的上界。由于 0~10\text{\textasciitilde}10~1 损失函数是跳跃的,不利于求导,直接优化由其构成的目标函数比较困难,可以认为线性支持向量机是优化由 0~10\text{\textasciitilde}10~1 损失函数的上界(合页损失函数)构成的目标函数。这时的上界损失函数又称为代理损失函数(surrogate loss function)。

在这里插入图片描述

图 4    合页损失函数

图 444 中虚线显示的是感知机的损失函数 [−yi(wTxi+b)]+[-y_i(w^Tx_i+b)]_+[−yi​(wTxi​+b)]+​。这时,当样本点 (xi,yi)(x_i, y_i)(xi​,yi​) 被正确分类时,损失为 000,否则损失是 −yi(wTxi+b)-y_i(w^Tx_i+b)−yi​(wTxi​+b)。相比之下,合页损失函数不仅要分类正确,而且确信度足够高时损失才为 000。也就是说,合页损失函数对学习有更高的要求。

将式 (15)(15)(15) 与硬间隔对偶问题对比可以看出,二者唯一的差别就在于对偶变量的约束不同:前者是 0≤αi0\le \alpha_i0≤αi​,后者是 0≤αi≤C0\le \alpha_i\le C0≤αi​≤C。因此,在引入核函数后,硬间隔和软间隔能够得到同样形式的决策函数。

非线性支持向量机

我们注意到在线性支持向量机的对偶问题中,无论是目标函数还是决策函数(划分超平面)都只涉及输入样本与样本之间的内积。在对偶问题的目标函数 (15)(15)(15) 中的内积 xiTxjx_i^Tx_jxiT​xj​ 可以用核函数 K(xi,xj)=ϕ(xi)Tϕ(xj)K(x_i,x_j)=\phi(x_i)^T\phi(x_j)K(xi​,xj​)=ϕ(xi​)Tϕ(xj​) 来代替。此时对偶问题的目标函数成为
W(α)=12∑i=1n∑j=1nαiαjyuyj(ϕ(xi)Tϕ(xj))−∑i=1nαi=12∑i=1n∑j=1nαiαjyuyjK(xi,xj)−∑i=1nαi\begin{aligned} W(\alpha) &= \frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_uy_j \big(\phi(x_i)^T\phi(x_j)\big)-\sum_{i=1}^n\alpha_i \\ &=\frac{1}{2} \sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_uy_jK(x_i,x_j)-\sum_{i=1}^n\alpha_i \end{aligned} W(α)​=21​i=1∑n​j=1∑n​αi​αj​yu​yj​(ϕ(xi​)Tϕ(xj​))−i=1∑n​αi​=21​i=1∑n​j=1∑n​αi​αj​yu​yj​K(xi​,xj​)−i=1∑n​αi​​
同样,分类决策函数中的内积也可以用核函数替代,而分类决策函数成为
f(x)=sign(∑i=1Nαi∗yi(ϕ(xi)Tϕ(x))+b∗)=sign(∑i=1Nαi∗yiK(xi,x)+b∗)\begin{aligned} f(x) &= {\rm sign}\Big( \sum_{i=1}^N \alpha_i^* y_i \big(\phi(x_i)^T\phi(x)\big) +b^* \Big) \\ &= {\rm sign} \Big( \sum_{i=1}^N \alpha_i^* y_i K(x_i,x) +b^* \Big) \\ \end{aligned} f(x)​=sign(i=1∑N​αi∗​yi​(ϕ(xi​)Tϕ(x))+b∗)=sign(i=1∑N​αi∗​yi​K(xi​,x)+b∗)​
这等价于经过映射函数 ϕ\phiϕ 将原来的输入空间变换到一个新的特征空间,将输入空间中的内积 xiTxjx_i^Tx_jxiT​xj​ 变换为特征空间中的内积 ϕ(xi)Tϕ(xj)\phi(x_i)^T\phi(x_j)ϕ(xi​)Tϕ(xj​),在新的特征空间里从训练样本中学习线性支持线性向量机。当映射函数是非线性函数时,学习到的含有核函数的支持向量机是非线性分类模型。

也就是说,在核函数 K(x,z)K(x,z)K(x,z) 给定的条件下,可以利用解线性分类问题的方法求解非线性分类问题的支持向量机。学习是隐式地在特征空间进行的,不需要显式地定义特征空间和映射函数。这样的技巧称为核技巧,它是巧妙地利用线性分类学习方法与核函数解决非线性问题的技术。在实际应用中,往往依赖领域知识直接选择核函数,核函数选择的有效性需要通过实验验证。

非线性支持向量机学习算法如下。

输入:线性可分训练集D={(x1,y1),⋅⋅⋅,(xn,yn)},其中xi∈Rd,yi∈{+1,−1},i=1,…,n过程:\begin{array}{ll} \textbf{输入:}&\space线性可分训练集\space D = \{(x_1,y_1),···,(x_n,y_n)\},\space 其中\space x_i\in \mathbb R^{d},\space y_i\in \{+1,-1\},\space i=1,\dots,n \\ \textbf{过程:} \end{array} 输入:过程:​ 线性可分训练集 D={(x1​,y1​),⋅⋅⋅,(xn​,yn​)}, 其中 xi​∈Rd, yi​∈{+1,−1}, i=1,…,n

1:选取适当的核函数K(x,z)和适当的参数C,构造并求解最优化问题min⁡α12∑i=1n∑j=1nαiαjyiyj(xiTxj)−∑i=1nαis.t.∑i=1nαiyi=00≤αi≤C,i=1,2,…,n求得最优解α∗={αi∗},i=1,2,…,n2:计算w∗=∑i=1nαi∗yixi3:选择αj∗>0,计算b∗=yj−∑i=1nαi∗yiK(xi,xj)4:分类决策函数f(x)=sign(∑i=1nαi∗yiK(xi,x)+b∗)\begin{array}{rl} 1:& 选取适当的核函数 \space K(x,z) \space 和适当的参数\space C,构造并求解最优化问题\\ \\ &\begin{array}{c} & \min \limits_\alpha \frac{1}{2}\sum \limits_{i=1}^n\sum \limits_{j=1}^n \alpha_i\alpha_jy_iy_j(x_i^Tx_j) -\sum \limits_{i=1}^n \alpha_i &\\ &s.t.\space\space\space\space \sum\limits_{i=1}^n \alpha_iy_i = 0 \\ &0\le\alpha_i\le C,\space\space\space\space i=1,2,\dots, n \\\\ \end{array}\\ & 求得最优解 \space \alpha^* = \{\alpha_i^*\},\space i=1,2,\dots,n \\ 2:& 计算\\ \\ &\begin{array}{c} &&w^* = \sum \limits_{i=1}^n \alpha_i^*y_ix_i \end{array}\\\\ 3:& 选择 \space \alpha_j^*>0,\space 计算\\ \\ &\begin{array}{c} &&b^* = y_j - \sum\limits_{i=1}^n\alpha_i^*y_iK(x_i,x_j) \end{array}\\\\ 4: & 分类决策函数\\ \\ &\begin{array}{c} &&f(x)={\rm sign}\left(\sum\limits_{i=1}^n\alpha_i^*y_i K(x_i,x)+b^*\right) \end{array} \end{array} 1:2:3:4:​选取适当的核函数 K(x,z) 和适当的参数 C,构造并求解最优化问题​αmin​21​i=1∑n​j=1∑n​αi​αj​yi​yj​(xiT​xj​)−i=1∑n​αi​s.t.    i=1∑n​αi​yi​=00≤αi​≤C,    i=1,2,…,n​求得最优解 α∗={αi∗​}, i=1,2,…,n计算​​w∗=i=1∑n​αi∗​yi​xi​​选择 αj∗​>0, 计算​​b∗=yj​−i=1∑n​αi∗​yi​K(xi​,xj​)​分类决策函数​​f(x)=sign(i=1∑n​αi∗​yi​K(xi​,x)+b∗)​​

输出:分类决策函数\begin{array}{l} \textbf{输出:}\space 分类决策函数 &&&&&&&&&&&&&&&&&& \end{array} 输出: 分类决策函数​​​​​​​​​​​​​​​​​​​

算法 3    非线性支持向量机学习算法

REF

[1]《统计学习方法(第二版)》李航著

[2]《机器学习》周志华著

[2] 机器学习-白板推导系列(六)-支持向量机SVM(Support Vector Machine)- bilibili

[3] 机器学习-白板推导系列(六)-支持向量机SVM(Support Vector Machine)- 知乎

[4] 【机器学习】拉格朗日对偶性 - CSDN

相关内容

热门资讯

AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWR报告解读 WORKLOAD REPOSITORY PDB report (PDB snapshots) AW...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...
群晖外网访问终极解决方法:IP... 写在前面的话 受够了群晖的quickconnet的小水管了,急需一个新的解决方法&#x...