Ridge回归

Ridge回归简单的来讲，是用于解决算法解释数据的时候，数据中特征高度相关（多重共线性）导致的过拟合，即完美拟合训练数据，无法很好的预测新数据，这是因为把训练数据的噪音也学习了，Ridge原理是在回归的基础上增加了一个“惩罚项”，让模型不要依赖某些变量。

比如预测房价的例子，现在有面积、房间数量、地理位置和朝向等特征，其中面积和房间数量就是高度相关的变量，因为面积大了，房间数量也一定会增加，所以当把面积（X1）和房间数量（X2）输入给算法，模型则有可能出现X1系数很大，X2系数很小，或者反过来的情况，导致模型解释能力变差，回归系数也无法稳定，主要是因为无法知道其中X1和X2对于模型的贡献情况，就好比两个员工一起做事，交付了后，老板无法评估这个成果每个人付贡献谁更大。

Ridge回归目标函数为，这个回归函数为要解决的问题的数学公式（理论解）：

$$ \min_{\beta} \sum_{i=1}^{n} (y_i - \hat{y}i)^2 + \alpha \sum{j=1}^{p} \beta_j^2 $$

而将上述目标函数推导为矩阵公式后，得到如下矩阵公式（解析解），为什么要推导？这是因为Ridge回归的目标函数是一个数学表达式，是一个理论解，而解析解（即推导后的公式）则是一个计算机可以直接求解的矩阵公式。

这个公式实际上对比最小二乘法解系数的公式中添加了正则项，也就是通过增大a达到增大分母的作用，让整体系数变小，同时越大的系数，就会惩罚越大。 $$ \beta = (X^T X + \alpha I)^{-1} X^T Y $$

(完)

Lucas Wu

Ridge回归

文档信息