Ridge回归
Ridge回归简单的来讲,是用于解决算法解释数据的时候,数据中特征高度相关(多重共线性)导致的过拟合,即完美拟合训练数据,无法很好的预测新数据,这是因为把训练数据的噪音也学习了,Ridge原理是在回归的基础上增加了一个“惩罚项”,让模型不要依赖某些变量。
比如预测房价的例子,现在有面积、房间数量、地理位置和朝向等特征,其中面积和房间数量就是高度相关的变量,因为面积大了,房间数量也一定会增加,所以当把面积(X1)和房间数量(X2)输入给算法,模型则有可能出现X1系数很大,X2系数很小,或者反过来的情况,导致模型解释能力变差,回归系数也无法稳定,主要是因为无法知道其中X1和X2对于模型的贡献情况,就好比两个员工一起做事,交付了后,老板无法评估这个成果每个人付贡献谁更大。
Ridge回归目标函数为,这个回归函数为要解决的问题的数学公式(理论解):
$$ \min_{\beta} \sum_{i=1}^{n} (y_i - \hat{y}i)^2 + \alpha \sum{j=1}^{p} \beta_j^2 $$
而将上述目标函数推导为矩阵公式后,得到如下矩阵公式(解析解),为什么要推导?这是因为Ridge回归的目标函数是一个数学表达式,是一个理论解,而解析解(即推导后的公式)则是一个计算机可以直接求解的矩阵公式。
这个公式实际上对比最小二乘法解系数的公式中添加了正则项,也就是通过增大a达到增大分母的作用,让整体系数变小,同时越大的系数,就会惩罚越大。 $$ \beta = (X^T X + \alpha I)^{-1} X^T Y $$
(完)