Linear_regression

线性回归

什么是线性回归
核心思想：最小二乘法、梯度下降
选用误差函数为平方和的概率解释
线性回归的优缺点
改进：Lasso & Ridge
实际应用和代码展示
小结

线性回归到底是什么？

假设数据为：
$D = (x_1,y_1), \cdots , (x_N,y_N)$
记为：
$X = (x_1,x_2,\cdots,x_N)^T,Y = (y_1,y_2,\cdots, y_N)^T$
假设：
$h(x) = h_\theta(x) = \theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_Nx_N = \theta^TX$
线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大，每个特征对结果的影响强弱可以由前面的参数体现，而且每个特征变量可以首先映射到一个函数，然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。

$x_1, \cdots,x_N$ 代表了不同的特征（features）， $\theta$ 在这里是参数，也可以理解为权重，意思是调整特征中每个分量的占比，那么我们需要设计一个机制来对 $\theta$ 进行评估，来用一个函数 $J(\theta)$ 来描述 $h_\theta(x)$ 不好的程度。

核心思想

所以如何构造 $J(\theta)$ ，也就是我们所谓的损失函数就十分重要！

最小二乘法

我们采用二范数定义的平方误差来定义损失函数：

$J(\theta) = \sum_{i=1}^{N} ||\theta^Tx_i-y_i||_2^2$
展开得到：
$J(\theta) = (\theta) ^TX^TX\theta-2\theta^TX^TY+Y^TY$
估计最小化上面的值的 $\hat{\theta}$ ：
$\hat\theta = arg\min \limits_{\theta} J\left(\theta\right)$
我们对损失函数关于参数 $\theta$ 求导使其等于0，从而解出 $\hat{\theta}$ 。
$\hat{\theta} = (X^TX)^{-1}X^TY=X^+Y$
这个等式也叫normal equation，其中的 $\hat{\theta} = (X^TX)^{-1}X^T$ 被称为伪逆。对于行或列满秩的 $X$ ，可以直接求解，但是矩阵的逆可能会求起来比较慢，而对于非满秩的样本，需要使用奇异值分解，也就是SVD方法，得到
$X=U\Sigma V^T$
所以：
$X^+=V\Sigma^{-1}U^T$

在几何角度上

这里，最小二乘法相当于直线与实验值的距离的平方和，我们希望这个距离越小越好，也就是所谓点到直线的最短距离，就是垂直的情况。那么延伸到高维的情况，假设我们的实验样本张成一个p维空间（满秩）： $X = Span(x_1, \cdots , x_N)$ ，而 $h(x) = h_\theta(x) = \theta^TX$ ，也就是 $x_1, \cdots , x_N$ 的某种线性组合，那么这个距离的差值应该和这个张成的空间垂直才能保证距离的最小化。
$X^T \cdot (Y-\theta^TX) = 0 \Rightarrow \theta = (X^TX)^{-1}X^TY$

梯度下降法

$J(\theta) = \frac{1}{2} \sum_{i=1}^{N} (h_\theta(x^{(i)})-y^{(i)})^2$
我们要寻找 $\theta$ 使得 $J(\theta)$ 最小，因此问题归结为求极小值问题，步骤如下：

首先对参数随机赋值
改变参数，使得损失函数按梯度下降的方向减少，梯度方向有偏导决定，因为求的为极小值，所以梯度方向是偏导的反方向，迭代方式有两种：
- - 批梯度下降：
    对全部的训练数据求得误差后在对参数进行更新
- - 增量梯度下降：
    每扫描一步都对参数进行更新（可能不断在收敛出徘徊）
重复直到收敛

选用误差函数为平方和的概率解释

至于为什么我们把损失函数定义为上述的形式，我们从概率方面来解释。假设根据特征的预测结果和实际结果有误差 $\epsilon^{(i)}$ ，那么预测结果和真实结果满足：
$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$
一般，误差满足均值为0的正态分布，那么
$p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp\Big(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}\Big)$
这样就估计了一条样本结果的概率，然而我们希望概率积最大。注意这里的概率积是概率密度函数积，连续函数的概率密度函数与离散值的概率函数不同。这个概率积成为最大似然估计。
$J(\theta) = log \space p(Y|X;\theta) = log \space \prod_{i=1}^{N}p(y^{(i)}|x^{(i)};\theta)$
$arg\min \limits_{\theta} J(\theta) = arg\min \limits_{\theta} \sum_{i=1}^{N}(y^{(i)}-\theta^Tx^{(i)})^2$
这就解释了为什么损失函数使用平方和。

线性回归的优缺点

优点：
- 建模速度快：不需要复杂计算，数据量大时运行速度很快
- 可根据洗漱给出每个变量的解释
缺点：
- 不能很好拟合非线性数据
- 受制于变量之间的线性关系

改进

正则化

针对过拟合情况，我们有以下选择：

加数据
特征选择
正则化
正则化一般是在损失函数基础上加入正则项，对模型复杂度进行惩罚
$L1: arg\min \limits_{\theta}J(\theta)+\lambda||\theta||_1,\lambda>0$
$L2: arg\min \limits_{\theta}J(\theta)+\lambda||\theta||_2^2,\lambda>0$
L1 Lasso
Lasso可以引起稀疏解， $\lambda$ 过大，模型复杂度过低会欠拟合，过小相当于没有进行惩罚，这个参数需要调试，选取最优
L2 Ridge
Ridge不会引起稀疏解，但会使得某些参数十分接近0， $\lambda$ 的改变情况也跟L1一样

补充：

实际应用和代码展示

小结

线性回归模型是最简单的模型，但是麻雀虽小，五脏俱全，在这里，我们利用最小二乘误差得到了闭式解。同时也发现，在噪声为正态分布的时候，MLE的解等价于最小二乘误差，而增加了正则项后对模型过拟合情况进行改善，分别介绍了Lasso和Ridge的特点和区别。

虽然线性模型简单且易于理解，但是也有很多局限性，比如对非线性数据效果不好，对异常值敏感，无法解决分类问题，受制于特征间的线性相关性以及易造成维数灾难等等。