线性回归问题最常见的两个方法，一个是最小二乘法，另一个就是梯度下降. 上一章我们说明了梯度下降法的原理。现在我们就来看一下线性回归到底是什么类型的问题，以及梯度下降法在线性回归中的实际应用。

线性回归 Linear regression

定义 Definition

看一下线性回归的定义：

Linear regression is a linear model, e.g. a model that assumes a linear relationship between 
the input variables (x) and the single output variable (y). 
More specifically, that output variable (y) can be calculated from a linear combination of 
the input variables (x).

Linear Regression on Wikipedia

特征 Features

每一份训练的样本中都包含了用于描述样本的特征，也就是变量。

n 表示特征数
Rⁿ⁺¹ 表示包含n+1个实数的向量

对于单变量的线性回归，特征数n是1，只有x₀一个特征

参数 Parameters

对于这些特征x_i而言，每个特征都有一个参数值θ_i

假设 Hypothesis

线性回归问题基于的假设就是，输出值y与X是存在线性关系的。也就可以用下面的表达式进行定义

其中θ_i是参数，也就是我们希望模型能够计算出的结果。为了方便标记，我们将x₀定义为1

价值函数 Cost Function

线型回归问题终究是基于线性关系的假设，那如何衡量我们计算出的θ的准确性呢？那显然需要用到cost function(价值函数)。也可以称作误差方程，损失函数等等。

xⁱ - 第i个样本的特征值

yⁱ - 第i个样本的输出值

m - 样本个数

在线性回归中，损失函数通常为样本输出和假设函数的差取平方。这里就是采用这种方式。

线性回归中的梯度下降

代数表示方法

样本

首先我们有n个样本数据

也可以表示为：

价值函数求梯度

接着我们对价值函数(误差方程)求偏导：

确定参数的初始值

例如我们可以初始化都赋值成1

生成参数的转移矢量

根据学习速率确定步长α,乘以损失函数的梯度，这样我们就能得到参数的转移矢量，模就是θ的梯度下降距离

生成新参数

参数的转移矢量的大小，如果所有的θ的梯度下降距离都小于阈值ε,那么计算终止。如果不满足要求，那么

矩阵表示

样本

样本可以用矩阵X Y表示。

假设函数

θ表示n1的参数矩阵，*X**表示nx1的自变量矩阵

价值函数

价值函数的定义也用矩阵形式表示：