叶卢庆的博客

为什么回归直线必过样本点的中心

对于一组具有线性相关关系的数据
$$
(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n),
$$
设其回归直线为$y=Dx+C$.则得到方程组
$$
\begin{pmatrix}
1&x_1\\
1&x_2\\
\vdots&\vdots\\
1&x_n
\end{pmatrix}
\begin{pmatrix}
C\\
D
\end{pmatrix}=
\begin{pmatrix}
y_1\\
y_2\\
\vdots\\
y_n
\end{pmatrix}.
$$
令矩阵$A=
\begin{pmatrix}
1&x_1\\
1&x_2\\
\vdots&\vdots\\
1&x_n
\end{pmatrix}
$,向量$b=
\begin{pmatrix}
y_1\\
y_2\\
\vdots\\
y_n
\end{pmatrix}
$,利用最小二乘法的正规方程(normal equation),可求得该方程的最小二乘解为
\begin{equation}\label{eq:1}
\begin{pmatrix}
\overline{C}\\
\overline{D}
\end{pmatrix}=(A^TA)^{-1}A^Tb=
\begin{pmatrix}
\cfrac{\sum_{i=1}^nx_i^2\sum_{i=1}^ny_i-\sum_{i=1}^nx_i\sum_{i=1}^nx_{i}y_{i}}{n\sum_{i=1}^nx_i^2-\left(\sum_{i=1}^{n}x_{i}\right)^2}\\
\cfrac{n\sum_{i=1}^nx_iy_i-\sum_{i=1}^nx_i\sum_{i=1}^ny_i}{n\sum_{i=1}^nx_i^2-\left(\sum_{i=1}^{n}x_{i}\right)^2}
\end{pmatrix}
\end{equation}
人教A版的《必修3》和《选修2-3》都指出,回归直线过样本点的中心$(\overline{x},\overline{y})$,其中
$$
\overline{x}=\frac{x_1+x_2+\cdots+x_n}{n},\overline{y}=\frac{y_1+y_2+\cdots+y_n}{n}.
$$
然而从式\eqref{eq:1}中很难直接看出这一点.下面我们利用线性代数中正交基的概念,尝试更好地理解这一点.

将上述$n$个样本点和回归直线同时进行平移,我们只用证明,$(x_1-\overline{x},y_1-\overline{y}),(x_2-\overline{x},y_2-\overline{y})$,$\cdots$,$(x_n-\overline{x},y_n-\overline{y})$的回归直线过原点即可.为此,得到一个新的方程组
\begin{equation}\label{eq:2}
\begin{pmatrix}
1&x_1-\overline{x}\\
1&x_2-\overline{x}\\
\vdots&\vdots\\
1&x_n-\overline{x}
\end{pmatrix}
\begin{pmatrix}
c\\
d
\end{pmatrix}=
\begin{pmatrix}
y_1-\overline{y}\\
y_2-\overline{y}\\
\vdots\\
y_n-\overline{y}
\end{pmatrix}
\end{equation}
也就是证明这个新的方程组的最小二乘解$\overline{c},\overline{d}$中,$\overline{c}=0$.令矩阵$A’=
\begin{pmatrix}
1&x_1-\overline{x}\\
1&x_2-\overline{x}\\
\vdots&\vdots\\
1&x_n-\overline{x}
\end{pmatrix}
$,则矩阵$A’$的两个列向量正交.因此$\overline{c}=\cfrac{
\begin{pmatrix}
1&1&\cdots&1
\end{pmatrix}
\begin{pmatrix}
y_1-\overline{y}\\
y_2-\overline{y}\\
\vdots\\
y_n-\overline{y}
\end{pmatrix}
}{\sqrt{1^2+1^2+\cdots+1^2}}=\cfrac{(y_1+y_2+\cdots+y_n)-n\overline{y}}{\sqrt{n}}=0$.得证.