误差论->回归(1)

###竟然发现这篇辛辛苦苦写的文章不见了,1年前我的理解的还是挺正确的 by 2011.9###

最近一直不能很好的理解回归中最小二乘的意义,首先就被一个傻傻的问题困惑:假设试验中没有系统性的偏差或者人为的失误,而误差是不可控的,为何要对误差求其平方和的最小值?这个最小到底意义何在?

虽然书上回归分析所得的结论都是很自然,但由于这个方法的前提(历史)我不十分清楚,内心甚是不安,总有种被人灌了酒,模模糊糊接受了结论之感。于是立马查阅相关史料和名家所写的各种回归分析的书籍,梳理下对回归分析的认识。

一. 误差论的过往
其实可以这么说,回归分析是线性模型中误差分析的推论而已,只是之前没有一个完整的数理统计框架,没有一个对回归分析意义的清晰解释罢了。因此,要想很清楚的理解回归,必须要从误差论开始,从最小二乘法的历史来源开始。

最小二乘法最先由数学家勒让德在测量子午线长度时候,为了解决方程个数n大于未知数k的矛盾方程组发明的方法(这里还有一段与高斯的发明最小二乘优先权的故事,勒让德是1805年发现,理论上还是比高斯的1809年早)。这个式子是

 x_0+x_1\theta_1+\dots+x_k\theta_k=0


现在我们按代数的观点看的话,如果要解出各个\theta_i的精确值,很可能是不存在的,历史上像欧拉、拉普拉斯这样的大学者也尝试过解决这个问题,可能是他们更习惯于求解提法严谨的数学问题,因此对于这种实用性的数据处理问题,一直没有什么建树。直到勒让德发明最小二乘法,这个问题才算得到了不错的解决。

勒让德的思想是考虑误差在整体上的平衡,即不使误差过分集中在几个方程内,采取

 \sum_{i=1}^n=(x_0i+x_1i\theta1+\dots+x_ki\theta_i)^2=min


的原则去求解\theta_i
其实勒让德思想看起来是挺自然的,但是我却仍然困惑,最小二乘得到的结果顶多是个最好的估计罢了,而误差是不可控的,你怎么能使其平方后相加能够变的小呢?所以此时的最小二乘法只是个算法,并没有体现什么更深刻的思想。因此我们还是得沿着历史的轨迹,去寻求更完美的解决方案——误差与正态分布。

误差论的研究最初起源于天文学,而天文学之于数理统计发展,丹麦统计史学家哈尔德在其著作指出:“天文学自古代至18世界是应用数学中最发达的领域,观测和数学天文学,给出了建模的及数据拟合的最初例子。在这个议一下,天文学家是最初一代的数理统计学家……天文学的问题逐渐引导到算术平均,一集参数模型中的种种估计方法,以最小二乘法为顶峰。“

这里既肯定了最小二乘法的显赫地位,同时也指出这种地位的确立,极大程度上取决于误差理论的建立,如果没有这样一个理论,最小二乘法只是一个算法,没有了与统计分析相联系的纽带,于是就会依然回到之前那个问题——对不可控的误差求最小平方和的意义何在?

误差理论研究的基本问题是指:随机测量误差服从怎样的概率规律,既有怎样的概率分布?

其实我们根据现代的概率论观点,由拉普拉斯中心极限定理,很容易知道误差的分布是符合正态分布的。当然现在看来是十分简单的,但谁都知道,那个时候还没有严谨的数理体系,早期天文学家根本不知道中心极限定律是啥,现在看起来简单的问题,从前可能就是一个难题,可见科学的发展是多么的不易。因此了解误差理论的发展,对回归的认识非常有益。

随机误差的开拓者——伽利略从第谷的观测数据,提出观测误差的3个条件:
1.所有的观测值都可以有误差,其来源可归因与观测者、仪器工具及观测条件。
2.观测误差对称的分布在0 的两侧(排除系统误差)
3.小误差出现的比大误差更频繁。

综合这几条,伽利略所设想的误差分布,就是一个关于0的对称分布,概率密度f(x)随|x|增大而递减。这个原则性提法,成为日后学者们研究这个问题的出发点。当然由于当时概率论发展水平所限,伽利略们没有取得什么进展。真正的误差理论工作开始于Simpson,而正是他提出用平均值来估计真实值。

他的尝试是在误差满足某种分布下,计算平均误差的分布,从而证明在某种概率的意义上,平均误差小于个别误差。虽然他的工作并未触及建立一般的误差概率理论的问题,但是有一点很重要,就是撇开位置的真值不论而把注意力放在误差上。这样就把问题给简化了。

随后拉普拉斯也进行了研究,与Simpson不同,不是先假定一种误差分布后设法证明平均值的优良性,而是直接涉及误差论的基本问题,即误差分布是怎样的,有了分布后,再如何根据未知量\theta的多次测量结果估计\theta。当然这是一条正确的思路。可惜的是,拉普拉斯没有想到用他的中心极限定律,而当时也没有估计参数的矩法和极大似然发,于是他用了贝叶斯式的推理方式去求解,但是由于他的误差概率密度分布(现在我们常见的拉普拉斯分布)不对,因此后面的计算非常复杂,后面他虽然仍在这个问题上耕作了几年,但是仍没有得到理想的结果。

这时终于要轮到高斯登场,高斯正态误差分布也即将横空出世。此处简单介绍下高斯求解的过程。
首先他用到了最大似然估计法(当然费歇尔之前是没有这个叫法的,可以说高斯首创了这个方法,当然不够一般而已)。设真值为\theta,n个独立测量值X_1,\dots,X_n,高斯取概率

 L(\theta)=L(\theta;X_1,\dots,X_n)=f(X_1-\theta)\dots f(X_n-\theta)

然后取使是概率最大的\hat{\theta}作为\theta的估计,同时先承认算术平均值\hat{X}为应取的估计,然后高斯证明,这样的取法只有误差的概率分布为正态分布N(0,\sigma^2)时成立。具体证明略去,有兴趣的可以自己根据伽利略所提的误差概率性质,再结合一些函数知识便可以证得。然后再根据概率最大原则便可得出最小二乘估计式,至此,高斯便赋予了最小二乘了更深刻的意义,把它与数理统计结合了起来。

当然那个时代高斯正态分布还不能体现其深远的影响,直到20世纪正态小样本理论充分发展起来以后才充分显现。但此刻我反观高斯正态分布,再看看现代的数理统计结构,由高斯导出的理论简直充满了我的眼球,很多地方都可以有他的身影,那回归分析简直就是高斯重生了!所以我不得不感叹,高斯真真真是个天才!

但是崇拜之余,这并不表明了高斯创建的误差理论已经十全十美,细细品味,高斯的论证有循环论证的味道:由于算术平均的优良,推出误差必须服从正态分布;反过来又由正态分布推出算术平均及最小二乘估计的优良性。而算术平均到底说来,总是没有一个自行成立的理由,只是从古到今,人们除了平均下,没有太好的选择,而以它作为理论中一个预设出发点,终有其不足之处。直到后来拉普拉斯终于开窍,用了自己的中心极限定律轻松证明了各种误差之和组成的随机变量近似正态分布后,误差论终于完美建立,随后高斯又证明了一系列最小二乘估计的优良性质,其中最著名的就是高斯-马尔科夫定理,而这个定理的高明之处在于,说明了没有啥估计还能比用最小二乘的得到的参数估计方差还小了。换句话说,我就是稳定可靠,没有比我更好的了。

至此,我们可以看到误差理论的发展已经能够达到了很深的水平,如果高斯他们知道高尔顿的工作,那么真的不再是高尔顿发现回归,而是高斯了。当然话也不能这么说,回归需要对事物间的关系有更深层次的认识,也许从数学理论上来看,回归分析不过是误差理论的简单推论罢了,但是从思想上,它是无法以此类推。科学史的发展就是如此,理论数学家已经把数学弄得出神入化,数学的东西一般都不缺,缺的是一个创新运用的思想。

总结:误差理论的建立,使最小二乘法不再仅仅是一个解决矛盾线性方程组的算法,而且让他有了更深刻的统计意义。这也是为什么我不太接受勒让德的最小二乘,而接受高斯的最小二乘的原因,最大似然更能触及概率的本质。而高斯建立的正态分布的误差理论的全部影响需要直到正态小样本理论充分发展起来后充分显现出来,同时他也让后面的回归有了更深刻的背景。按我的理解,回归分析其实就是各种影响因素叠加后,在宏观方面上对几个因素关系的分析,说到底,他只是求条件期望后平均值意义上的误差分析。这也是为什么一旦这些随机误差的假设条件不满足时,回归方法需要改进。因为高斯的最小二乘法是建立在随机误差正态分布上的,如果不满足随机,不满足正态性,不满足独立性,最小二乘法很容易失效,回归效果会很差了。因此我们会用岭回归、LASSO、M估计等方法来解决,而至于回归的深刻含义,留作下一节继续。

P.S. 今天老师讲解计量时突然讲不清楚 残差和为何要用\mathcal{X}^2检验,我感到很是悲哀,因为这正是误差正态假设的前提下很自然的结果。