爱的声音

今天是母亲节。我是记不住这个节日的,可能本身这个节日在并不算做传统节日的缘故吧。长这么大,我一共陪母亲度过两个母亲节。一个是高三的时候,一个高四的时候。

那两年高考的最后几个月母亲过来陪读,很辛苦,很煎熬。但那是我第一次有了那么多时间与母亲交流,也是从那时候起,我才开始懂事,开始关心母亲,懂得一个小小的表达母亲都会很感动。每天的散步闲谈,让我深深体会到了父母对我的无条件爱,母亲说的有句话我一直刻在在心底“:只要你好,不管有没有出息,过的健康快乐,我和你爸就什么都好,都安心。”每次我一想起这句话,生活学习中的压力顿时烟消云散,母亲诚挚的话语,让我懂得了生活意义。虽然我无数次的质疑生活的意义,但是我从未放弃母亲告诉我的两样东西:爱与理想。

还有个场景我一回想就会热泪盈眶:高考前夕,烈日炎炎下,一群家长焦急等待自己孩子下课,手里都提着自己亲手做的可口饭菜,母亲因为身材娇小,而且怕热,每次都不得不站在人群后面,然后踮着脚,仰着头,远远的眺望,满脸的焦急与期盼。一想起这个场景,我心里都发酸,母亲为我倾注了那么多爱,而我却回报的如此至少,内心充满了愧疚与感动。

一晃,三年就过去了,如此之快。记得第一次我给母亲送了百合花,愿她健康快乐;第二次我送给她一只小乌龟,祝愿她长命百岁。我是一个不善于表达情感的人,满肚子的话,到了嘴边都会被憋回来。那两次送礼物的时候,我只是傻傻的笑,连句祝福不敢说,男孩子的倔强让我说不出那些肉麻的话。至今我也没对母亲说一句“妈,我爱你!”我知道,没有这些话母亲都很感动了,如果说了,怕我们两个都会哭出来,都是天蝎座的人,感情很丰富,很敏感,很脆弱,受不住这样的爱的表达。

三年的每个这个星期,虽然没法再送个我精心准备的礼物,但我都会或早或晚的打电话回去问候下母亲,今天也是一样。不过但是今天看到这个网页时候,我想到了一种表达爱的方式。我要一种比较特别方式送给母亲我一直不敢说的那几个字。不多言说,附图附代码。

1
2
3
4
5
6
7
8
9
10
11
12
library(seewave)
library(tuneR)
woaini = readMP3("我爱你.mp3")
woaini1=resamp(woaini, g = 2000)
muqinjie = readMP3("母亲节快乐.mp3")
muqinjie1 = resamp(muqinjie, g = 2000)
iloveyou = readMP3("i_love_you.mp3")
iloveyou1 = resamp(iloveyou, g = 2000)
op = par(mfrow = c(3,1),mar = c(4.5,4,2,2))
oscillo(woaini1, f = 2000, from = 3, to = 6,cexlab = 0.75,colwave = "red",title = "妈-我爱你")
oscillo(muqinjie1, f = 2000, from = 2, to = 5,cexlab = 0.75,colwave="gold",title = "妈-母亲节快乐")
oscillo(iloveyou1, f = 2000, from = 0, to = 4,cexlab = 0.75,colwave="lightblue",title = "i love you so much")

图解:

  • 最上是我用家乡话(信阳罗山话)说的:“妈,我爱你!”(罗山话中,“你”发音类似于“恩”,故振幅小)
  • 中间一幅依然用家乡话:“妈,母亲节快乐!”(录得不好,貌似有杂音)
  • 最下面的那副是英文:“I love you so much!”

其实从图的走势还是可以看出我羞涩的内心,爱的表达,对我来说,竟然真不是一件容易的事情,但是对许多男生来说,又何尝不是呢?男人有着内心的倔强,都懂得~

看过的“推荐系统”文献

酱油掉“树蛙”比赛后,深感遗憾。准备删掉这群“推荐系统”的文献前,还是做个记录,起码比赛前的那段时间看的那些推荐系统的文献,让我知道了推荐系统还是挺有趣,思想平易近人。更重要的是,让我等从未真实玩过”树蛙“的文盲,终于深刻体会到多挖挖数据比做一个模型重要得多。

  1. 我们最终敲定的模型,参考文献《Pairwise Preference Regression for Cold-start
    Recommendation》
    。只可惜当时用R写的代码慢的让人自杀,不得不放弃,于是用R整理好数据后,让同学代写C程序(大一时候学的C已经忘得差不多了,真是深感惭愧)。但是谁知道一直有个BUG没有解决,直接导致我们最后参赛结果:0提交!择人不善啊~~以后还是找个靠谱的熟悉矩阵的同学来写C代码吧。模型思想:根据推荐者与被推荐者的features与得分矩阵做拟合,得到推荐与被推荐者features之间权矩阵,然后预测得分。直接了当!模型评价:elegant!思想简约,有数学显式解,对推荐系统的冷启动问题效果应该不错。但是不知道对这次婚介的数据做出来效果是否好,真希望我们能够把那程序完善,去测试一次,了结心愿。
  2. 次选模型论文《Hydra: A Hybrid Recommender System》。也很不错,将需要的features信息都能够较好的连接起来,也是通过这个文章,知道了有个对等网络这玩意,也还不错。缺点就是在原基础上扩展的矩阵会很大,特别是对于这次婚介的推荐,SVD做起来消耗估计也会很大,不会太快,效果可能也比较一般。所以对于特征的选取还是得靠前期的数据了解,知道哪些人的特征在此数据中可以省下很多工作。跟这篇文章相关的文章很多,提高精度也罢,改进模型也罢,反正看着挺好,就是不知道用起来如何...sigh~~
  3. 《A Singular Value Decomposition Approach Recommendation Systems》这篇文章还是讲SVD的,但是感觉看了那么多论文,感觉这篇文章前面的Introduction介绍推荐系统比较系统全面,如果对推荐系统问题有了较好的定位,我觉得不管做哪些问题,思路都会清晰很多,把握住了问题的关键点,这样结果才会有好的突破。当然这篇文章也详细论述了SVD用在推荐系统的实际意义。
  4. 最后再提一个我和小南都认为很不错的论文《Learning User Preferences in Online Dating》,思想很简单,高中生也能不过很能够解决问题。当然这篇文章有个致命的缺陷:数据获取,要能够获得双方发MSG时候的信息。这个实际中估计是是不可能的,所以这篇文章只能提供一个比较好的思路,不能解决实际问题,仅供把玩~~
  5. 至于协同过滤的东西,看了挺多,觉得这个东西重要的不是数学,而是他的思想,比如从USER变换到ITEM就可以获得一个很大的突破,真的是让人感觉很畅快。

比赛早已落下帷幕,小南说他已经把PAPER全扔进了垃圾桶,我也想删掉这群文献了。虽然结果让人很XX,但是没有关系,起码都获得了很多,这点只好深埋心里,笑而不语也。看排行榜龙争虎斗也是快事一件!

为何要读书

发现每天起床的那一刻,我的大脑会蹦出很多激烈的想法,常常会呆住在床上5分钟,想些乱七八糟的事情,今早想的问题很简单——为何要读书?

可能是最近看写TOFFEL作文多了,第一想到的竟然是TOFFEL那些NC的高分作文的写作套路:

  • 读书可以获得更好的工作
  • 读书可以开拓视野
  • 读书可以放松
  • .....

看见COS论坛上开始了论书热,而这边09级得QQ群中,西方经济学老师天天督促着同学们看书看书看书,抓紧时间看书...我也不得不反思最近荒芜的生活,越发觉得自己没看书了,没看有用的书,没看那些漂亮的书,我越发的自责,越发的荒芜..

但是突然,不知道为何,突然觉得读书读书有啥好,为了什么,不就是为了自己心理与精神的满足么?懂得多点?知道的信息多点?明的事理多点?百无一用是书生,这句话多少是有些道理的。中国从古自今多少书生,多少是济世之才?多少偏安一隅,成了自娱自乐的清高之士?饱读诗书,经世致用,立家治国?抑或成书立传,广流于世,泽被后人?纵然如此,然多少在世之时能发挥功效呢?如果从宇宙的时间尺度来看自我价值的实现,我觉得始终在自我安慰自我欺骗。洪荒世界,辟地开天至今,我,绝对是个渺小的概念,不管你英雄任人物抑或草民一个,人终究只有一世,过了就消亡了。可能是因为我没有永生的概念吧,不会对灵魂加以崇敬,但是读书就是为了这个么?我左思右想,能让我自己信服的一个理由只有一个:读书,就是为了能让自我始终保持对生命的终极关怀罢了。明白说,就是人活于世,能尊重任何形式的生命,能够和谐的享受生的欢乐,否则读书是为了啥?连生的欢乐都不会享受,连最起码的对生的尊重都没有,只会权力控,金钱控,腐败控,欲望控,人就是一躯壳白了,造一万个机器人替代便可。

想着想着,越发觉得过分放大了读书的作用了,生的欢乐,还有那么多优雅的方式可以实现,听音乐,看电影,看画展,听歌唱歌,闲扯,晒太阳,打游戏,哪一个不能体味生在当下的快乐呢?读书不过是思想的一种流传方式吧。

”阅读是一种伤害,思考则是对伤害的弥合,而表达则是弥合后的绽放。”这句话说得多好,这一生中,我们的空白的大脑不断地被各种各样的思想填充,通过对生活的自我体验和反思,这些思想又被我们不断抛弃提炼。我们被伤害了,但是我们又绽放了。活到老,思到老,乐到老,温馨到老,这才是有意义的一生吧。谁说一定要读书,谁说一定要扬名立万,谁说一定要归隐山林,谁说你的生活就该这么活?属于自己的,只有大脑。里面不装书,装着思考的能力,装着美的感悟力,装着尊重,装着欢乐,这就够了。

真想说自己不想读书,但是自己却又如此的渴求于书。自我解嘲曰:我被伤害的太严重了,不会通过其他方式去寻求生的欢乐~

难得一份乐趣

中午一觉醒来,突然倍感空虚,茫然失措,脑中蹦出来的东西竟然都是《项脊轩志》中的失落与悲情。傻傻的呆坐与床上,还是止不住的悲伤...

按最近一段时光的作息,此刻我应该在备战TOFFEL,听力,写作,口语,阅读,无休无止..我很厌倦这种无聊无趣的应试,从小到大已经被无数个这样的考试折磨,而高中又经历过两次高考的折磨,对于这种长时间的应试备战真的越来越反感..没有任何乐趣,反而放弃了许多许多我喜欢的书籍与研究,变得越来越麻木。我真的讨厌这段时光,这个让我放弃了很多很多...

人一失落就容易放大痛苦。我一直记得“放大痛苦”这个四个字,这四个字貌似是某年的高考作文题,虽然我已经极度厌弃高考,但是这个作文题却一直深印在我的脑海中。我曾和小南谈过,反观这一两年的行程,感觉到处都是失败,人品不停地被消耗,却很少爆发。大二做项目时候自己清高的cancel了项目,被院书记厌恶的训了一顿,现在也是两手空空;后面的数模更是搞得一团糟乎,三等奖、成功参赛狠狠的刺着自己的双眼;而今年的数据挖掘比赛还是那个我都快忘记了的信息安全比赛,都是酱油来酱油去,耗了一定的心血但终究没有实质性的进展;而最近即将到来的TOFFEL考试,我也有种悲剧的预感..

虽然都曾放下,不在乎这些,但是有些时候就是那么一瞬间却变得重要,他成了一种安慰,就好像一个穷极一生挣钱的人到头来也许少有快乐,但是起码他还有钱可以数数,而我啥都没有...《金刚经》我翻了一部分,佛说要破执着,而我越破越执...

其实不知为何,可能是自己想要得太多,但是却永远都得不到吧。最近在跟这边研究生老师上随机微分方程的课,用的教材是《SDE with JUMPS AND APPLICATIONS》,我其实慢慢发现我还是喜欢数学的,虽然难,但是难得有味道有深度,我不知道我可以在金融中能走多远,但是发现这个领域可能还是比较符合我的性格,因为数学、计算机、英语都是半桶水,也许这个科目“需要”我这样的人。

其实我一直想在COS论坛上灌水的,但是不知为何下不了手,心理总有这又那样的牵绊,真是很奇怪的感觉;其实我还是想去参加第四届R会议的,但是我不敢做演讲,除非之前没有那么多的杂事,我可以好好的准备MCMC方面的材料,但是现在我根本没精力,我只想去北京打打酱油,散散心。因为还得准备暑期学校的金融夏令营...

人生就被这样或那样的生活计划给打破,七零八乱,毫无章法。越感觉时间不够用,却越在空虚寂寞无聊中度过。我很想静下心来像以前一样,能看看建筑美学方面的书,看看尼采系列,看看看数学思想史,然后出去游玩一番,健健身,跑跑步..但现在的生活却是如此的糟糕,没有乐趣,没有成就感。噢,对了,应该就是没有成就感...真想向尼采一样,疯子一样的精神的生活着。

罢了,还是去无聊中寻找乐趣,寻找满足感吧。我过生那天,居里夫人也降生了,加缪也降生了,他们诺贝尔的光芒会让我的人品爆发么?未知...

 

纠结的问卷设计

转眼就是三个月过去了。

记得还是年前那会,我和小南在“八哥”小店吃饭,两人商量着美赛的事情,我一时兴起,想了个无聊的点子:互相帮对方设计下未来1年半的路途,立下字据,1年后看完成的怎么样。于是操起桌上的菜单,刷刷龙飞凤舞起来。paper,MCM,信安比赛,paper,旅游,TOFFEL,GRE,paper,毕业旅行...一路写的眼冒金光,仿佛世界已被我们主宰,然后顺风顺水的过完了整个大学...那时,两个年轻人真是幻想加激情,笑声都轰天震地。

今晚,我翻开钱包,那张纸虽然破烂,但是还是被我好好留存着,看着上面满满的计划,不禁内牛满面。想起小南那篇<successsful participant>的文章。狗屁般得论文与绚烂的排版形成的鲜明的对比,让我满心的愧疚与伤感。再回头看看数据挖掘比赛,更是让人无语凝噎。只好作罢,留作下次来谈谈对推荐系统的心得了。今晚,先聊一个自作孽的抽样调查。

其实这个本是开学前就该完成的课程设计,但是当初雄心勃勃,想写出一篇“唱作”俱佳的好文章来,于是一腔热血的跑向中南的湘雅医院,找了个心理学研究生准备做个“人格与人际交往”方面的研究。后面也定好了位,研究“大学生人格因素与人人网人际交往以及现实人际交往的关系”。本以为可以借着现在的社交网络研究热来给心理学也点点火,本以为心理学测量这东西水不深,本以为一切都是顺水推舟的事情,但是“一入侯门深似海,从此萧郎是路人”。从此我对心理测量敬而远之,还是看看实用心理学罢了。

当然心理测量并不是不好,而是我通过这次做问卷设计才知,原来一份好的心理学量表需要耗费如此多的功力。按那个湘雅研究生的说法,湘雅可以算是国内心理测量方面的发源地,但是做心理测量用的量表基本还是从国外翻译过来,最多做一点点修改。一份好的心理学量表是要经过无数次的检验才能达到很好的信度和效度。这次我们调查用了两个问卷,一个问卷是“卡塔尔16pf人格量表”,一共187道题,经过几十年的修正后已经非常成熟,很权威。而另一份量表的我们自己做,正是这个量表的设计,让我知道我的抽样学的很差,再次深刻的理解到抽样重要的是各种方法的思想和应用范围,而不是那些重复相似的数学公式,更重要的是,抽样只是一个辅助工具,就像推荐系统一样,算法终究不是大头,重要的知识。对于心理学量表设计,如果没有一定经验和对心理学一定的理解,是没法做出一份像样的问卷的,就如我们这次做这个问卷一样,才返工了两遍,就把被试者做烦了,还是认识的好朋友呀!如果是一般的受试者,估计不给钱不给个礼物,真是难以修改重测,而且修改也是困难重重,像我们这种心理学门外汉,凭借着一点文献和心理学书籍,哪有可能几遍修改就能做好。烦躁激动纠结集于一身,于是乎问卷设计以及论文...后续略去几千字吧...

其实通过这次做问卷设计,我认识到问卷搜集到的数据其实可以是很可信的。只是许多没有相关专业背景和统计学背景的人把问卷胡乱一通的用,导致人们一般认为得来的问卷结果是受试者敷衍的回答罢了。对于心理学量表来说,这些问卷的设计很多很精妙,除非如果你自认为你能考虑这些问题的设计会比心理学家更加全面,但是一般没有受过专业心理学训练的人是不可能做到的。一份成熟的量表,我们考虑的问题,都已经被心理学家考虑到了。当然问卷是一个双方互动的过程,很多测试问题我们感觉很浅显,都知道他问的方向,但是此时我们需要做的就是诚实做答,这样一份好的问卷才能收到一个好的效果,不然问卷就没有任何意义,一个人也永远别想从专业心理学角度了解自我,发现自我。

现在的社会人们更加机灵了,不愿意这么明显的在问卷中暴露自己,怕被骗或者被利用,这种保护心理是可以理解的,但是殊不知每天我们那些无意识的网络行为其实也被人利用了呢?无意识的暴露和有意识的暴露都不重要,因为都可破解,重要的是我们愿不愿意配合各种调查的进行。

问卷设计和问卷调查是一门艺术,或者说很多文科性质的东西也是艺术,因为他们研究的对象很多都是人或者人的行为,难以捉摸这才是魅力所在。不是所有的东西都可以被定量化,如果都程式化研究,也就没啥意思了,人不是电脑,不是数学方程式呀!

不过话说到最后,我还是喜欢定量化研究,因为我喜欢数学,简洁,具有形式美。

误差论->回归(1)

###竟然发现这篇辛辛苦苦写的文章不见了,1年前我的理解的还是挺正确的 by 2011.9###

最近一直不能很好的理解回归中最小二乘的意义,首先就被一个傻傻的问题困惑:假设试验中没有系统性的偏差或者人为的失误,而误差是不可控的,为何要对误差求其平方和的最小值?这个最小到底意义何在?

虽然书上回归分析所得的结论都是很自然,但由于这个方法的前提(历史)我不十分清楚,内心甚是不安,总有种被人灌了酒,模模糊糊接受了结论之感。于是立马查阅相关史料和名家所写的各种回归分析的书籍,梳理下对回归分析的认识。

一. 误差论的过往
其实可以这么说,回归分析是线性模型中误差分析的推论而已,只是之前没有一个完整的数理统计框架,没有一个对回归分析意义的清晰解释罢了。因此,要想很清楚的理解回归,必须要从误差论开始,从最小二乘法的历史来源开始。

最小二乘法最先由数学家勒让德在测量子午线长度时候,为了解决方程个数n大于未知数k的矛盾方程组发明的方法(这里还有一段与高斯的发明最小二乘优先权的故事,勒让德是1805年发现,理论上还是比高斯的1809年早)。这个式子是

 x_0+x_1\theta_1+\dots+x_k\theta_k=0


现在我们按代数的观点看的话,如果要解出各个\theta_i的精确值,很可能是不存在的,历史上像欧拉、拉普拉斯这样的大学者也尝试过解决这个问题,可能是他们更习惯于求解提法严谨的数学问题,因此对于这种实用性的数据处理问题,一直没有什么建树。直到勒让德发明最小二乘法,这个问题才算得到了不错的解决。

勒让德的思想是考虑误差在整体上的平衡,即不使误差过分集中在几个方程内,采取

 \sum_{i=1}^n=(x_0i+x_1i\theta1+\dots+x_ki\theta_i)^2=min


的原则去求解\theta_i
其实勒让德思想看起来是挺自然的,但是我却仍然困惑,最小二乘得到的结果顶多是个最好的估计罢了,而误差是不可控的,你怎么能使其平方后相加能够变的小呢?所以此时的最小二乘法只是个算法,并没有体现什么更深刻的思想。因此我们还是得沿着历史的轨迹,去寻求更完美的解决方案——误差与正态分布。

误差论的研究最初起源于天文学,而天文学之于数理统计发展,丹麦统计史学家哈尔德在其著作指出:“天文学自古代至18世界是应用数学中最发达的领域,观测和数学天文学,给出了建模的及数据拟合的最初例子。在这个议一下,天文学家是最初一代的数理统计学家……天文学的问题逐渐引导到算术平均,一集参数模型中的种种估计方法,以最小二乘法为顶峰。“

这里既肯定了最小二乘法的显赫地位,同时也指出这种地位的确立,极大程度上取决于误差理论的建立,如果没有这样一个理论,最小二乘法只是一个算法,没有了与统计分析相联系的纽带,于是就会依然回到之前那个问题——对不可控的误差求最小平方和的意义何在?

误差理论研究的基本问题是指:随机测量误差服从怎样的概率规律,既有怎样的概率分布?

其实我们根据现代的概率论观点,由拉普拉斯中心极限定理,很容易知道误差的分布是符合正态分布的。当然现在看来是十分简单的,但谁都知道,那个时候还没有严谨的数理体系,早期天文学家根本不知道中心极限定律是啥,现在看起来简单的问题,从前可能就是一个难题,可见科学的发展是多么的不易。因此了解误差理论的发展,对回归的认识非常有益。

随机误差的开拓者——伽利略从第谷的观测数据,提出观测误差的3个条件:
1.所有的观测值都可以有误差,其来源可归因与观测者、仪器工具及观测条件。
2.观测误差对称的分布在0 的两侧(排除系统误差)
3.小误差出现的比大误差更频繁。

综合这几条,伽利略所设想的误差分布,就是一个关于0的对称分布,概率密度f(x)随|x|增大而递减。这个原则性提法,成为日后学者们研究这个问题的出发点。当然由于当时概率论发展水平所限,伽利略们没有取得什么进展。真正的误差理论工作开始于Simpson,而正是他提出用平均值来估计真实值。

他的尝试是在误差满足某种分布下,计算平均误差的分布,从而证明在某种概率的意义上,平均误差小于个别误差。虽然他的工作并未触及建立一般的误差概率理论的问题,但是有一点很重要,就是撇开位置的真值不论而把注意力放在误差上。这样就把问题给简化了。

随后拉普拉斯也进行了研究,与Simpson不同,不是先假定一种误差分布后设法证明平均值的优良性,而是直接涉及误差论的基本问题,即误差分布是怎样的,有了分布后,再如何根据未知量\theta的多次测量结果估计\theta。当然这是一条正确的思路。可惜的是,拉普拉斯没有想到用他的中心极限定律,而当时也没有估计参数的矩法和极大似然发,于是他用了贝叶斯式的推理方式去求解,但是由于他的误差概率密度分布(现在我们常见的拉普拉斯分布)不对,因此后面的计算非常复杂,后面他虽然仍在这个问题上耕作了几年,但是仍没有得到理想的结果。

这时终于要轮到高斯登场,高斯正态误差分布也即将横空出世。此处简单介绍下高斯求解的过程。
首先他用到了最大似然估计法(当然费歇尔之前是没有这个叫法的,可以说高斯首创了这个方法,当然不够一般而已)。设真值为\theta,n个独立测量值X_1,\dots,X_n,高斯取概率

 L(\theta)=L(\theta;X_1,\dots,X_n)=f(X_1-\theta)\dots f(X_n-\theta)

然后取使是概率最大的\hat{\theta}作为\theta的估计,同时先承认算术平均值\hat{X}为应取的估计,然后高斯证明,这样的取法只有误差的概率分布为正态分布N(0,\sigma^2)时成立。具体证明略去,有兴趣的可以自己根据伽利略所提的误差概率性质,再结合一些函数知识便可以证得。然后再根据概率最大原则便可得出最小二乘估计式,至此,高斯便赋予了最小二乘了更深刻的意义,把它与数理统计结合了起来。

当然那个时代高斯正态分布还不能体现其深远的影响,直到20世纪正态小样本理论充分发展起来以后才充分显现。但此刻我反观高斯正态分布,再看看现代的数理统计结构,由高斯导出的理论简直充满了我的眼球,很多地方都可以有他的身影,那回归分析简直就是高斯重生了!所以我不得不感叹,高斯真真真是个天才!

但是崇拜之余,这并不表明了高斯创建的误差理论已经十全十美,细细品味,高斯的论证有循环论证的味道:由于算术平均的优良,推出误差必须服从正态分布;反过来又由正态分布推出算术平均及最小二乘估计的优良性。而算术平均到底说来,总是没有一个自行成立的理由,只是从古到今,人们除了平均下,没有太好的选择,而以它作为理论中一个预设出发点,终有其不足之处。直到后来拉普拉斯终于开窍,用了自己的中心极限定律轻松证明了各种误差之和组成的随机变量近似正态分布后,误差论终于完美建立,随后高斯又证明了一系列最小二乘估计的优良性质,其中最著名的就是高斯-马尔科夫定理,而这个定理的高明之处在于,说明了没有啥估计还能比用最小二乘的得到的参数估计方差还小了。换句话说,我就是稳定可靠,没有比我更好的了。

至此,我们可以看到误差理论的发展已经能够达到了很深的水平,如果高斯他们知道高尔顿的工作,那么真的不再是高尔顿发现回归,而是高斯了。当然话也不能这么说,回归需要对事物间的关系有更深层次的认识,也许从数学理论上来看,回归分析不过是误差理论的简单推论罢了,但是从思想上,它是无法以此类推。科学史的发展就是如此,理论数学家已经把数学弄得出神入化,数学的东西一般都不缺,缺的是一个创新运用的思想。

总结:误差理论的建立,使最小二乘法不再仅仅是一个解决矛盾线性方程组的算法,而且让他有了更深刻的统计意义。这也是为什么我不太接受勒让德的最小二乘,而接受高斯的最小二乘的原因,最大似然更能触及概率的本质。而高斯建立的正态分布的误差理论的全部影响需要直到正态小样本理论充分发展起来后充分显现出来,同时他也让后面的回归有了更深刻的背景。按我的理解,回归分析其实就是各种影响因素叠加后,在宏观方面上对几个因素关系的分析,说到底,他只是求条件期望后平均值意义上的误差分析。这也是为什么一旦这些随机误差的假设条件不满足时,回归方法需要改进。因为高斯的最小二乘法是建立在随机误差正态分布上的,如果不满足随机,不满足正态性,不满足独立性,最小二乘法很容易失效,回归效果会很差了。因此我们会用岭回归、LASSO、M估计等方法来解决,而至于回归的深刻含义,留作下一节继续。

P.S. 今天老师讲解计量时突然讲不清楚 残差和为何要用\mathcal{X}^2检验,我感到很是悲哀,因为这正是误差正态假设的前提下很自然的结果。

“三个傻瓜”和统计交流协会

谈谈前几天我们在中南铁道这边搞的统计交流协会招新活动。当初我是绝对没有想到会有那么多人对这个只创了一年还没有任何“牌照”的交流协会感兴趣。我的大致想法就是将太云的留下的“重任”接下,能够慢慢让铁道这边统计与人大、与其他学校有更多的交流。当然个人能力有限,想法有,但是就是怕协会后面越来越衰。

而当看到有22个09级的小朋友选了进Rgroup时,压力更是陡增。因为随着责任心的逐渐黯淡,我一直不想承担太大太多的事情。而这次要面对这么多的上进爱学习的小朋友,更是怕误人子弟,磨了别人的学习激情,于是只能紧锣密鼓的想法子怎么开展后面的活动,但是头绪并不是很清晰。直到看了《Three Idiots》后,我突然才明白该持如何的心态去对待这件事情,应该和09级的同学在未来的一年分享什么。

之前对印度电影的了解除了《贫民窟的百万富翁》真的知之甚少。前不久,同学突在寝室惊呼:“这个印度电影,中国三十年也拍不出这样的影片”。当时心里甚是不屑,《Big Bang》中Raj那样的印度人能拍出什么样的好影片呢?于是隐忍着看了传说中的《Three Idiots》。而当我真的完完整整看完影片时候,不得不惊呼导演的奇思妙想和主演Aamir Khan的帅气逼人!45岁的人还能如此青春活泼,真的少见,让我等年轻人也甚是汗颜..

我完完全全被影片活泼热闹场景、起起伏伏的情节感染吸引了。公正评价该影片,它真的很适合我们这群学生娃看,而且不是一般的好看,好看的非常有教育意义!我始终被天才Rancho用激情来学习的心态鼓舞着,也伴随着影片一直在思考出生的意义,人生的意义,奋斗的意义...

关于影片,我想还是无需多说,每个人看着都会有不同的感受,商业片好看是必然的。而我只认准了影片中的激情与自由:现在的我们,还是缺少着一颗激情而自由的心。而这也正是我承担统计交流协会一些工作所需要的心态。

我想,我无须为后面几个月的事情担心什么。这群90后有好学的心,我所做的就是稍加引导,和他们一起激情蓬勃的过好这个学期就足够了。我不是Rancho,没有太雄厚的实力,能做的就是沟通其他方面,引进一些好资源,或者就是和他们打成一片。当然协会需要办好,还是需要一个好计划、好章程,此也在我脑中逐渐酝酿成型了。不过对我这样一个很少掌舵的人来说,韬光养晦怕是最重要的了,大大的偷笑之...

附陶渊明一闲诗,此时念起甚有感觉:
结庐在人境,而无车马喧。问君何能尔,心远地自偏。
采菊东篱下,悠然见南山。
山气日夕佳,飞鸟相与还。此中有真意,欲辨已忘言。

科学与艺术

最近在同学的推荐下,购得一本好书《艺术与视知觉》。其实前几周在看《分形的艺术》时,我就一直在思考一个问题:艺术与科学的关系到底是怎样的。而看完这本书的第一章——平衡,我再次感受到了艺术与科学结合的美妙之感。

对于一个学统计,以后也许会跟数据打一辈子交道的人来说,我似乎在做没有什么意义的事情(从功利角度),还不如多看两本数理统计或者算法方面的书来的划算。但是我却不这么认为,一个人的素养,如果光有所谓的科学理性精神主宰,没有一种形而上的思维补充,看什么都是数学形式,都是物理公式那样运动,那么这个人肯定机械而无趣。当然我这不是讽刺那些为追求科学真理的大科学家(我想能达到真正大科学家的高度,此人必定是哲学家,否则他的思想是无从流传的),我个人认为一个人的生趣应该是丰富多彩,既要科学也要艺术。

其实去年去世的钱学森先生在十几年前就说过一段箴言,他对中国的那些科学家说科学要和艺术是紧密相连,不要有了科学不要艺术,有艺术却不懂科学。(文艺复兴时期的那群艺术家其实很多都是科学家,比如达芬奇是著名的画家,同时他也是个数学家)。科学与艺术是不分家的,都是一个人素质的体现。如果科学仅仅成了技术的附庸品,而艺术却成了病态的心理宣泄(比如某些所谓的现代艺术),那么整个社会的氛围肯定会变得浮躁而没有内涵。我十分怀念在文革前的那群科学家们,他们很多都精通诗词曲画,同时又能够在自己的科学领域有很杰出的建树,而那个时期,中国出领先世界水平的技术成果也特别多。

一个人需要有自我的哲学,这种哲学不可能仅仅靠科学支撑的,科学也不过是各种信仰中的一种,之所以他现在这么强大,是因为从工业革命以来,科学技术带给人类的巨大的精神和物质的满足,我们已经不由自主的信仰了他(特别由于这么多年,我们教育中对科学信仰的进行了不断的强化)。

所以艺术与科学是不会分家的,科学中都有种纯粹的美感,关键是能不能深入下去,发现其中的艺术性。在前几周,我对分形和混沌特别感兴趣,这两门科学中蕴含的艺术与哲思深深触动了我之前的世界观。为什么世界在不断的变动中趋向平衡,为什么世界不会像热力学第二定律(熵增原理)说的那样最终会成为死寂状态?这些在混沌中都给了我一个全新而深刻的认识——因为我们的系统在一个开放与远离平衡的条件下,我们还有自组织现象,还有耗散结构,这些都说明了为什么自然界生物不会被懒惰主宰而绝对静止般的死去(热寂说)。我们在不停地变动中找到了平衡,虽然表面看起来我们是如此不安分,城市每天那是那样的喧嚣,每天都有人死去和出生,但是整体状态我们却依然构成了一幅丰富多彩、千差万别、生气勃勃的有序图像。

其实我们看一幅分形图就会有很好的了解——mondelbrot集,以及树枝图

mandelbrot

orange-tree2

他们都是用一个很简单的函数,然后不停的迭代所导致的,看似无序,却被最初一个如简单的式子决定了,这也是为什么说蝴蝶效应(混沌的典型代表)是决定论的复兴的缘故了。当然自然很多东西都是能用分形(fractal)来描述的,比如血管,比如云朵,比如很出名的英国海岸线。这些都可以用简单或者复杂的分形思想来阐述并解决。

当然说了这么多,我也仅仅只说了这些学科中部分,只是管中窥了少许豹斑而已,更多的还需要自己去探索,我一直想画个漂亮的mondelbrot集,太漂亮了,过段时间争取自己画个上来。所以回到原来的话题,科学中的各个学科是不分割的,与艺术更是不可分割的。

《艺术与视知觉》中的第一章就讲了“平衡”这个概念,从绘画的的构图角度很好的阐述了平衡这个概念。我也明白了有实在的物理力,还有心理学上的“知觉力”,这不是所谓的主观,而是对我们大脑进行更客观更实在的剖析,如果总是从神经元那个角度来谈,是无法解释这些东西的。这就是艺术与科学的结合。

因此我对统计还是非常有好感,科学的东西充满了理性,我是一个成熟的人,所以我崇尚科学,同时我有对艺术的东西喜爱有加,美会让我的精神更充实,让我更有发现力和活力。

我想为什么小孩子总是那么的纯真,那么有活力,因为他们对世界的感知力并不比我们这群大人弱,他们也是一个小小的艺术家,只是理性的精神还不够罢了。我们很多人想回到孩童时代,主要原因是我们被现实所谓的规律桎梏了自由的精神,艺术的洞察力不断消退,色彩感越来越淡,缺乏了发现带来的愉悦与新奇感。所以这也是为什么艺术家往往像孩童的缘故吧。

科学精神可以训练,艺术精神却是与生俱来。这便是我刚阅这本书的感受。

最后来一个测试艺术敏感力的图,二选一。

ceshi

数据和理性

奥运420亿美金、60国庆开销…不明,反正上了百 亿、世博4000亿RMB、09年全国新开工高速公路计划总投资约 7000 亿元,沪杭磁悬浮上1000亿只为节约十分钟…然后我党给 水深火热中的西南五省下拨抗旱经费—…1.55亿元。

这是我从一个同学的博客上抠下来。其实我也没啥意思,只是最近不管是寝室内还是寝室外,总听到不少人在骂dang不人道,不太管西南老百姓的死活。而一同学天天粘着猫扑上,更是大骂社会不公。

当然我没有那么愤青,听着这些话,总觉得网络语言中有太多的戾气和不理性。人们对数据的比较始终充满了主观性,特别是数据的比较,缺乏统计人的理性。其实我也不是为dang做什么辩驳,只是觉得上面这种数据的比较除了激起不明事理的人的愤怒感,没有太大的作用(当然会促使dang拨更多的钱给西南,但是难免其中又有贪污了)。国家的财政预支都是上一年就做好的了,如果咱国把应急预险的预算做到和世博一个价位的,不知道有多少人会跳起来大叫“疯了!疯了!”国家有国家的打算,个人有个人的看法,如果我们总是从自身出发看问题,缺乏大局的眼光,那么我们总是会被别人的思想牵着走。

有些人觉得国家搞个奥运会,弄个世博会,再折腾个磁悬浮,花了那么多钱,仿佛是关心形象工程,而对于真正的民生,比如西南大旱却吝啬如高老头。对这我不想发表太多的言论,一个中心两个基本点,主要矛盾与次要矛盾。国家要发展,强健民心的工程必然是不可少的,而对于自然灾害,国家肯定有自己的打算,目前据说国家已经拨了20几个亿给西南了,这对于缓解居民的基本生活困难帮助应该不小了,但是这肯定无法从根本上解决问题,钱不能让老天马上下大雨,根本问题是如何加大水利建设和环境保护工程,增强抗旱的能力。所以20多个亿了,数目还是不小的,毕竟对于一次自然灾害来说(当然无法与汶川大地震相比较的)。

不要看到和世博那比起来这些钱是那么的寒碜,然后就怒气冲冲的找国家说理。一同学说的好,“西南大旱又不是建磁悬浮引起的。”一群人抓着个数据就像抓着个宝样,这不是个好兆头,特别是一群不懂数据、不明事理的人(当然我也不明事理),这样只会让自己愤青升级,一天到晚张着个嘴骂这骂那,而什么实事都不做。问题是要来解决的,关键看你用什么手段解决。咱要理性点,是好是坏,咱也不是瞎子,咱也是明了的。
所以这样看来,在众人中普及点统计知识是迫在眉睫呀,特别是一些愤青们和一些“领导上”们。所谓心中有牛屎,看什么都是牛屎。数据也可以是理性的,关键是我们有没有理性了。唔,路漫漫其修远兮,吾将上下而求索之...

喜欢北欧建筑

开学刚开始专业课不是很忙,于是一直在读好几本文艺方面的书。上个星期读了一本《北欧建筑散记》,徜徉北欧的闲情逸致中,于是对北欧甚是向往。

stockholm city hall

作为一个学统计的人来说,以后摸钞票的时候会更多些,而应该和工科钢筋混凝土类的东西不会再有太大的干系,但是我却一直比较喜欢建筑,而且最近是越发喜欢。

一直深信一句话:“建筑体现着一个人的生活理念。”因为建筑用空间变幻,用各种自然和非自然的元素营造出来的感觉,时常让我有种超脱之感。建筑师独有的建筑哲学感动着我的心灵,让我明白人与天地的和谐原来可以用一种空间的重构使人深入自己的内心,体会那份躁动与安宁。透过建筑,我似乎可以看见一种健康阳光的生活状态。所以我喜欢建筑,喜欢那份游走于非自然与自然、理性与非理性的感觉。

bagsvaerd church

而当我欣赏完这本《北欧建筑散记》,我更是被北欧那种特别而浪漫的建筑的风格而深深吸引了。这个在地球上靠近北极却又非常富裕的的区域,一个出产了NOKIA、沃尔沃、爱立信、宜家等享誉全球品牌的好地方,还拥有着大片大片让人心醉的建筑,真的让我有点着迷了。我轻轻翻着每一幅图片,沉醉在温柔的阳光与湛蓝湛蓝的天空中。

是的,我被北欧人的那种生活观深深吸引了:“风格就是生活。”是呀,他们的建筑,他们的衣食住行,他们的文化,无处不透露着他们极其推崇民族文化的自豪感,他们的民族风格把他们装扮的是如此的潇洒、自由而坚定。书中介绍最多的就是北欧的教堂和墓地,那些建筑无处不在的安宁与祥和,与自然、与上帝、与自己的灵魂是如此的靠近,让我感觉我自己变得是如此的纯洁。

Stockholm Public Library

书中如是说,北欧人注重实质甚于形式,喜欢内心的美丽甚于外表的装饰。我记住了,却也惭愧了,一个如此富裕的国度,抓本质的东西抓的如此准确,而我们的国家却似乎恰与之相反,传统文化不再重视,即使保护和宣扬却也只是抓住了表面,丢掉了文化的的根。停留在斯德哥尔摩图书馆中,伫立在斯德哥尔摩林地公墓前,我闭上眼,享受着那份知识的静谧与哲学的虚无。

the fish chaple

yanshidajiaotang

建筑师让建筑有了生命,让他的棱角或柔软或坚强,让他的心胸或幽深或宽广,也让我们在视觉的游走中感悟自己的生活理想,我想这是建筑能给我们最大的好处了吧。如果让我选一份理想的职业,我想我很可能会选择建筑师,毕竟那是一个浪漫的行当。