境由心生

分类时一定只进行分类吗？

Tao Gao — Sun, 08 Sep 2013 06:59:58 +0000

分类时一定只进行分类吗？

产生这个疑问主要两个来源于两个切身体会。

来源一

最近做一个项目过程中，遇到一个问题。由于实验室条件的缘故，对于某指标的检测只能在某个水平上检测出来，比如指标值为50以上才能有显示，于是实验人员会根据检测结果（一次检测会有多个位点的值测出来）来标注结果中是否存在缺失，他们的目的是想确定下在不同的水平下，缺失概率是多少？检测水平多少比较经济、合适？因为在50的时候，他们还需要去掉许多背景噪音，工作量大，想不做那么严格控制。对于这个问题，细抠起来想建好模其实还比较麻烦。不过我的疑问不在这里，而是在于由于不同实验室实验仪器和操作水平不同，阈值水平不一样，即使建模所得的结果，也是针对不同实验室得出来的结论。而造成这个结果不同的主要原因就是因为人为划分的阈值水平不同，导致类别结果不同。换句话说，我分类、打的标签不同，你建模的结果就会大不一样。同一批数据，我选择阈值不同，缺失的结果就不一样，所以我觉得挺难去确定一个适用于绝大多数实验室的阈值。

来源二

我经常会这么调侃别人，让别人猜我来自哪里？一般人会这么猜：“听你的口音，应该像个南方人，湖南？四川？湖北？”待我不停摇摇头后，可能又会猜，“不会是山西、山东吧？听着不像北方人啊？” 一般我都会一直在那里笑嘻嘻的坐等他们瞎猜，然后很自豪的告诉他们，“不南不北，乃中原信阳人士也”。因为信阳恰好在淮河流域上，我们稍微往北一个县就不种水稻、种麦子、吃馒头，而稍微南方一点就基本就是水稻、吃大米之流。所以基本上想以南北方的分类模式来给我分类，基本都会错。所以我干脆每次都不会说我是属于北方或者南方的河南，而是说我是中原人，多加一个类别。

因此，我突然有了这么个疑问：在分类过程中，我们一定要构建某些模型，在已经打好标签的分类上做精确的分类么？我们一定在原有的基础上训练集上做很好的分类，学习（learn）特征，然后对其他东西做分类么？构建分类模型，总是有个分类误差的界的。这种不可避免的误差是随机因素，还是因为本身我们定义类别的时候就不是那么完整呢？贴错标签，一失足成千古恨...

我想，最初给出这些类别的时候，其实我们一般都是仅仅根据几个特征来标定每个个体属于哪一类的，这个时候就已经为后面分类模型建模埋下了“祸根”。分类的界限，阈值的选取，很多时候在定义类别时，我们大脑本身并不是那么精确，甚至有些随意。所以很多时候在聚类完后来给无标签的物体打标签，其实就已经蕴藏了蛮大风险。既然如此，我们可不可以在分类的同时，对那些分类错误，或者基本就处在分类边界上的点（塞给哪边都有点不合适）重新定义一个类别呢？就和我不说我是南方人或者北方人，而说我是中原人一样呢？（下图来源于@roadstat同学的微博图册）

此图来源于@roadstat同学的SVM结果

所以我想，在分类的时候，我们在已有的类别上学习（learn）的特别好的同时，可不可以创造（create）新的类别去囊括最初我们没有发现的美好呢？即使这样的后果会导致类别越来越多，很多类别类别无法定义，甚至类别数目随着个体增加而发散，但是此时，起码我们不会因为最初粗糙（拍脑袋）的分类定义而硬生生的要将一些模糊的点分到Class 1、Class2、Class 3...中去。

换句话说，我相信那些经历风雨洗礼的经典分类器的能力，而怀疑最初那群给我们划分类别的人是否有个明确的分类定义，很多时候，人眼细细看也无法看出（自然学习能力有限）类别差异，还想要机器做那么好，那它不也还是在猜么？

所以我觉得，其实还是有很多概念间的层级关系我们并没有弄清楚。我并不期待仅对某几个大类学习几个重要的特征出来，反而更期待如何更精细化的建模，对错误的个体重新合理定义。如何构建出一个更为智能、自适应性的分类器（或者说特征学习器），我想应该会比在几个来历不明的类别上硬磕、硬建模可能更加有惊喜！难道目前的Deep Learning是一个希望？不过太黑匣子了，虽然可以从一个母体上逐渐衍伸出其他类别，不过我这种没有切实经过工程训练的人，更希望有能有一个更为简洁的框架来处理问题。

P.S. 纯属瞎想，欢迎一起瞎想...

The post 分类时一定只进行分类吗？ appeared first on 境由心生.

PKU暑期高维统计学习心得(II)

Tao Gao — Mon, 19 Aug 2013 04:00:50 +0000

前言

距上一篇时间颇长，不过继续Jiashun老师的讲课心得。上一篇谈到稀疏、弱信号的一种处理框架——Higher Criticism，在分类、聚类等领域可以有比较好的应用。具体如何应用，此处不详谈，大家可以看看他第二节课的PPT以及该篇论文。在第二节课结束时，他提了一个结论：

Surprisingly, penalization methods (e.g., the L0-penalization method) are not optimal for rare/weak signals, even in very simple settings and even with the tuning parameters ideally set。

也就是说在稀疏、弱信号下，由L0衍生出来的方法并不是最优的，比较容易出问题。虽然我依稀记得某些论文模拟显示信噪比过低时候不少penalty方法结果并不太好，不过Jiashun老师的这个结论还是让我比较吃惊，毕竟被很正经的提出来了，而且他还有相对的解决方案！着实让我很感兴趣。

Donoho的不确定原则（Uncertainty Principle）与信号恢复

Jiashun老师说，关于信号恢复最早应该可以追溯到Donoho在1989年的论文Uncertainty Principle and Signal Recovery。在这片文章中，Donoho给出了类似于海森堡测不准原理的不确定原则（UP）。海森堡测不准原理通俗来讲即微观粒子某些物理量不可能同时被精确测量准确，一个量越确定，另外一个量的不确定程度就越大。Donoho的不确定原则通俗来讲即，离散时间点有观测，做傅里叶变换有

用和分别表示和中的非零的位置，那么就会得到一个不确定原则，

直观的解释和测不准原理类似，当时域上的非零点位置很稀疏时，那么关于频域上的非零点就不会稀疏，他们被一个的下界给bound住了。也就是说和不能同时太稀疏！虽然这可能是自然界非常普遍的规律，但是我有些疑惑，这个原则对于理解L0有什么意义？

在信号恢复中有这么个结论，观测可以完美地被两组基给表示出来跳点基（spikes）和正弦基（sinusoids）

现假设一个无噪音的模型

其中和分别是两组基。，此处令

, 为“时域”，
, 为“频域”，
要找到非零的位置，且具有稀疏性。

目标就是给定，来恢复稀疏的，此时根据Occam's Razor的原则，我们相信真实的应该是最稀疏的。转化为具体形式就是惩罚，

虽然基于Occam's Razor原则，那么的稀疏解是不是唯一的呢？答案是唯一的。之前的UP原则已经暗含了：对于，不可能同时存在多个稀疏解。

当然这个唯一性也是有条件的，当时，会有唯一解，惩罚是最优的。如何理解这个upper bound的条件呢？直观理解，结合不确定原则，时域与频域上非零稀疏个数至少是个，结合UP的那个乘法与加法的不等式，稀疏可以定义为且，如果加上个两者之和最多少于个，也就说明了时域、频域不能同时太稀疏，此时只有一个域上稀疏，那么这种恢复是唯一的。如果要证明，也比较简单，形式推论如下：假设同时存在两个稀疏解和，那么做差也是一组稀疏解对于，同样要满足UP条件，那么就有 \begin{equation*} \begin{split} 2\sqrt{n} \leq & |T(\sigma)| + |W(\sigma)| \\ \leq & |T(\beta_1)| + |T(\beta_2)| + |W(\beta_1)| + |W(\beta_2) \\ < & \sqrt{n} + \sqrt{n} = 2\sqrt{n} \end{split} \end{equation*} 可以看到与条件矛盾，那么也就是说不会存在两组稀疏解，的解是唯一的。 Remark：

正是由于有这样的结论，所以一直以来我们都相信基于的稀疏解是最优的，但是我们可能忽略了模型一个关键的假设：

模型为无噪音，或者是信噪比很高，噪音影响很小

所以回到稀疏、弱信号的场景，我们就会很有理由怀疑基于惩罚的方法以及相关的衍生的惩罚的解是最优的吗？如果不是，如何做才可以处理这种稀疏、弱信号。

首先我们阐述Occam's razor对于稀疏弱信号尝试是不太合适的。Jiashun老师给出了一个图形很好的阐述所存在的问题：

从图中可以看到，如果没有噪音，或者噪音比较小时，恢复较大的真实的信号是很好的，不过当信号很弱，信噪比比较高时候，那么这些真实信号就会被一些噪音包围，而我们也无法分辨出来。用Occam's razor去挑选最简单的，显然效果会比较差。

另外一个问题，对于稀疏、弱信号，根据之前的Phase Diagram的信号恢复区域划分，以及上面这个图形，可以看到精确恢复已经是不可能了，那么用如下定义的Oracle property也就不再合适：

即找出来的非零的系数与真实非零的系数（信号）是同一个的概率非常高，趋近于1。可以看到这种损失函数对于并不强调对于弱信号的发掘，只要大部分强信号找到了就差不多了。一个更为直接的损失函数定义可能是所谓的Hamming距离

由于关注所有系数（系数为0和系数非0）的损失，所有强、弱和无关信号都纳入了优化的目标中，尽量不误估系数为0的和系数非0的，所以要求比Oracle property更为严苛，希望不放过一丝蛛丝马迹。但是问题也将会变得更为复杂了！

讨论了这么多，费了很大劲说明之前深以为然的对于稀疏、弱信号不再是fundamentally correct了，那接下来有什么办法可以解决呢？推翻旧王朝相对来说还容易点，重新建个新王朝却更难了。Jiashun老师研究了那么久，自然有些办法来处理的。

Graphlet screening

Jiashun老师开头先讲了个故事，说有次Fan他们来他们那里做分享，很开心的分享他们关于screening、SIS等方面的工作，Jiashun老师自然先不了解Fan做的SIS和ISIS工作，对于screening也构想了自己的方法，但是当他听完Fan老师讲完他的思路后，他大腿一拍，“这不和我的思路一个样嘛！”

如果诸君了解Fan老师在screenning方面的工作，那么就不会陌生Jiashun老师的思路。与Fan老师的SIS、ISIS思路相同，对于高维问题分两步走，一步screening得到一部分变量，然后对这些变量用些比较精细的方法诸如SCAD惩罚再来挑选，再稍微对第二步迭代调整下，可移除那些假非零系数（假信号）。而Jiashun老师的变量选择的方案也是一个两步方法。

对于细节此处不详述，我只是谈谈理解。Jiashun老师有两个很重要的想法：

相关性不是噩梦，对于估计可能会降低估计效率（相当于样本减少），但是对于信号检测，却是是一个福音。我举个例子来理解，比如舆情监测，在浩如烟海的网络上有个人喊了句“打到XX”，这信号弱的简直没人知道，但是如果有几个与这个人存在某种关系的人，他们也跟着喊了句“打到XX”，虽然都很弱，但是还是起到了增强信号的作用，相当于几个弱信号汇集一起，让其中一个人发出了怒吼“打到XX”，那么自然这个时候信号检测相对会容易些，而边上的几个弱信号也顺便被检测到。因此要善于利用相关性来增强信号，对于稀疏、弱信号是一个很重要的手段。
信号稀疏，变量之间的相关性也是稀疏的。将变量间的相关性看做一个图，也就是说信号会分散到很多小子图中，而且这些小子图内部相关性强，而相互之间没什么联系。用形象的话来说，就是信号分散于很多小岛屿上，具体哪些小岛屿有信号还不太清楚，但是我知道信号就分散这些小岛上，小岛上处处散发着信号的微光，而小岛屿之间对另外一个信号的发现没有任何帮助。好比中国大地星星之火隐约可见，却不知他们各自藏身于何处。Jiashun老师对变量间的相关性用一个阈值来控制（screening），以达到图的稀疏（sparse）和seperable（分离）的效果。我个人觉得这个假设有点强，将大图划分为多个独立的子图，这种方法略显有些暴力啊，你想这些星星之火间真的没有联系么？好吧，就当没有什么联系吧，因为我也没啥特别好的想法:(

因此整体思路就是：

假设变量形成的图是稀疏的，信号可分解为多个独立子图（最大连通子图）。于是利用相关性对原来的观测进行变化，通过这种方式增强信号后对图进行screening，即可获取支撑集，然后分解为多个子；
在这些子图上，再利用加惩罚的MLE方法来估计、拟合即可。

稍微细节点阐述如下：

首先有个概念称作Graph of Strong Dependence(GOSD)，即有图，两个节点有边的条件是。因Gram matrix 稀疏可认为图稀疏。，从GOSD可以引出一个很关键的假设：可以分解为许多不相连接的小块，每个小块都是最大连通子图，即上面的第二点重要的想法。不过图稀疏的，但并不意味着图的结构很简单，稀疏图的小块同样可以很复杂。然后定义的支撑集

由支撑对应的节点可以形成子图

。

要估计支撑集的办法与SIS类似，肯定要粗暴点，不能用加惩罚类的最小二乘法（PLS）等来挑选，PLS做下一步的精挑和调整是比较合适的。Fan针对他的模型提出的思路是用边际似然来做对变量重要性排序然后挑选前面重要的变量，这个方法非常常见，没有什么特殊。不过前面讨论过，这些方法都是基于信号比较强的假设提出来的，多余rare/weak的信号是第一步screening就会将信号给踢出大门外，即使下一步再来调整，也基本无望重新找回来。

在Screening步中，对于rare/weak信号的挑选此时就需要利用上面提到的第一点重要想法，利用相关性来筛选rare/weak信号。

1. Univariate Penalized Screening(UPS)

Jiashun老师提出假设简单模型

UPS方法不是直接对X或Y做screening，而是对变化数据做 screening，这其实一种增强信号的处理，以便于挑选rare/weak信号，它与之前Jiashun老师提出 Innovated Higher Criticism 有很强的的关联，先阐述 Innovated HC 方法以便于理解，Innovated HC 也是一种对于 rare/weak 信号挑选比较合适阈值的方法。对于阈值选择问题：

直接的想法就是用上一次提到的HC方法，假设各个信号独立无相关性来挑选信号，即。但是实际情况多数各种信号噪音间有相关性，因此直接用HC似乎不那么美好。
另外一种想法就是常见的Whitening方法，用线性变化使得变量相关性去掉，然后再用HC方法来挑选。
还有一种想法就是所谓的Innovated HC，应用HC于如下变化。

上面的三种方法貌似都有一定道理，但是哪种最好呢？对于相关性，我们很多时候认为对估计是不太好的事情，但是对于信号检测，这却是有益的，上面我已经有阐述，所以直接HC会损失不少信息，那么后面两种方法看起来会更好些。当然看是看不出来的，简单计算下便可得出答案。

假设要不是为0，要不为信号，是一个分块矩阵

稍微一个简单的矩阵计算，三种边际的信噪比（Marginal SNR）：

纯HC：;
Whitening后HC：;
Innovated后HC：。

可以看到变换后，Whitening 和InnovatedSNR 都增加了，但是 Innovated 的增加的更多。用图形来阐述就是下图，左图是原始信号，而右边是经过变换后的信号，原弱信号增强了，当然边上的噪音也会有些增加了。

这种 Innovated HC 与 UPS 方法的联系在于 $X$ 是随机阵时，有一个完美的随机阵版本（Stein's normal means model）, 而Stein正态均值模型有，其中，于是乎，而和，于是，即Innovated HC。所以UPS方法做Screening会保证一些较好的性质，如Sure Screening（信号基本都在筛选出来的信号中），Separation After screening(SAS)（存留的信号满足GOSD，可以拆分多个不相连的子块）。

虽然这种UPS的方法虽然可以保证较好的性质，不过需要较强的条件，而且还会出现信号抵消（Signal cancellation）的现象（该现象在[Wasserman，2009年论文的第五页]举了一个小例子说明这个现象，主要原因就是相关性的介入，虽然真实信号还比较强，但相关性使得估计的信号被抵消而减弱使得screening时候信号被当做噪音给去掉了，导致False Negative上升了。）。这也是一个比较严峻的问题，会导致把许多真信号给删掉了。为了解决这个问题，我们就需要不仅仅只利用UPS，还需要利用之前的Gram matrix 蕴含的稀疏图信息，尽量防止Signal cancellation现象出现。

2. Graphlet Screening（GS）

一个直接而暴力的想法，就是扩展UPS，将单变量的screening变成多变量的screening，即多个变量一起满足某个阈值限制时才将这些变量选入，从单变量试到m变量的screening，如果某些变量一直出现，则将其认定为蕴藏了信号，留作下一步的cleaning。这个想法目的就是想消除Signal cancellation，看起来是比较有希望的，不过坏处也显而易见，计算量的急剧增加，将涉及至少个子模型的计算，而且也很可能使得选出来的变量更难在下一步中将有用变量与无用变量分离开。因此想法虽然还不错，还是还需要打磨下，于是便有了Jiashun老师Graphlet Screening的方法，改进的想法如下：

只考虑需要考虑的有价值的的子模型，贯穿GOSD的想法到screening和cleaning中，只关注内部有强相关的子图，即仅利用Gram matrix中的来大大削减所需要考虑的子模型个数；同时还能解决信号抵消的问题。

GOSD降低计算量是因为假设图是 -sparse的，这样就从原来的降到了差不多的级别。具体的定理证明可详见Jiashun老师的论文和slides，此处再稍微提下GS的算法过程：

先利用GOSD获取稀疏图，然后在该图上选取子模型，每个子模型的节点数不超过个，对这些子模型进行screening。由于每个节点于自身互通，于是最初的的子模型都是单节点。
然后初始化留存节点集，对每个子模型地节点进行检验，是否要选入该子模型中的部分变量。想法是如果在整个该子模型变量上的投影的平方和，与在该子模型与留存节点集共有变量上的投影平方和，两者的差值如果大于某个阈值（经验性），则将该子模型的变量与留存变量集的差集变量选入，更新留存变量集（其实是一种适应性卡方检验）。该步骤的直观理解是如果两者的共有变量解释能力所占比重比较小，感觉像噪音，则说明另外一部分变量在该子模型中很可能是信号。
screening后剩下的变量分解到各个自己的子模型中，对这些子模型分别做类似变量选择既可挑选各个子模型的有用信号了。下面模型中的系数还有个阈值限制，需要大于。表示在子模型变量上的投影。

整体看来，过程还是显得有些繁琐，引入了不少参数，这些阈值参数有些给出了解析式子，有些比如却比较难选择。算法给完后面免不了是不少理论性质的证明，在严苛的Hamming loss上可以最优，比lasso好，Phase diagram上表现也很好等等好的理论性质，不过这些我都没怎么细看了，一时看不明白也看不完呀！总之给我的印象就是还不错！不过遗憾在于相比HC框架的简约不用给代码，但是这个模型还是做个R包或者给点代码吧，践行Zou Hui的统计产品理念看来还是有必要的:)

总结

总之，Jiashun老师的想法就是想尽可能地挖掘变量间的关系来帮助变量选择。之前Zou hui的[Adaptive lasso]，Bulhman的[Multi-step变量选择]，Longzhe利用[network做laplacian惩罚]，还有相似的Cun-hui老师先学adjacency matrix，然后[MCP+laplacian惩罚来做变量选择]，以及今年在北京大学春季统计会议上Jinzhu老师提出的[preconditioning方法]，用SVD的矩阵和矩阵来对做变换，也都是想对原始的变量进行挖掘，想办法在更弱的条件下来做更准确的变量选择，不过我更倾向于用图（变量关系）来提高变量选择的准确性，Witten和Tibshirani的[Scout方法]比较切合我的意图，不过现在看到Jiashun老师的思路和想法，不禁还是被深深吸引，在Gram Matrix上和变量变换上做文章，想法很好很深刻，何况还有之前的HC框架呢！尽管论文比较难读，涉及很多性质证明，我也基本没怎么细看，但是我想如果有可能，还是希望能够在这个基础上再继续做点东西吧，但愿

The post PKU暑期高维统计学习心得(II) appeared first on 境由心生.

PKU暑期高维统计学习心得[I]

Tao Gao — Sun, 18 Aug 2013 16:45:28 +0000

印象

为其两个周的北大关于高维统计的暑期课程即将告一段落，我回来奔跑了两周，身体略感疲惫，现在总算可以休息下，然后停下来消化下讲过的内容。

这次来讲课的老师学术能力都很强，都是四大paper等身的青年学者。老师们讲课的风格不一，最好玩的当属Tiefeng Jiang老师，他讲起课来就像说东北二人转，段子一个接一个，东北味的口音让我第一节课毫不犯困。而且深入浅出，随机矩阵这种比较数学的研究领域，也被他讲的比较好理解。不过后面由于有事情，以及之后的内容过于数学化，我就没有再跟下去了。Zhu Ji老师讲的很细致，不过内容偏简单了，听了两节课后我也没有跟下去。Cun-Hui Zhang老师做的很理论，深厚的数理分析功底，以及对高维问题理解的深刻让我感觉很敬畏，不敢靠近。不过对他后面做的scaled lasso和LPDE的结果很感兴趣，想用来做点检验的试验，不过邮件找老师要代码现在还没有回复，略感伤心，看来只能过几天自己写了。Yang Feng老师很年轻，在Fan老师那边做了很多非常好的工作，不过由于之前我看了不少Fan老师的东西，对他的讲的思路相对比较熟悉，也就没有太用心听而刷微博、做项目去了，真是一大罪过啊！

整个课程中对统计所持的观点和态度，我最欣赏的是Hui Zou和Jiashun Jin老师。

Hui Zou老师在变量选择、图模型做了不少很好的工作，比如现在很常用的elestic net、adaptive lasso等，都是非常简约而好用的工具。Hui Zou老师为人谦虚，对自己所做的东西不夸耀、不吹捧，他认为统计的工作更像是“完成一个产品”的工作，做出来的方法最好能做成软件包为人所用，而且还要比较好用，所以他的文章不少都会附上R包。这一点我很喜欢，统计本身就是一个应用的学科，如果做的过于数理，缺少实际的价值，并且算法写的没效率没法用，这些都是没法促成统计在现实生活大规模应用的。我觉得当前统计之所以这么热，也主要是当年统计从英国转入美国后，有了Tukey等人不断地大力推动数据分析的理念，推进一些有效的统计分析方法，才有了现在统计一片大热的局面和现在所谓大数据的时代。

Zou Hui老师还提倡多做实验，多种方法多做比较，不要限制于一种方法上。我深以为然。以前我学习统计的感觉就是一定要找一个方法完美的解决这个问题，和做数学问题样，做到一个唯一解。后面我逐渐的体悟到，统计面对的是数据，它本身就是具有随机性的，用多种方法来看这个数据虽然结果会有差异，也许某个方法表现比较好，但是不是说明这个方法在后面遇到了同类型的问题时候，在使用这个方法的效果就一定会好。就拿各种penalty的方法，真实数据你也不知道信噪比如何，回归系数是怎么样，也许模拟结果显示某某方法很好，超越了其他方法，但是面对真实数据，好的方法只是“概率性”地增加了我的信心，我无法确定scad一定比lasso分析的好，何况那些oracle性质只是概率意义上的呢，谁知道不会发生小概率事件并且后面Jiashun老师提到的rare/weak signal问题更加增加了我对这些方法的恐慌。所以，做完理论后，回归到数据分析，唯一的办法就是多做比较，大胆假设，小心论证，发现共同的证据，这才是做统计和做数据分析的思维。

整个暑期课程对我思维激发最大的是Jiashun Jin老师的课程内容。由于课程进度有些快，加上这几天比较忙，我也没有研读老师paper，所以此处只是记录些大概想法，后面有时间会深入探讨。

Higher Criticism and Rare/Weak Signals

Jiashun老师讲关于稀疏、弱信号（rare/weak signals）共三节课，最核心的是Higher Criticism and rare/weak signals，然后还有就是关于变量选择的新思维。

关于稀疏、弱信号，Jiashun老师认为在大p小n的情况下，有许多没有用的特征，当真实信号非常稀疏和微弱时，参数空间存在着一块**不可能对参数进行很好推断**的区域。

而导致信号过弱的情况，一个直接原因就是样本过少。信号强度以样本量存在一个2次的比例关系（一般CLT的速度）

这是一个很浅显的道理，增加样本（如果样本不是高度相关抽样所得），信号肯定会增强，但是很多情况下，随着样本增加，成本会大大提高，或者是维数又会大大增加，信号仍旧比较弱，那么此时如何去恢复或者估计呢？

很多情况下，人们都认为他们的数据中信号是很强的，所以可以直接用那些高维的惩罚方法来恢复信号，或者认为强信号与弱信号之间存在巨大的鸿沟，他们可能没法互相转化，又或者认为信号很弱时，我们什么都不用干，因为什么方法都没用。一般来说，大海里捞针，信号本身确实挺弱的，要想寻找到这样的信号，确实是件非常难的事情。但是我们可以提出一个问题：什么样的情况下我们可以通过一些高维的方法找到这样的弱信号，在什么样的情况下我们又无法很好找到弱信号呢？如何量化这种信号可估和不可估的区域呢？

Jiashun老师从FDR的弱点出发引出了自己的思路。

对于简单的问题

如果只有很少量的信号

不为0，挑选信号的一个直接的方法就是用Wavelet hard-thresholding，给出一个阈值

\begin{equation*}
\hat{\mu}_i^H = \left \{
\begin{array}{lc}
y_i, & |y_i| \geq \sigma \cdot t \\
0, & \text{otherwise}
\end{array}
\right.
\end{equation*}

这个时候选择阈值就是一个艺术化的工作，选大了会导致很多信号选不到，选小了就会导致很多噪音进来。一种选择阈值的方法即通过控制FDR水平（错误发现率），通俗的说，如果能使得选出来的信号中是假信号（噪音）的比例控制在一定水平之下，这样我们也是可以接受的，毕竟真信号还是选出来了，只是附带了一部分噪音罢了。想法是好的，但是实际中，用FDR控制阈值很可能选不到任何信号，因为我们期望FDR能有效果是基于一个信念：信号虽然稀疏，但是还是强（strong）的，所以我们也许还是可以找到个相对好的阈值来找到强信号。但是现实中如果信号是弱的，信噪比比较高时，用FDR报告出来的信号便很可能是假的，因此控制FDR还是无法到达选较好阈值的目的。按Jiashun老师的话说，FDR其实与阈值选择没有太大关系，两个不太一样的目标。

于是Jiashun老师从检测稀疏混合分布（Detection of sparse mixtures）出来来导出他的想法和框架，与FDR有些类似，但是效果却大不相同。

做如下假设检验：

\begin{equation*}
\begin{array}{lr}
H_0 : X_1 \overset{iid}{\sim}N(0, 1), & 1 \leq i \leq p \\
H_1^{(p)}: X_i \overset{iid}{\sim}(1 - \epsilon_p)N(0, 1) + \epsilon N(\tau_p, 1), & 1 \leq i \leq p
\end{array}
\end{equation*}

原假设即各变量是噪音，备择假设是各变量是一种噪音与信号的混合。其中参数有如下形式

\begin{equation*}
\begin{array}{lc}
\epsilon_p = p^{-\beta}, & 0.5 < \beta < 1 \\ \tau_p = \sqrt{2r\log p}, & 0 < r < 1 \end{array} \end{equation*}

当很小时，比如时，意味着只有极少的非零均值，此参数刻画着信号稀疏性（越大，越小，信号越越稀疏）；
当比较小时，信号相对比较弱，此参数刻画着信号的强弱（越大，信号越强）；一般时，信号就凑合能用了（only moderate significance）。

对于两个分布的检验（上述参数固定时候），Neyman-Pearson检验最优。那么自然我们就想通过似然比检验来刻画上述参数()不同区间的检验效力了。于是就有了如下非常惊艳的有关信号检测的Phase Diagram

此处划分了四个区域：可精确恢复（exact recovery）；几乎能全恢复（almost full recovery）；可检测的（detectable）；不可检测的（undetectable）。这些都是概率的语言，表示的概率强度不同。横坐标越大表示信号越稀疏，纵坐标越大表示信号越强。很多理论的结论都是在时的结论，也就是信号很强的时候咋算都会又不错的估计效果。右图是将横纵坐标都限制在区间中，而这一块也正是我们感兴趣的地方，信号稀疏而且很弱的时候估计效果如何？经过一些与检验相关的计算，这些曲线是可以直接算出来的，可以刻画可检测、不可检测、可估计的区域范围。

我觉得这是一个非常能激发思维的结论。对于不可检测的区域，过于稀疏和过于弱的信号，尝试努力恢复的性价比是非常低的，几乎不可能；对于可估（estimatable）的区域，用现在常见的penalty方法基本可以做到比较好的恢复，能够分离开信号与噪音；但是对于可检测（detectable）的区域，虽然我们知道那里面有信号，但是几乎不可能将它们与噪音区分开（FDR失效），不过如果是做信号检测、分类、聚类等工作，进行有效的推断还是仍然有可能的。此时进行推断的框架不是FDR，而需要一个对稀疏、弱信号更敏感的框架，它有个响亮的名字——Higher Criticism。

Higher Criticism，我直译为为高阶鉴别法，Jiashun老师说始于Tukey 1976年Stat 411课程讲义笔记，大师的思维光芒真是能穿越历史呀。Jiashun老师推导的HC与Tukey的略有不同，更为一般化，式子如下：

\begin{equation*}
HC^{*}_p = \max_{0 \leq \alpha \leq \alpha_0}\big\{
\sqrt{p}\big[\frac{\text{fraction significant} at \alpha - \alpha}{\sqrt{\alpha(1 - \alpha)}}\big]
\big\}
\end{equation*}

其中可以是1/2或1。一眼就可以看出来，这是一个比例估计的检验——分子是在控制水平时实际个体显著的比例与真实比例的差异；分母将拿到分母下就是比例的方差。那么这么做的含义是什么？

仔细想下，这蕴含着一个二阶显著检验问题（second-level significance testing）。想要知道在哪个水平下，我们检验的显著个体是真实，如果只看在某个水平下是否显著（一阶证据），然后依此证据来寻找显著个体其实并不十分理智。比如做了250次独立的检验，有11个在5%水平下显著，实际期望的平均显著个数是250*0.05 = 12.5个，也就是说在原假设为真的情况——假信号（噪音），也会有12.5个会显著。而11个与12.5个有差距很小的，所以我们很有理由怀疑这11个显著的信号不是是真信号，而很可能都是噪音。如果实际显著个数比期望显著个数大很多，那么我们可能更愿意相信在该显著水平下，真能会发现不少的信号。所以我们的目标就是想要调，看哪个水平下，这个HC值最大，这时候我们可以认为在这个水平下，我们可以发现信号，是可以检测的。

Jiashun老师说，HC值对强信号、弱信号检测都非常敏感，而FDR仅对强信号敏感。我粗浅地想可能就是HC值基于p值后又做了一次检验的缘故吧。由于没有去做Jiashun老师留下的作业，所以理解还不深刻。后面还是回头再算算Phase Diagram中的边界曲线来加深理解。

Higher Cirticism实施比较简单，过程与FDR过程很类似。步骤如下：

1. 对每个特征都算一个z-score，然后根据z-score算个p值，
2. 对p值排序： 3. 计算第个HC值，也相当于算了一个z-score：

4. 取最大值，计算相应的

值，找到对应的

，前

可以认为是真显著的。

对应着下面的图形大约可以可以理解这个过程，横轴是实际比例

，目的就是找到一个阈值，可以帮助我们检测到信号。

然后Jiashun老师给出了他在2004年和他导师Donoho的一篇论文的结果，证明了有最优的适应性(adaptivity)，证明时，可以获得犯第一类错误与第二类错误之和趋近于0。

Higher Criticism在宇宙学、天文学、基因、异常检测中研究比较多，因为那里的信号比较稀疏和弱，常规的方法已经不能满足需求。另外，HC非常适用于高维的screening、signal detection、classification、clustering等方向，用HC来控制screening中的阈值，比常规的CV、FDR等方法提供了一个新的角度，并且简单有效，无需调参，理论性质也挺好。

P.s. 一不小心突然发现写太多了，本只是记录下心得，不过写着写着觉得还是要重新捋一捋思路才行。之所以写这么多，很大原因是我对penalty太细节化的讨论感到有些厌倦了，里面谈到的统计思想性的东西并不多，所以Jiashun老师东西对我来说比较新颖，便一下子记录了不少，以留作后续继续研读。

Jiashun老师后面还回顾了L0方法的本源，然后说明了在在稀疏、和弱信号下，基于L0而衍生的一系列penalty方法都存在比较大的问题。这个论证让我感觉耳目一新，留作下篇再续。希望后面能在深入了解下Jiashun老师的工作，能够有更深的理解，能跳出当前的状态，既能看到他的方法好处，也能看到他的方法的弱点所在，因为我相信没有一种方法是万能的，总会有不完美的地方。

总之，两个星期的课程悄然结束。最后Yang Feng老师说希望大家有一个欢乐的暑假时，我才意识到课程真的已经结束。这也意味着陪同我一起上课好朋友兼极客同志——小南，晓矛师弟、赛姐师妹即将离开北京，各自踏上自己的征途，回家写R包的写R包，远赴米国读博的读博，而我，还要坚守在北京，继续着前进的道路。其实感慨良多，因为这一年经历了不少心理的改变，尤其是2013年。不过，无论做什么，就全力以赴吧。遥祝晓矛、赛姐米国修炼过程顺利顺心，早日学成归来。祝小南同志潜心修道，将学术理论进行到底，早日成为一名极客+理论家。

本次暑假课程的PPT（最后一天的还没有）加我下载的相关的论文在此了，愿喜欢这块内容的诸君好好学习！

The post PKU暑期高维统计学习心得[I] appeared first on 境由心生.

距离测度学习

Tao Gao — Wed, 22 Feb 2012 16:46:41 +0000

上个学期快结尾时，我和小南决定找点东西做做。左看看右看看，觅了个距离测度学习来研究研究，这个在matlab中已经有了相应的包，只是功能并不是全，于是我们觉得把这个还算有点意义的东西写成R包，算作一个短期的学习。

不过人总是有惰性的，上个学期末我写了个距离测度学习的总结草稿，本打算寒假时候开始R包工作，但是谁知寒假毫无动力，堕落的只剩下吃喝睡觉。伴随着这个新学期的开始，毕业论文现在还没有眉目，距离测度学习这个东西小南却已经在github上开了个头，哪有半途而废之理。于是经过一天的梳理，我把这个总结的文档又重新完善了一下，虽然没有任何实例，但是对写R包还是很有帮助。现在赶紧挂出来，也算给自己一个督促吧。毕竟还有个毕业论文等着我呢。

距离测度学习文档总结。

The post 距离测度学习 appeared first on 境由心生.

秋去冬又来

Tao Gao — Thu, 01 Dec 2011 17:15:06 +0000

12月1号，2011年最后一个月，长沙温度骤降，大学课程全部结束第二天，安定生活已半个月，虽还没找到以后明确研究的方向，但是心里却有别番收获。最近看了不少小说和电影，各种滋味都有，每个都做个一句话总结，算是这个月的新开始。

1. 传记
看了两本传记小说，《乔布斯传》和《坚不可摧》，都是小时叛逆，长大能成一番事业的两个人。
《乔布斯传》：伟大的人年轻时都是疯子，是一个陷入自我和有坚定信仰的疯子。
《坚不可摧》：战争摧毁的不仅是肉体，更是人的尊严，当连尊严都没有的时候，生存的意义就是赌自己肉体的极限——为什么要有战争啊！

2.小说
看的是日本东野奎吾的推理小说，算是第四次同读一个日本作家的几部作品，之前是夏目簌石、川端康成、村上春树。挺喜欢日本人的细腻和阴翳感，虽然写作有些罗嗦和拖沓，但是真的很善于捕捉人心最细微的变化，很触动人。
《放学后》：女人的心思太可怖，男人太无能。
《白夜行》：人性，可以有时不容于世，却仍可具有荣光与尊严，因为凄美的爱，代替了太阳，使人可以把黑夜当白天。
《嫌疑人X的献身》：爱一个人，究竟可以爱到什么地步？

3. 旅行小说
真的很想去和一两个人旅行，算是毕业礼。
《搭车去柏林》：两三个月的旅行可以让人认识从没认清的自己和遥远的异乡人。
《在路上》：爽！然后感觉什么也没留下。

4. 社会
同学推荐费孝通的东西，第一次读，感觉非常好，准备读他的系列。
《乡土中国》：深刻挖掘了农耕社会的社会关系形成，反眼看当今社会，很有意思，准备再读。

5.电影
看了好几个，但值得记下的有《忠犬八公的故事》、《白夜行》和《观音山》
《忠犬八公的故事》：狗的忠诚让人都汗颜。（日版的更好）
《白夜行》：日本美女看起来真的很谦卑、很温暖。
《观音山》：很情绪化的文艺片，但深度又不够。

悠闲的生活就在最后一次的大学考试结束了~路漫漫其修远兮，还是做个苦行僧寻求方向吧：苦行，可以让人直接洞见最真实的自我。

The post 秋去冬又来 appeared first on 境由心生.

北上见闻

Tao Gao — Mon, 31 Oct 2011 17:58:05 +0000

不得闲就不得停。还没在长沙刚呆几天，就被召唤北京，意外的去参加全国大学生统计建模竞赛的答辩。虽说真的很累，特别经历了一段的丧事，很想安静一阵子，但是生活在现实中，奔波总是难免。学习总是无处不在，安静是学，喧闹也是学。北京来回这几天，也颇有见闻感触，简略记之。

见闻一

想想坐火车从小到大至少有50次了，火车上总是有说不完的事情。我曾经写了很多关于火车的日记，不过这次坐火车让我发现了一个大秘密。我终于明白为什么乘警老是逮着老年人查身份证查个不停，而且还要求打开他们的小包了。一句话（此处不能说的太细）：查来京上访的老人，特别是历史遗留问题的老人。

坐我对面的两位老人，上访理由都是60年代暂时下放后国家一直没管，文革结束后也没有回到原来部门工作，一直留在了怀化农村，80年代邓公在世处理这类历史遗留问题时，他们也没有享受到应有的赔偿。所以08年国家出了文件，专门针对这类历史遗留问题时，他们就不断地上访要求应得的赔偿，但是国家相关部门总是搪塞之，用他们的话说：官官相护没完没了。这次是他们第5次上京上访了，带足了证据，连大横幅都准备好了。他们告诉我，如果这次还不行，他们就回家颐养天年，都70多了，也不争那个钱，只是争这口气，这口气理不顺死也不舒坦。

望着这两位白发苍苍的老人，脸上的表情严肃而轻快，我心里却异常酸楚。在这个特权滥用、门阀交错的帝都，他们两个老人东奔西跑，会糟多少苦呢？制度、人权，这些词从这两个7旬老人嘴里迸出，竟然异常的震动我。政治，我并不常触碰的东西，这一刻我突然很想从政，想为国家做些事情，为还有千千万万得不到公正待遇的人求的一个公道。中国，一个充满活力，但是却问题重重的国家，如何发展，真的需要像80年代那群热爱政治的青年们来探求，青年是国家的希望所在，仅仅埋头在学术堆有多少用？国不成国，何以成家？一个精神信仰都缺失的国度，滑向混乱的边缘真的很容易。怪不得前几天我看新闻，文章说缅甸人觉得中国人很奇怪，他们除了挣钱好像就没有其他生活了，都掉到钱眼子里面去了。（缅甸人90%都是佛教徒，人与人之间相处融洽，从军队掌权过渡到现在多党议政制度，社会比较和谐）。诚然，如果社会仍如此发展，即使2012年国家政权换届，一切依然没有改变，物欲横流，信仰缺失，公众事件频发，国家局部政治不稳，内忧外患，如何还能强有力、快速平稳的保增长呢？我不知道，只是这一次在火车上，我思考的更多了些，我只是觉得政治生活同学术生活和日常生活，对于青年一样重要。

见闻二

这次来京的主要是参加统计建模大赛答辩。我来的目的很简单，有奖金能拿就拿，反正是统计局出钱，不拿白不拿，其次主要是看下国内统计各高校发展状况。

答辩两天，食宿统计局皆包，整个过程，波澜不惊，松弛有度。论论文中应用的模型，除了王斌会老师指导的暨南大学代表队，他们台风灾害模拟的空间统计做的挺好，给我留下了比较深刻的印象，其余的论文都存在不少问题。但是基本上选题都挺热点，这是个可喜的现象，虽然存在统计模型滥用的情况，不过从一个侧面也说明了统计确实越来越受重视。

答辩过程中，可能由于其他的队伍比较羞涩，提出的问题比较少，而我看到一个感兴趣的问题，就立马愣头愣脑的起来问个没完没了，直接导致我们队“仇恨度”很高，别人一看到我们很不爽的样子。记得最后一天去参观统计局的路上，一个女生突然转过脸来，直接劈头盖脸的说了我一顿。大意是虽然我指出他们论文的问题，但是却指偏了，我没理解那个计量模型。于是我只能干傻在那里半天，张嘴不知如何反驳是好。也罢，我本意也不是来吵架的，让别人找我泄泻气应该的，谁叫我们队最后竟然莫名其妙的拿了个一等奖呢。哎，手捧着都颤抖了，受之有愧啊，只好在领奖前一天晚上，蜗居两个多小时，憋出了一份还算得体的400字感谢党感谢国家的“获奖感言稿”。俗话说，拿别人的手短，吃别人的嘴短，我竟然就有这个感觉....

感想一

来北京又见了太云，当然还有邱邱和大名鼎鼎的师姐了，我和他们一起吃了两顿饭。他们都很忙，我等闲人比之有愧，从邱哥紧锁的眉头我就深深的感受到了压力。而师姐最后百忙之中还送我到人大西门，寒风凛冽中，突然发现师姐还是比较瘦弱的，离去的背影让我甚是感动。想到明年我来人大读书，他们都已离去，便有些神伤。舞台就是这样，总有人来轮流表演。热闹过后，也有寂寞。

感想二

在人大图书馆发生了一件小插曲。由于找不到位置，我就和太云在5楼找了个角楼直接坐下看书休息。期间，多人路过。就在我和太云靠的比较近，一起看电脑中的资料时，一老外从旁经过，第一次过去时无事，而就在他返回时，竟突然朝我和太云投来了长达1.5秒的极为鄙夷的目光。那一刻，我非常受伤，也极为愤怒。我和太云都知道那目光意味着什么，我只是想不通为何一个天天打着民主、尊重人权的西方人，竟然还对这样的事情表达这么强烈的情绪，何况还是他误解了。

我和太云之前都看过一部讲同性恋的小说，文章写得很美好，并没有什么不可接受的，虽然他们遭受了很多的变故和社会阻力，但是最终也走到了一起，我觉得挺好的，感情这东西不是所谓的道德能够评价的，特别是这一次我真切的感受到了同性恋将会遇到的社会阻力后，我越发觉得同性恋其实是值得同情的弱势群体，徘徊在社会边缘，无法享受阳光照耀，这是多么的痛苦！所以，以后再有人问我对同性恋如何看待，我会很坚定的说，真感情没有什么性别之分，同性也很美。（不过可惜我不是同性恋。）

感想三

最近越发有向佛的倾向。可能是亲人去世后，对生命的感悟更多，越发想探寻生的终极意义，抄读完《金刚经》和《心经》后，想再读读《维摩诘经》和《法华经》。同时，也想通一些人情世故。人人上我写了一句状态“缘起性空。曾经的心越近预示着今后的心越远，直到相忘于江湖。 ”这个即使对于友情的感悟，也是对于爱情的感悟。佛家主张破执，但我一直没法淡然，终究难以抛却情的困恼。不过还好，最近逐渐体悟了些，毕竟强求的东西终究没有什么味道，众生相，他相，我相，都是虚妄；缘起缘灭，顺其自然吧。佛有金刚般若（无上智慧），我有豁达心态即可。

The post 北上见闻 appeared first on 境由心生.

无常

Tao Gao — Sat, 22 Oct 2011 14:39:54 +0000

佛家认为世间一切事物生灭变化，迁流不住，没有永恒不变的东西：

未曾有一事，不被无常吞。

当昨晚我走下火车，仰头看着车站门口的那两个硕大的“长沙”时，心中的沉重突然变得无比的轻松。不知为什么，几天前那种生命的无力感，此刻心里竟充满了力量。生活学习了三年的地方，只有简简单单的日子，没有那些无可掌控复杂与纠缠，生命是如此的可控。

我15日晚赶回老家，21号才回长沙。6天时间，天上地下，4天的不眠夜，无数个空荡伤心的间隙，为的只是亲人的安息，为的只是想通这生命的无常。

大舅是14号晚出车祸的，15日晚10点51分去世。我到他的病床前时，机器上的那四条线基本都快没了波动，一切抢救都已经无可奈何，只能眼睁睁的看着生命在流逝，我握着大舅的手，体温逐渐冰凉，那时我才真正意识到什么是失去亲人的滋味，无力的呼唤与无尽的思念，涌上心头只剩下一片空空的痛楚。

所有的亲人都没有预感到在这个时候大舅会出车祸，才45岁的年龄，正当壮年，谁会想到一个每天都乐呵呵，整个村都非常喜爱的人会突然离他们而去呢？谁都没想到，谁也没有预料到，只剩下悔恨、叹息和对肇事者的仇恨。

我也不愿再过多回忆与大舅一起快乐的日子，敬畏、喜爱、怜惜，这些感觉只会让刚静下心的我更多的难受。我只是仰着头，望着深深的夜空，遥想在那茫茫的宇宙中，是否有一条主宰人生命的定律，可以让人躲避无常的灾祸，抛弃这让人痛苦的无常。

我不禁想起每次极度颓废时常翻的《心经》中的几句话：

非色异空，非空异色；色即是空，空即是色。受、想、行、识，亦如是。

舍利弗，是诸法空相，不生不灭，不垢不净，不增不减。是空法，非过去、非未来、非现在。

每每读到这几句，我就有种世界空明无尽、阿弥陀佛之感。我想，也许世界真的是虚妄，大舅已经在另一个轮回里，拥有了光明与寂静之心，超脱生死，生活在这个灰蒙蒙的世俗世界无法理解的真空中。所以我相信灵魂，相信我跪下磕头那一瞬间，诚心的祈祷会让生命重新焕发神采。无常，只不过是生命不可控的恐惧罢了。

最近重新读了两本书《平凡的世界》、《不负如来不负卿》。在这个时候读，总感觉对生活与生命的感悟有了更深刻的体悟。对自由的追逐、对苦难的拥抱、对理想的脚踏实地，如果能让生命变得厚重有质感，我也真的愿意放逐生命去探寻。

越来越觉得生活是单纯的，各种光鲜而无穷无尽的体验不过是敷在脸上浮华的脂粉，被岁月的洪水冲洗后，仍然一无所有。生命的积分终究不是随机一划，对仅存理想一点一点虔诚的积累，就如西藏朝圣路上，教徒们跪拜10万个等身长一样，才会收获心灵最大的满足。我想起书中描绘的藏民朝拜途中那清澈而深沉的眼眸，恰如西藏广袤湛蓝的天空，那是需要怎么样对生命的执着才会有的干净、虔诚的心呢？

“世间安得双法全，不负如来不负卿”。这句诗本是仓央嘉措内心的写照，但是何尝不是芸芸众生的生活写照，矛盾的生活，踌躇的步伐。愁苦的面庞，是对生命的不领悟；有哪些选择能决定自己一生的命运呢？选择如来也罢，选择卿也罢，单纯的生活不可能多线程的进行着，选择了就坚定的去虔诚跪拜，管那些痛苦与忧伤，一生长也好短也好，结束时都不过是黄土一抔罢了。

无常，终究如概率的意义，在选择后都将塌缩成一个如超新星般沉重的现实。

写到文章最末时，耳边响起了同学庆祝拿到工作offer的欢呼声，而我还要在学校踽踽前行，还有很多同学在考研教室奋战最后的77天，生活中那兴奋的神态、淡然的神态、严肃的神态，这是何等的丰富多彩。但不幸的事情又一直发生：大火吞噬生命，大车碾压生命，凶徒掠夺生命，这一切让我只能唏嘘不已：叹无常，叹无常，几叹无常好凄凉。

还能说什么呢？一望着深深的夜幕，我就想起前几晚在祭拜烧纸钱时，天空中划过的几颗流星，孤独的瞬间绽放，一过而终，剩下的只是凝住流不动的黑色...愿亲人安息，愿身边人平安。

The post 无常 appeared first on 境由心生.