一个并不麻烦的古典概率题

很久没有更新博客了,主要最近到了考试周,忙于复习,虽然有一些想写的东西,但是时间的缘故,就只好暂且搁置着了。但今天复习概率论时,又想起了很久前遇到的一个题,仍然没有一个好的解答,虽然今天想的时候,已经有了一些新的想法,特别对概率空间这个概念有了更深的认识,但对这道题仍然是感到很模糊,已经有被折磨仙仙欲死之感,故赶紧拿出来与大家探讨。

在古典概率中,我们经常遇到一种模型。题目如下:将 r 个球放到 n 个盒子中,恰有 m 个空盒子的概率是多少?

看到这样的题,我们第一反应是什么呢?
我想大部分人会有如下的想法。首先有 n^r 种的情况,我们要求的情形:首先取出 m 个空盒,这样有 binom{n}{m} 种情况,然后剩下的 n-m 个盒子全部都有球,那这个情况有多少种呢,这个时候,麻烦的事情就来了。有些人会给出这样的情况 binom{r-1}{n-m-1},意思就是将 r 个球分成 n-m 堆;还有人可能这样想,先给每个盒子放一个球,然后其余的球随便放;也许还有人想,剩下的盒子都必须不空,这个不太好求,那我就求他的对立事件,至少有一个空盒子吧,也许可能还有其他的想法…
但是如果上来,没有对这个题的题目进行思考就像上面那样进行求解,,那我们怎么做这道题都是错的。因为这说明我们对概率空间这个概念还没有捋清楚。而这道题中的样本空间确实根本没有说清楚,我们是无法一概而论的。

这道题要分成了四种情况讨论:

  1. 球、盒均不可辨。
  2. 球、盒均可辨。
  3. 球可辨,盒子不可辨。
  4. 盒子可辨,球不可辨。

而这样一分后,我们就可以清楚地看到,他们之间的样本空间确实是不一样的,当然 sigma 域也不一样。(我们可以用暴力算法进行验证下,比如 3 个球,2 个盒子)

一般来想,最后一种情况其实是最好解决的,即盒子可辨,球不可辨。求解如下:
样本空间有样本点数是 binom{r+n-1}{n-1},即最终可以分辨的结果总数。有效的样本数量是 binom{n}{m}binom{r-1}{n-m-1}, 然后相除即可得相应的概率。这种结果在许多书上都有讲解。意思也非常好理解,方法就是用到了我们高中曾经常提到的第一、二隔板法。

我们再对生活中常见的第二种情况进行求解,即盒子与球都可辨。而这也是我们中很多人上来就说总的情况数有 n^2 的那种情形的求解。
这个复杂些,他的样本空间有样本点数为 n^r,即每一种排列都是不同的(假使我们将球进行全排),然后也是先从 n 个盒子中挑选出 m 个空盒,然后再对另外 n-m 个空盒均有球的情况下进行求解,而这也正是求解的复杂之处。这个的求解方法前面提到过,就是求对立事件。先求至少有一个盒子是空的,然后在推广到 n-m 个盒子空的。此时 r 个球,n 个盒子,至少有一个盒子是空的概率,这个大部分人还是会求解的,用到的方法就是我们常用的概率一般加法公式。具体过程就不在写了,然后可以得出对立事件没有盒子空的概率,

p(r,n)=sum_{v=0}^{n}(-1)^vbinom{n}{v}(1-frac{v}{n})^r

然后推广到 n-m 个盒子不空,分布的个数有 (n-m)^rp(r,n-m),然后乘以之前的binom{n}{m},得出的结果为

binom{n}{m}sum_{v=0}^{n-m}(-1)^vbinom{n-m}{v}(1-frac{m+v}{n})^v


其余的两种情况就不讨论了,思想是一样的,但是求解起来,第一种应该是最难的了,似乎很糊涂,而第三种情况单个具体情况的计算还比较好,但是要写出通式来,似乎也是一件很麻烦的事情,能力有限,就不做进一步求解了,当然大家可以继续求解。

说到这,下面我们谈谈在统计物理学中的几个统计。

麦克斯韦-波尔兹曼统计:研究的球是可辨的(在物理中,粒子的性质是不同的,经典统计中,认为粒子是可辨的,他适用于经典粒子系统,如气液固中的原子分子,布朗粒子等)。

波色-爱因斯坦统计:球是不可辨的(在物理由量子力学统治的微观世界中,同类粒子的是绝对不可辨的,即微观粒子的全同性。而不同类粒子,就相当于不同(可辨)的盒子)。

费米-狄拉克统计:在微观世界中,粒子也是不可辨的。在宏观世界中就等同于此类模型:印刷错误,此时错误都是不可辨的,而一个字母最多只可有一个错误。

回到这道题,麦克斯韦-波尔兹曼统计对应的是第二种情形,波色-爱因斯坦统计对应的是第四种情形,而费米-狄拉克统计是第四种情形中的一种特殊情况。

这些统计就是古典概率中比较典型的例子,对于上面的这道题,如果没有对等可能性理解清楚,很可能就出现了悖论,出现多个答案。而这个在古典概率中是很容易犯这样的错误的。比如非常著名的Bertrand奇论,等可能性不同的定义,导致了完全不同的答案。因此这也正导致概率公理化的必要了。
抽象空间中,首先有样本空间这个理论基础,即所有样本点构成的集合;然后有了 sigma 域,有封闭运算的基础,再加上域中的规范测度,对其中 sigma 域中的事件发生提供度量工具,这样一个概率空间就完整而严密的建立起来,没有像等可能性那样任何模糊的描述。

另外,我也对可辨与不可辨这个问题有了新的认识,费勒《概率论及其应用》(第3版),(注:我主要是参考这本权威的书籍)中对可辨与不可辨的区别解说是“类似于子总体与相应有序样本之间的关系”。换句话说就是组合中,一个组内部的元素相互之间是不可辨的,而不同组间的元素的可辨性又依赖于盒子的可辨性(有序样本)。但这样的解释过于理论化,我也被这样的解释弄糊涂了半天。其实用最简单的话解释就是把这个元素和其他的元素换位子,如果对整体的排列没有影响就是不可辨的,有影响就是可辨的。从而也就解释了第二种情况每个盒子内部的球是不可变辨的,而整体所有球还是可辨的。这样的解释可能更让我这样的人更易懂,更浅显些吧。

最后依然对以上仍残留的两种情况对费勒的书中提出一点疑问:
对于盒子不可辨,球可辨的具体情况,费勒给出了 7 球,7 盒子的例子。其中一种情况是占位数为 2211100 的分布。因为球可辨,盒子不可辨,可知这样的不同的分布有 frac{7!}{2!3!2!}frac{7!}{2!2!} 种,然后除以 7^7。这里,我用 3 球,3 盒子的情况进行了比较判断,如果出现 111 的分布,按费勒算的结果是 2/9,但是如果我们进行暴力求解,列出所有可能的情况,我写出了 5 种情况(盒子不可辨,球可辨),因此我算出来的结果是 1/5,与这个有很大的出入,我想问题可能依然是等可能性的判断与可辨与不可辨引起的,但是暂时仍没有太好的理解,已经被古典概率中的模糊性打昏了头脑,故希望与大家探讨。

到此,叹一句,古典概率挺难的!期末临近,概率论仍需努力!
哎,时间不待人,考试快结束吧…

  1. 理论文章,崇拜下。原来这个问题还可以这样条分缕析,联系统计物理写出来感觉不错,可惜我的物理都快忘没了。我觉得造成古典概率的模糊性要归咎于语言的模糊性,所以古典概率研究到最后引入测度论和代数中的一些理论来研究是很好的,脱离了语言形式的数学是更纯粹的数学。这个问题如果还是有问题也说不定可以和我们学校概率所的人探讨一下 :-)

    另:看来费勒的教材确实不错,Ross的First Course in Probability就没有这么详细,几乎“全是和赌博有关的问题”。

    • 费勒的书还行吧,感觉不是那么的“友好”...ROSS说不定好多了,赌博好呀,以后就知道怎么赚钱了。

      古典概率只要说清楚了就可以了,但是很多时候话的意思都是默认,我们如果不按常理出牌,就会走偏了