用概率论武装一下之后,同学们应该已经认识到,在“二十个问题”游戏中俺心里想的神秘数字其实就是一个随机变量 X。我们可以假设它的取值范围S={1, 2,…, M}和概率分布函数 P(x)都已知。当然在实际情况下我们未必真知道 P(x),但往往可以大致估计这个函数。如果对这个分布函数我们一无所知,我们不妨认为 P(x)是个均匀分布。
对于任意一个给定的问问题策略,如果俺心里的神秘数字是 x,我们把所需的问题个数记作 L(x)。比如 M=8,而我们用前面提到的那个从1问到7的策略问问题,我们就会得到:
L(1)=1, L(2)=2, L(3)=3, L(4)=4,
L(5)=5, L(6)=6, L(7)=7, L(8)=7。
(对,L(8)=7,俺没敲错。)
因为俺心里想的是个随机变量 X,在这个策略下所需要的问题数目 L(X)就也是个随机变量。这个随机变量 L(X)也有一个分布,在知道 P(x)的前提下,如果想算也是可以算出来的。但是俺懒得算它。
既然 L(X)是个随机变量,一个最自然的方式定义这个策略所需要的问题个数就是用这个随机变量的均值,或者说用平均所需要的问题个数。如果你的数字直觉好,应该可以看到,即使不求 L(X)的分布,这个随机变量的均值其实就是
L(1)*P(1)+L(2)*P(2)+…+L(M)*P(M).
用 L(X)的均值定义一个问问题策略所需要的问题个数除了“自然”,还有什么物理意义吗?当然!前面的大数定理告诉咱们,如果你用这个策略玩这个游戏很多次,你所用问题个数的平均值“几乎总是很接近”L(X)的均值。而当你玩了这个游戏无数次之后,你平均每次用的问题数就正好是这个 L(X)的均值。
由此可见,如果俺们准备玩这个游戏很多次,那么用 L(X)的均值定义所需要问题的个数,用金星老师的话说就是一个动作两个字:完美。
至此,俺们已经确定这个“二十个问题”游戏的准确规则,即:你要设计一种问问题的策略,当用这个策略跟俺玩很多次(更准确的说,无数次)这个游戏之后,平均每次用的问题个数要越少越好!换句话说,我们希望寻找一个最好的问问题策略,同时确定最少需要多少个问题(平均意义上)。