在香农独特的视角里,这个问题并不至关重要。在俺的想象中,当香农看到满屋子小朋友们叽叽喳喳地玩这个游戏的时候,他笑了笑,说:你们慢慢玩吧。然后他点起一支烟,凝视着窗外的远方。在落霞与孤鹜齐飞的秋色里,他看到了这个游戏的另一种设计。
既然用 L(X)的均值定义所需要问题的个数依赖于把这“二十个问题”游戏玩很多次,那么考虑一下这个游戏的一个变种,就是把这很多次游戏攒起来一起玩:俺拿出一张很长很长的纸条,然后随机想 n 个相互独立的神秘数字,X1, X2,…, Xn (每个数字的分布都是同一个定义在 S={1, 2,…, M}上的概率分布函数,P(x))。俺把这些数字一个一个地写到纸条上。这里 n 很大很大,所以纸条很长很长。然后你再来问俺“是不是”台或一百台电脑来。你问俺的问题要是计算太复杂,俺也可以去搬电脑来算。总之,咱们不用管计算有多复杂,俺俩都有无限的计算能力。在这个攒着玩的“二十个问题”游戏中,怎样的问问题策略才最优呢?最优的策略所需要的平均问题数目又是多少呢?
暂且先不讨论这个问题的答案,咱们先审视一下这个新的游戏设计的应用意义吧。
想象一下,俺写在纸条上的序列其实是俺刚写好的长篇小说(俺写下的每一个数其实对应于新华字典里的一个字),又或者俺写在纸条上的序列其实对应于俺长期夜观星象的结果,记录了不为人知的宇宙奥秘(俺写的每个数字都是对观测到的宇宙状态的描述)。在你问俺问题的时候,俺的回答将是一个长长的由Yes/No 组成的序列。如果把 Yes 记作 1,No 记作 0,俺的回答其实就是一个0/1组成的序列。
一个可以取 0/1 两个值的变量,或者一个可以储存 0/1 两种不同状态的存储单元,就是人们常说的比特(bit)。所以俺的回答其实就是一个比特序列。你希望用最少的问题就等同于要求这个比特序列最短,或者说要求用最少的比特数表示俺纸条上的内容。这个问题其实就是通信中的数据压缩问题!