用不确定性,信息量,或平均惊奇度来理解熵,都只是给它赋予一个直觉的解释。平均最小编码长度才是对熵的数学理解。但这种理解并不能体现出大数定理在熵的定义里所起的决定性作用以及“二十个问题”游戏必须攒着玩才能实现最短问题数等于熵值的深刻认识。在大数定理的情怀下,熵值 H(X)还有另一个数学解释: H(X)是典型序列的总数随序列长度的“翻倍速率”。看,长度为 n 的典型序列总数 T 差不多是 2^(nH(X));也就是说,每当序列长度 n 增加 1, T 就增大 2^(H(X))倍,或者说,翻倍翻了 H(X)次。所以把熵理解为典型序列总数的翻倍速率才能真正体现熵的数学本质。当然,这样的理解就离韩剧更加遥远了。
熵,或英文里的entropy,本来源于物理中的热力学,用来描写系统的“混乱度”。香农在定义信息熵的时候借用了这个词。虽然俺经常夜观星象,也能在夜空没有雾霾的时候认出北斗星,但对宇宙、相对论,或是热力学,都一窍不通。所以俺就不试图解释物理熵和信息熵的联系了。