【6.050J】CH 5 - Probability

5.1 事件（Events）

关键术语

Outcome（结果）
指一次试验/选择的实际结果，即被选中的具体符号。
👉 类似 “掷骰子结果为 4 点”
Event（事件）
指一组可能结果的集合，满足某种性质。
👉 例如 “掷骰子点数为偶数”（集合 {2,4,6}）
⚠️ 注意：
Outcome = 单个点
Event = 包含若干 outcome 的集合

常见分类

基本事件 (Fundamental event)
就是单个 outcome，例如“选中某个具体学生”
必然事件 (Universal event)
一定会发生的事件，即“必然会选中某个符号”
空事件 (Null event)
永远不会发生的事件，相当于“没有任何结果”
互斥事件 (Mutually exclusive)
两个事件不能在同一次试验里同时发生。
👉 例：新生“来自 Ohio”和“来自 California”是互斥的
穷尽事件 (Exhaustive events)
至少有一个事件必然会发生。
👉 例：事件“年龄 <25”或“年龄 >17”，两者合起来是穷尽的
划分 (Partition)
一组事件，既互斥又穷尽。
👉 例：事件“被选中的是男性”与“被选中的是女性”构成一个划分
粗粒度 / 细粒度划分 (Coarse-grained / Fine-grained partition)
- 粗粒度：事件较少，每个事件包含很多 outcome
- 细粒度：事件较多，更接近 outcome 本身
- 基本划分 (Fundamental partition) 就是最细的划分：由所有单个 outcome 构成
- “全集事件 + 空事件”就是最粗的划分

举例（MIT 新生场景）

Outcome（结果）：选中编号 2023 的某个具体新生
Event（事件）：
- “是女性”
- “来自 California”
- “身高超过 6 英尺”
- 复合事件：“来自 Texas 的女性”

数学直觉

事件本质上是集合：
- 若 outcome ∈ 事件集合 → 事件发生
- 若 outcome ∉ 事件集合 → 事件不发生

5.2 已知结果（Known Outcomes）

核心思想

如果结果已知：
只需直接指出被选中的符号（outcome）
👉 例如 “这次掷骰子结果是 4 点”
这时，你自然也知道哪些事件发生了（例如“点数为偶数”成立）

用概率形式来表达已知结果

虽然直接“点名”最简单，但为了能和未知结果的情况统一处理，我们引入 指示函数式概率表示：

设某个划分（partition）里有事件 $A_i$，编号 $i=0,1,\dots,n-1$。
定义概率：

$$ p(A_i) = \begin{cases} 1, & \text{如果选中的 outcome 属于 } A_i, \\ 0, & \text{否则}. \end{cases} $$

👉 也就是说，在已知结果的情况下，只有一个事件概率是 1，其他全是 0

特殊情况

必然事件 (Universal event)：
因为它总会发生，所以 $p(\text{Universal}) = 1$
空事件 (Null event)：
因为它不可能发生，所以 $p(\text{Null}) = 0$

直观理解

已知结果 = 概率退化成 0/1 值
在这种情境下，概率没有“不确定性”，而只是用来表示“是否发生”

举例（MIT 学生场景）

如果知道 outcome = 某位来自 California 的女新生：
- 事件“是女性”：$p=1$
- 事件“来自 California”：$p=1$
- 事件“是男性”：$p=0$
- 事件“来自 Texas”：$p=0$

数学直觉

已知结果 → 概率函数化为指示变量（0/1）
这种写法方便推广到 未知结果（在 5.3 会用到），因为那时 $p(A)$ 可以取 $[0,1]$ 之间的任意数

5.3 未知结果（Unknown Outcomes）

核心思想

当结果 尚未揭晓 或 我们还不知道 outcome 时：
- 概率不再是 0/1，而是介于 $[0,1]$ 的一个数，用来表达“相信事件发生的程度”
概率越大 → 越相信事件会发生；概率越小 → 越不相信事件会发生
主观性：不同观察者的知识不同，概率也可能不同

我的问题: “相信"从何谈起?

在 MIT 的讲义里，概率被解释为“我们对事件发生与否的知识状态”
如果 outcome 还未知，我们只能根据已知信息（比如统计数据、实验设计、抽样方式）来量化我们的不确定性
这种量化出来的数值，直观上就像是“我们有多大信心 / 多相信某件事会发生”
频率派角度：概率是长期重复试验中的相对频率
贝叶斯/信息论角度：概率是“我们对事件发生的信念强度”的数值表达

概率的基本公理

对于任意事件 $A$：

$$ 0 \leq p(A) \leq 1 $$

如果事件 $A$ 由一组 互斥事件 $A_i$ 构成，则：

$$ p(A) = \sum_i p(A_i) $$

特别地，对于任意划分（partition），由于必然事件概率为 1：

$$ \sum_i p(A_i) = 1 $$

举例（MIT 新生性别）

事件 $W$：“被选中的是女性”
- 若假设每个新生等可能被选中，则 $p(W) = 0.46$
事件 $CA$：“被选中的是来自 California 的学生”
- $p(CA)$ 取决于统计比例
如果选择方式改变（例如只在女生宿舍走廊选人），则 $p(W)$ 会变大

概率分布（Probability distribution）

给定一个划分 ${A_1, A_2, \dots, A_n}$，每个事件都有对应概率 $p(A_i)$
这组概率称为 概率分布，满足：

$$ 0 \leq p(A_i) \leq 1, \quad \sum_{i=1}^n p(A_i) = 1 $$

数学直觉

已知结果：概率退化为 $0$ 或 $1$（见 5.2）
未知结果：概率取值在 $[0,1]$，用来表达 不确定性

5.4 联合事件与条件概率（Joint Events and Conditional Probabilities）

核心思想

我们关心 两个性质同时成立 的概率，例如：
- MIT 新生既是“女性”又是“来自 Texas”
- 用 $p(W, TX)$ 表示
问题：知道 $p(W)$ 和 $p(TX)$，能否推出 $p(W, TX)$？
- 不能，除非假设它们相互独立

独立性（Independence）

定义：如果两个事件相互独立，则
$p(A,B) = p(A),p(B)$
例子：若“女性”和“来自 Texas”独立，则
$$ p(W,TX) = p(W)\,p(TX)$$ $$

条件概率（Conditional Probability）

一般情况下，事件并不独立，需要用条件概率：
$p(A|B)$ = 在事件 $B$ 已知发生的前提下，事件 $A$ 发生的概率
定义公式：
$p(A,B) = p(B),p(A|B) = p(A),p(B|A)$

Bayes 定理（Bayes’ Theorem）

上式可以互换，得到 贝叶斯公式：
$p(A|B) = \frac{p(A,B)}{p(B)} \quad\quad p(B|A) = \frac{p(A,B)}{p(A)}$
通用性：
- 不要求因果关系
- 无论事件有关/无关，都成立

数学直觉

联合概率 = “某个条件成立” × “在此条件下另一个条件成立的概率”
Bayes 定理是整个概率推理的基础，在信息论中会经常使用

5.5 平均值（Averages）

核心思想

有时我们关心的不是“事件是否发生”，而是 某个数值属性的期望（平均值）
例如：随机选中一位 MIT 新生，我们想知道 平均身高
即便不知道具体 outcome，也能通过概率分布计算 期望值

定义（期望值 / Expected Value）

设划分 ${A_i}$ 中每个事件 $A_i$ 对应一个数值属性 $h_i$（如身高），则平均值为：

$$ H_{\text{av}} = \sum_i p(A_i)\,h_i $$

即：加权平均（概率作为权重）

举例

如果 outcome 已知 → 可以直接查对应的 $h_i$
如果 outcome 未知 → 只能通过概率分布算加权平均

更一般的情况（分组平均）

例如：我们想算“男生平均身高”和“女生平均身高”
先在 更细的划分（每个学生） 上计算，再聚合
条件概率表示：
男生平均身高：

$$ H_{\text{av}}(M) = \sum_i p(A_i|M)\,h_i $$

女生平均身高：

$$ H_{\text{av}}(W) = \sum_i p(A_i|W)\,h_i $$

全体新生平均身高（按男女加权）：

$$ H_{\text{av}} = p(M)\,H_{\text{av}}(M) + p(W)\,H_{\text{av}}(W) $$

数学直觉

期望值 = “先算细粒度，再通过概率加权回到粗粒度”
这就是 全期望公式（law of total expectation） 的思想
在信息论中，这种加权平均方法会反复出现（如熵的定义）
好的👌，继续按照你喜欢的笔记风格整理 5.6 信息（Information）。这一节是非常关键的：信息量和熵的定义。

5.6 信息（Information）

核心思想

我们希望定量描述：在 outcome 未知时，我们有多少不确定性；一旦 outcome 被揭晓，我们获得了多少信息
直观：
- 如果 outcome 完全确定（概率=1），知道结果不会带来任何新信息
- 如果 outcome 完全未知且等可能，知道结果会带来最大的信息量

单次 outcome 的信息量

设某个 outcome 属于事件 $A_i$，其概率为 $p(A_i)$。
定义从该 outcome 中学到的信息量为：

$$ I(A_i) = \log_2 \frac{1}{p(A_i)} $$

解释：概率越小 → 结果越“稀有” → 信息量越大
特殊情况：
- 如果 $p(A_i)=1$（必然事件），则 $I(A_i)=0$，因为没有新信息
- 如果 $p(A_i)$ 很小，则 $I(A_i)$ 很大，说明知道这个结果非常有价值

平均信息量 = 熵（Entropy）

在 outcome 未知之前，我们不知道具体是哪一个事件，只能计算平均信息量：

$$ H = \sum_i p(A_i)\,\log_2 \frac{1}{p(A_i)} $$

$H$ 就是熵（Entropy）
单位：比特（bits），因为底数取 2
本质：每次选符号平均能带来多少 bit 信息

性质

熵 $H \geq 0$
如果有 $n$ 个等可能事件：

$$
$$

H = \log_2 n
$$
（最大值，所有结果等可能 → 最不确定）

如果有两个结果，概率 $p$ 和 $1-p$，则：
$$
$$

H(p) = -p\log_2 p - (1-p)\log_2 (1-p)

$$ 在 $p=0.5$ 时达到最大值 1 bit ### 举例 1. **抛硬币（公平）** - $p(正)=0.5, ; p(反)=0.5$ - 熵 $H=1$ bit - 每次抛硬币可以提供 1 bit 信息 2. **抛硬币（偏置）** - $p(正)=0.9, ; p(反)=0.1$ - 熵 $H \approx 0.469$ bits - 因为大部分时候都猜中，信息量更少 ### 数学直觉 - **信息量 = 稀有度**：越罕见的结果越有信息 - **熵 = 平均信息量**：越接近均匀分布，熵越大 → 不确定性越强 - **确定性 = 信息量为零**：如果 outcome 已知（概率=1），学不到新东西 ## 5.7 信息的性质（Properties of Information） ### 核心思想 - 信息量（Information）和熵（Entropy）是可以像物理量一样处理的 - 信息的单位依赖于 **对数的底数** - 信息量的大小和事件的概率分布直接相关 ### 信息的度量单位 - 信息公式： - $$ I = \sum_i p(A_i)\,\log_b \frac{1}{p(A_i)}$$ - 底数 $b$ 不同 → 单位不同： - $b=2$ → 单位是 **bit**（常用） - $b=e$ → 单位是 **nat**（自然对数，理论分析常见） - $b=10$ → 单位是 **hartley**（较少用） - 不同单位之间可以换算，例如： $$ \log_b(x) = \frac{\log_2(x)}{\log_2(b)} $$

二元分布的熵

如果只有两个事件，概率分别是 $p$ 和 $1-p$：

$$ H(p) = -p\log_2 p - (1-p)\log_2(1-p) $$

当 $p=0.5$ 时，熵最大 = 1 bit
当 $p=0$ 或 $p=1$ 时，熵最小 = 0 bit（完全确定）
在 $0.4 \leq p \leq 0.6$ 区间，熵接近 1 bit

说明：信息量在最均衡时最高，越偏向一边，熵就下降

多元分布的熵

如果有 $n$ 个可能事件：
$$ 0 \leq H \leq \log_2 $$

$$ - **最大熵**：当所有事件等可能时（$p_i = 1/n$）， $$ H = \log_2 n $$

最小熵：当某个事件概率=1，其余=0，
$H = 0$

举例

公平骰子（6 个等可能结果）
- 熵 $H = \log_2 6 \approx 2.585$ bits
- 每次掷骰子平均能提供 2.585 bit 信息
不公平骰子（某面几乎必出）
- 熵接近 0，因为几乎没有不确定性

数学直觉

最大熵 = 最大不确定性（等可能 → 最难预测）
最小熵 = 完全确定（结果已知 → 没有信息）
熵本质上就是“不确定性的平均刻度”

5.8 高效源编码（Efficient Source Coding）

核心思想

前面学了：熵 $H$ 表示每个符号的平均信息量
问题：实际通信中，用多少比特来表示一个符号？
目标：设计一种 编码方式，让平均码长尽可能接近熵 $H$

固定长度编码的局限

如果有 $n$ 个可能符号，固定长度编码需要 $\lceil \log_2 n \rceil$ 比特/符号
例如：5 种成绩（A,B,C,D,F） → 需要 3 比特（因为 $2^3=8 \geq 5$）
但这比真实熵 $H$ 要大很多（尤其当分布不均匀时）

变长编码（Variable-length Codes）

思路：高概率的符号 → 分配更短的码字；低概率的符号 → 分配更长的码字
类似自然语言里，常用的词更短（如“a”，“the”），罕见词更长

前缀码（Prefix-free Codes）

要求：没有一个码字是另一个码字的前缀
好处：接收端可以即时解码，不需要分隔符
例子：摩尔斯电码就是一种前缀码。

Huffman 编码（Huffman Coding）

一种构造前缀码的算法，保证平均码长最小
性质：
- 平均码长 $L$ 满足
  $$ H \leq L < H + 1 $$ $$
- 即 Huffman 编码的效率非常接近熵

举例：MIT 成绩分布

符号：A, B, C, D, F
概率分布（示例）：A=0.35, B=0.25, C=0.2, D=0.15, F=0.05
熵：$ H \approx 1.84 \ \text{bits/symbol}$
Huffman 编码：平均码长
$$ L=1.875 bits/symbolL = 1.875 \ \text{bits/symbol} $$ $$
结果：平均码长几乎等于熵，远小于固定长度的 3 bits

工程意义

高效源编码使得实际存储/传输接近理论极限
Huffman 码在数据压缩（如 JPEG, MP3）里广泛使用
更复杂的情况可用 算术编码 (Arithmetic Coding)，其平均长度甚至能无限接近熵

数学直觉

熵 = 理论下限（不能低于它）
Huffman = “几乎最优”的实际算法
平均码长 $L$ 总是满足：
$$ H \leq L < H+1 $$

$$ #### 我的问题: 这里为什么一定是 1 ? - “**1**” 的来源就是对数取整： - 每个 $-\log_2 p_i$ 向上取整，误差最多是 1 - 所以平均码长的冗余（Redundancy）上界就是 1 bit - 不可能更大（不会所有符号都刚好损失超过 1） - 也不可能更小（某些概率分布下，确实会逼近 $H+1$ 的极限）