5.1 事件(Events)
关键术语
- Outcome(结果)
指一次试验/选择的实际结果,即被选中的具体符号。
👉 类似 “掷骰子结果为 4 点” - Event(事件)
指一组可能结果的集合,满足某种性质。
👉 例如 “掷骰子点数为偶数”(集合 {2,4,6})
⚠️ 注意: - Outcome = 单个点
- Event = 包含若干 outcome 的集合
常见分类
- 基本事件 (Fundamental event)
就是单个 outcome,例如“选中某个具体学生” - 必然事件 (Universal event)
一定会发生的事件,即“必然会选中某个符号” - 空事件 (Null event)
永远不会发生的事件,相当于“没有任何结果” - 互斥事件 (Mutually exclusive)
两个事件不能在同一次试验里同时发生。
👉 例:新生“来自 Ohio”和“来自 California”是互斥的 - 穷尽事件 (Exhaustive events)
至少有一个事件必然会发生。
👉 例:事件“年龄 <25”或“年龄 >17”,两者合起来是穷尽的 - 划分 (Partition)
一组事件,既互斥又穷尽。
👉 例:事件“被选中的是男性”与“被选中的是女性”构成一个划分 - 粗粒度 / 细粒度划分 (Coarse-grained / Fine-grained partition)
- 粗粒度:事件较少,每个事件包含很多 outcome
- 细粒度:事件较多,更接近 outcome 本身
- 基本划分 (Fundamental partition) 就是最细的划分:由所有单个 outcome 构成
- “全集事件 + 空事件”就是最粗的划分
举例(MIT 新生场景)
- Outcome(结果):选中编号 2023 的某个具体新生
- Event(事件):
- “是女性”
- “来自 California”
- “身高超过 6 英尺”
- 复合事件:“来自 Texas 的女性”
数学直觉
- 事件本质上是 集合:
- 若 outcome ∈ 事件集合 → 事件发生
- 若 outcome ∉ 事件集合 → 事件不发生
5.2 已知结果(Known Outcomes)
核心思想
- 如果结果已知:
只需直接指出被选中的符号(outcome)
👉 例如 “这次掷骰子结果是 4 点” - 这时,你自然也知道哪些事件发生了(例如“点数为偶数”成立)
用概率形式来表达已知结果
虽然直接“点名”最简单,但为了能和未知结果的情况统一处理,我们引入 指示函数式概率表示:
- 设某个划分(partition)里有事件 $A_i$,编号 $i=0,1,\dots,n-1$。
- 定义概率:
$$
p(A_i) =
\begin{cases}
1, & \text{如果选中的 outcome 属于 } A_i, \\
0, & \text{否则}.
\end{cases}
$$
👉 也就是说,在已知结果的情况下,只有一个事件概率是 1,其他全是 0
特殊情况
- 必然事件 (Universal event):
因为它总会发生,所以 $p(\text{Universal}) = 1$ - 空事件 (Null event):
因为它不可能发生,所以 $p(\text{Null}) = 0$
直观理解
- 已知结果 = 概率退化成 0/1 值
- 在这种情境下,概率没有“不确定性”,而只是用来表示“是否发生”
举例(MIT 学生场景)
- 如果知道 outcome = 某位来自 California 的女新生:
- 事件“是女性”:$p=1$
- 事件“来自 California”:$p=1$
- 事件“是男性”:$p=0$
- 事件“来自 Texas”:$p=0$
数学直觉
- 已知结果 → 概率函数化为指示变量(0/1)
- 这种写法方便推广到 未知结果(在 5.3 会用到),因为那时 $p(A)$ 可以取 $[0,1]$ 之间的任意数
5.3 未知结果(Unknown Outcomes)
核心思想
- 当结果 尚未揭晓 或 我们还不知道 outcome 时:
- 概率不再是 0/1,而是介于 $[0,1]$ 的一个数,用来表达“相信事件发生的程度”
- 概率越大 → 越相信事件会发生;概率越小 → 越不相信事件会发生
- 主观性:不同观察者的知识不同,概率也可能不同
我的问题: “相信"从何谈起?
-
在 MIT 的讲义里,概率被解释为“我们对事件发生与否的知识状态”
-
如果 outcome 还未知,我们只能根据已知信息(比如统计数据、实验设计、抽样方式)来量化我们的不确定性
-
这种量化出来的数值,直观上就像是“我们有多大信心 / 多相信某件事会发生”
-
频率派角度:概率是长期重复试验中的相对频率
-
贝叶斯/信息论角度:概率是“我们对事件发生的信念强度”的数值表达
概率的基本公理
对于任意事件 $A$:
$$
0 \leq p(A) \leq 1
$$
如果事件 $A$ 由一组 互斥事件 $A_i$ 构成,则:
$$
p(A) = \sum_i p(A_i)
$$
特别地,对于任意划分(partition),由于必然事件概率为 1:
$$
\sum_i p(A_i) = 1
$$
举例(MIT 新生性别)
- 事件 $W$:“被选中的是女性”
- 若假设每个新生等可能被选中,则 $p(W) = 0.46$
- 事件 $CA$:“被选中的是来自 California 的学生”
- $p(CA)$ 取决于统计比例
- 如果选择方式改变(例如只在女生宿舍走廊选人),则 $p(W)$ 会变大
概率分布(Probability distribution)
- 给定一个划分 ${A_1, A_2, \dots, A_n}$,每个事件都有对应概率 $p(A_i)$
- 这组概率称为 概率分布,满足:
$$
0 \leq p(A_i) \leq 1, \quad \sum_{i=1}^n p(A_i) = 1
$$
数学直觉
- 已知结果:概率退化为 $0$ 或 $1$(见 5.2)
- 未知结果:概率取值在 $[0,1]$,用来表达 不确定性
5.4 联合事件与条件概率(Joint Events and Conditional Probabilities)
核心思想
- 我们关心 两个性质同时成立 的概率,例如:
- MIT 新生既是“女性”又是“来自 Texas”
- 用 $p(W, TX)$ 表示
- 问题:知道 $p(W)$ 和 $p(TX)$,能否推出 $p(W, TX)$?
- 不能,除非假设它们相互独立
独立性(Independence)
- 定义:如果两个事件相互独立,则
$p(A,B) = p(A),p(B)$ - 例子:若“女性”和“来自 Texas”独立,则
$$ p(W,TX) = p(W)\,p(TX)$$ $$
条件概率(Conditional Probability)
- 一般情况下,事件并不独立,需要用条件概率:
$p(A|B)$ = 在事件 $B$ 已知发生的前提下,事件 $A$ 发生的概率 - 定义公式:
$p(A,B) = p(B),p(A|B) = p(A),p(B|A)$
Bayes 定理(Bayes’ Theorem)
- 上式可以互换,得到 贝叶斯公式:
$p(A|B) = \frac{p(A,B)}{p(B)} \quad\quad p(B|A) = \frac{p(A,B)}{p(A)}$ - 通用性:
- 不要求因果关系
- 无论事件有关/无关,都成立
数学直觉
- 联合概率 = “某个条件成立” × “在此条件下另一个条件成立的概率”
- Bayes 定理是整个概率推理的基础,在信息论中会经常使用
5.5 平均值(Averages)
核心思想
- 有时我们关心的不是“事件是否发生”,而是 某个数值属性的期望(平均值)
- 例如:随机选中一位 MIT 新生,我们想知道 平均身高
- 即便不知道具体 outcome,也能通过概率分布计算 期望值
定义(期望值 / Expected Value)
设划分 ${A_i}$ 中每个事件 $A_i$ 对应一个数值属性 $h_i$(如身高),则平均值为:
$$
H_{\text{av}} = \sum_i p(A_i)\,h_i
$$
即:加权平均(概率作为权重)
举例
- 如果 outcome 已知 → 可以直接查对应的 $h_i$
- 如果 outcome 未知 → 只能通过概率分布算加权平均
更一般的情况(分组平均)
- 例如:我们想算“男生平均身高”和“女生平均身高”
- 先在 更细的划分(每个学生) 上计算,再聚合
- 条件概率表示:
男生平均身高:
$$
H_{\text{av}}(M) = \sum_i p(A_i|M)\,h_i
$$
女生平均身高:
$$
H_{\text{av}}(W) = \sum_i p(A_i|W)\,h_i
$$
全体新生平均身高(按男女加权):
$$
H_{\text{av}} = p(M)\,H_{\text{av}}(M) + p(W)\,H_{\text{av}}(W)
$$
数学直觉
- 期望值 = “先算细粒度,再通过概率加权回到粗粒度”
- 这就是 全期望公式(law of total expectation) 的思想
- 在信息论中,这种加权平均方法会反复出现(如熵的定义)
好的👌,继续按照你喜欢的笔记风格整理 5.6 信息(Information)。这一节是非常关键的:信息量和熵的定义。
5.6 信息(Information)
核心思想
- 我们希望定量描述:在 outcome 未知时,我们有多少不确定性;一旦 outcome 被揭晓,我们获得了多少信息
- 直观:
- 如果 outcome 完全确定(概率=1),知道结果不会带来任何新信息
- 如果 outcome 完全未知且等可能,知道结果会带来最大的信息量
单次 outcome 的信息量
设某个 outcome 属于事件 $A_i$,其概率为 $p(A_i)$。
定义从该 outcome 中学到的信息量为:
$$
I(A_i) = \log_2 \frac{1}{p(A_i)}
$$
- 解释:概率越小 → 结果越“稀有” → 信息量越大
- 特殊情况:
- 如果 $p(A_i)=1$(必然事件),则 $I(A_i)=0$,因为没有新信息
- 如果 $p(A_i)$ 很小,则 $I(A_i)$ 很大,说明知道这个结果非常有价值
平均信息量 = 熵(Entropy)
在 outcome 未知之前,我们不知道具体是哪一个事件,只能计算平均信息量:
$$
H = \sum_i p(A_i)\,\log_2 \frac{1}{p(A_i)}
$$
- $H$ 就是 熵(Entropy)
- 单位:比特(bits),因为底数取 2
- 本质:每次选符号平均能带来多少 bit 信息
性质
-
熵 $H \geq 0$
-
如果有 $n$ 个等可能事件:
$$$$
H = \log_2 n
$$
(最大值,所有结果等可能 → 最不确定)
-
如果有两个结果,概率 $p$ 和 $1-p$,则:
-
$$
$$
H(p) = -p\log_2 p - (1-p)\log_2 (1-p)
$$
在 $p=0.5$ 时达到最大值 1 bit
### 举例
1. **抛硬币(公平)**
- $p(正)=0.5, ; p(反)=0.5$
- 熵 $H=1$ bit
- 每次抛硬币可以提供 1 bit 信息
2. **抛硬币(偏置)**
- $p(正)=0.9, ; p(反)=0.1$
- 熵 $H \approx 0.469$ bits
- 因为大部分时候都猜中,信息量更少
### 数学直觉
- **信息量 = 稀有度**:越罕见的结果越有信息
- **熵 = 平均信息量**:越接近均匀分布,熵越大 → 不确定性越强
- **确定性 = 信息量为零**:如果 outcome 已知(概率=1),学不到新东西
## 5.7 信息的性质(Properties of Information)
### 核心思想
- 信息量(Information)和熵(Entropy)是可以像物理量一样处理的
- 信息的单位依赖于 **对数的底数**
- 信息量的大小和事件的概率分布直接相关
### 信息的度量单位
- 信息公式:
- $$
I = \sum_i p(A_i)\,\log_b \frac{1}{p(A_i)}$$
- 底数 $b$ 不同 → 单位不同:
- $b=2$ → 单位是 **bit**(常用)
- $b=e$ → 单位是 **nat**(自然对数,理论分析常见)
- $b=10$ → 单位是 **hartley**(较少用)
- 不同单位之间可以换算,例如:
$$
\log_b(x) = \frac{\log_2(x)}{\log_2(b)}
$$
二元分布的熵
如果只有两个事件,概率分别是 $p$ 和 $1-p$:
$$
H(p) = -p\log_2 p - (1-p)\log_2(1-p)
$$
- 当 $p=0.5$ 时,熵最大 = 1 bit
- 当 $p=0$ 或 $p=1$ 时,熵最小 = 0 bit(完全确定)
- 在 $0.4 \leq p \leq 0.6$ 区间,熵接近 1 bit
说明:信息量在最均衡时最高,越偏向一边,熵就下降
多元分布的熵
- 如果有 $n$ 个可能事件:
$$ 0 \leq H \leq \log_2 $$
$$
- **最大熵**:当所有事件等可能时($p_i = 1/n$),
$$
H = \log_2 n
$$
- 最小熵:当某个事件概率=1,其余=0,
$H = 0$
举例
- 公平骰子(6 个等可能结果)
- 熵 $H = \log_2 6 \approx 2.585$ bits
- 每次掷骰子平均能提供 2.585 bit 信息
- 不公平骰子(某面几乎必出)
- 熵接近 0,因为几乎没有不确定性
数学直觉
- 最大熵 = 最大不确定性(等可能 → 最难预测)
- 最小熵 = 完全确定(结果已知 → 没有信息)
- 熵本质上就是“不确定性的平均刻度”
5.8 高效源编码(Efficient Source Coding)
核心思想
- 前面学了:熵 $H$ 表示每个符号的平均信息量
- 问题:实际通信中,用多少比特来表示一个符号?
- 目标:设计一种 编码方式,让平均码长尽可能接近熵 $H$
固定长度编码的局限
- 如果有 $n$ 个可能符号,固定长度编码需要 $\lceil \log_2 n \rceil$ 比特/符号
- 例如:5 种成绩(A,B,C,D,F) → 需要 3 比特(因为 $2^3=8 \geq 5$)
- 但这比真实熵 $H$ 要大很多(尤其当分布不均匀时)
变长编码(Variable-length Codes)
- 思路:高概率的符号 → 分配更短的码字;低概率的符号 → 分配更长的码字
- 类似自然语言里,常用的词更短(如“a”,“the”),罕见词更长
前缀码(Prefix-free Codes)
- 要求:没有一个码字是另一个码字的前缀
- 好处:接收端可以即时解码,不需要分隔符
- 例子:摩尔斯电码就是一种前缀码。
Huffman 编码(Huffman Coding)
- 一种构造前缀码的算法,保证平均码长最小
- 性质:
- 平均码长 $L$ 满足
$$ H \leq L < H + 1 $$ $$
- 即 Huffman 编码的效率非常接近熵
- 平均码长 $L$ 满足
举例:MIT 成绩分布
- 符号:A, B, C, D, F
- 概率分布(示例):A=0.35, B=0.25, C=0.2, D=0.15, F=0.05
- 熵:$ H \approx 1.84 \ \text{bits/symbol}$
- Huffman 编码:平均码长
-
$$ L=1.875 bits/symbolL = 1.875 \ \text{bits/symbol} $$ $$
- 结果:平均码长几乎等于熵,远小于固定长度的 3 bits
工程意义
- 高效源编码使得实际存储/传输接近理论极限
- Huffman 码在数据压缩(如 JPEG, MP3)里广泛使用
- 更复杂的情况可用 算术编码 (Arithmetic Coding),其平均长度甚至能无限接近熵
数学直觉
- 熵 = 理论下限(不能低于它)
- Huffman = “几乎最优”的实际算法
- 平均码长 $L$ 总是满足:
$$ H \leq L < H+1 $$
$$
#### 我的问题: 这里为什么一定是 1 ?
- “**1**” 的来源就是对数取整:
- 每个 $-\log_2 p_i$ 向上取整,误差最多是 1
- 所以平均码长的冗余(Redundancy)上界就是 1 bit
- 不可能更大(不会所有符号都刚好损失超过 1)
- 也不可能更小(某些概率分布下,确实会逼近 $H+1$ 的极限)
$$