Featured image of post 【6.050J】CH 5 - Probability

【6.050J】CH 5 - Probability

5.1 事件(Events)

关键术语

  • Outcome(结果)
    指一次试验/选择的实际结果,即被选中的具体符号。
    👉 类似 “掷骰子结果为 4 点”
  • Event(事件)
    指一组可能结果的集合,满足某种性质。
    👉 例如 “掷骰子点数为偶数”(集合 {2,4,6})
    ⚠️ 注意:
  • Outcome = 单个点
  • Event = 包含若干 outcome 的集合

常见分类

  1. 基本事件 (Fundamental event)
    就是单个 outcome,例如“选中某个具体学生”
  2. 必然事件 (Universal event)
    一定会发生的事件,即“必然会选中某个符号”
  3. 空事件 (Null event)
    永远不会发生的事件,相当于“没有任何结果”
  4. 互斥事件 (Mutually exclusive)
    两个事件不能在同一次试验里同时发生。
    👉 例:新生“来自 Ohio”和“来自 California”是互斥的
  5. 穷尽事件 (Exhaustive events)
    至少有一个事件必然会发生。
    👉 例:事件“年龄 <25”或“年龄 >17”,两者合起来是穷尽的
  6. 划分 (Partition)
    一组事件,既互斥又穷尽
    👉 例:事件“被选中的是男性”与“被选中的是女性”构成一个划分
  7. 粗粒度 / 细粒度划分 (Coarse-grained / Fine-grained partition)
    • 粗粒度:事件较少,每个事件包含很多 outcome
    • 细粒度:事件较多,更接近 outcome 本身
    • 基本划分 (Fundamental partition) 就是最细的划分:由所有单个 outcome 构成
    • “全集事件 + 空事件”就是最粗的划分

举例(MIT 新生场景)

  • Outcome(结果):选中编号 2023 的某个具体新生
  • Event(事件)
    • “是女性”
    • “来自 California”
    • “身高超过 6 英尺”
    • 复合事件:“来自 Texas 的女性”

数学直觉

  • 事件本质上是 集合
    • 若 outcome ∈ 事件集合 → 事件发生
    • 若 outcome ∉ 事件集合 → 事件不发生

5.2 已知结果(Known Outcomes)

核心思想

  • 如果结果已知
    只需直接指出被选中的符号(outcome)
    👉 例如 “这次掷骰子结果是 4 点”
  • 这时,你自然也知道哪些事件发生了(例如“点数为偶数”成立)

用概率形式来表达已知结果

虽然直接“点名”最简单,但为了能和未知结果的情况统一处理,我们引入 指示函数式概率表示

  • 设某个划分(partition)里有事件 $A_i$,编号 $i=0,1,\dots,n-1$。
  • 定义概率:
$$ p(A_i) = \begin{cases} 1, & \text{如果选中的 outcome 属于 } A_i, \\ 0, & \text{否则}. \end{cases} $$

👉 也就是说,在已知结果的情况下,只有一个事件概率是 1,其他全是 0

特殊情况

  • 必然事件 (Universal event)
    因为它总会发生,所以 $p(\text{Universal}) = 1$
  • 空事件 (Null event)
    因为它不可能发生,所以 $p(\text{Null}) = 0$

直观理解

  • 已知结果 = 概率退化成 0/1 值
  • 在这种情境下,概率没有“不确定性”,而只是用来表示“是否发生”

举例(MIT 学生场景)

  • 如果知道 outcome = 某位来自 California 的女新生:
    • 事件“是女性”:$p=1$
    • 事件“来自 California”:$p=1$
    • 事件“是男性”:$p=0$
    • 事件“来自 Texas”:$p=0$

数学直觉

  • 已知结果 → 概率函数化为指示变量(0/1)
  • 这种写法方便推广到 未知结果(在 5.3 会用到),因为那时 $p(A)$ 可以取 $[0,1]$ 之间的任意数

5.3 未知结果(Unknown Outcomes)

核心思想

  • 当结果 尚未揭晓我们还不知道 outcome 时:
    • 概率不再是 0/1,而是介于 $[0,1]$ 的一个数,用来表达“相信事件发生的程度”
  • 概率越大 → 越相信事件会发生;概率越小 → 越不相信事件会发生
  • 主观性:不同观察者的知识不同,概率也可能不同

我的问题: “相信"从何谈起?

  • 在 MIT 的讲义里,概率被解释为“我们对事件发生与否的知识状态”

  • 如果 outcome 还未知,我们只能根据已知信息(比如统计数据、实验设计、抽样方式)来量化我们的不确定性

  • 这种量化出来的数值,直观上就像是“我们有多大信心 / 多相信某件事会发生”

  • 频率派角度:概率是长期重复试验中的相对频率

  • 贝叶斯/信息论角度:概率是“我们对事件发生的信念强度”的数值表达

概率的基本公理

对于任意事件 $A$:

$$ 0 \leq p(A) \leq 1 $$

如果事件 $A$ 由一组 互斥事件 $A_i$ 构成,则:

$$ p(A) = \sum_i p(A_i) $$

特别地,对于任意划分(partition),由于必然事件概率为 1:

$$ \sum_i p(A_i) = 1 $$

举例(MIT 新生性别)

  • 事件 $W$:“被选中的是女性”
    • 若假设每个新生等可能被选中,则 $p(W) = 0.46$
  • 事件 $CA$:“被选中的是来自 California 的学生”
    • $p(CA)$ 取决于统计比例
  • 如果选择方式改变(例如只在女生宿舍走廊选人),则 $p(W)$ 会变大

概率分布(Probability distribution)

  • 给定一个划分 ${A_1, A_2, \dots, A_n}$,每个事件都有对应概率 $p(A_i)$
  • 这组概率称为 概率分布,满足:
$$ 0 \leq p(A_i) \leq 1, \quad \sum_{i=1}^n p(A_i) = 1 $$

数学直觉

  • 已知结果:概率退化为 $0$ 或 $1$(见 5.2)
  • 未知结果:概率取值在 $[0,1]$,用来表达 不确定性

5.4 联合事件与条件概率(Joint Events and Conditional Probabilities)

核心思想

  • 我们关心 两个性质同时成立 的概率,例如:
    • MIT 新生既是“女性”又是“来自 Texas”
    • 用 $p(W, TX)$ 表示
  • 问题:知道 $p(W)$ 和 $p(TX)$,能否推出 $p(W, TX)$?
    • 不能,除非假设它们相互独立

独立性(Independence)

  • 定义:如果两个事件相互独立,则
    $p(A,B) = p(A),p(B)$
  • 例子:若“女性”和“来自 Texas”独立,则
    $$ p(W,TX) = p(W)\,p(TX)$$ $$

条件概率(Conditional Probability)

  • 一般情况下,事件并不独立,需要用条件概率:
    $p(A|B)$ = 在事件 $B$ 已知发生的前提下,事件 $A$ 发生的概率
  • 定义公式:
    $p(A,B) = p(B),p(A|B) = p(A),p(B|A)$

Bayes 定理(Bayes’ Theorem)

  • 上式可以互换,得到 贝叶斯公式
    $p(A|B) = \frac{p(A,B)}{p(B)} \quad\quad p(B|A) = \frac{p(A,B)}{p(A)}$
  • 通用性:
    • 不要求因果关系
    • 无论事件有关/无关,都成立

数学直觉

  • 联合概率 = “某个条件成立” × “在此条件下另一个条件成立的概率”
  • Bayes 定理是整个概率推理的基础,在信息论中会经常使用

5.5 平均值(Averages)

核心思想

  • 有时我们关心的不是“事件是否发生”,而是 某个数值属性的期望(平均值)
  • 例如:随机选中一位 MIT 新生,我们想知道 平均身高
  • 即便不知道具体 outcome,也能通过概率分布计算 期望值

定义(期望值 / Expected Value)

设划分 ${A_i}$ 中每个事件 $A_i$ 对应一个数值属性 $h_i$(如身高),则平均值为:

$$ H_{\text{av}} = \sum_i p(A_i)\,h_i $$

即:加权平均(概率作为权重)

举例

  • 如果 outcome 已知 → 可以直接查对应的 $h_i$
  • 如果 outcome 未知 → 只能通过概率分布算加权平均

更一般的情况(分组平均)

  • 例如:我们想算“男生平均身高”和“女生平均身高”
  • 先在 更细的划分(每个学生) 上计算,再聚合
  • 条件概率表示:
    男生平均身高:
$$ H_{\text{av}}(M) = \sum_i p(A_i|M)\,h_i $$

女生平均身高:

$$ H_{\text{av}}(W) = \sum_i p(A_i|W)\,h_i $$

全体新生平均身高(按男女加权):

$$ H_{\text{av}} = p(M)\,H_{\text{av}}(M) + p(W)\,H_{\text{av}}(W) $$

数学直觉

  • 期望值 = “先算细粒度,再通过概率加权回到粗粒度”
  • 这就是 全期望公式(law of total expectation) 的思想
  • 在信息论中,这种加权平均方法会反复出现(如熵的定义)
    好的👌,继续按照你喜欢的笔记风格整理 5.6 信息(Information)。这一节是非常关键的:信息量和熵的定义。

5.6 信息(Information)

核心思想

  • 我们希望定量描述:在 outcome 未知时,我们有多少不确定性;一旦 outcome 被揭晓,我们获得了多少信息
  • 直观:
    • 如果 outcome 完全确定(概率=1),知道结果不会带来任何新信息
    • 如果 outcome 完全未知且等可能,知道结果会带来最大的信息量

单次 outcome 的信息量

设某个 outcome 属于事件 $A_i$,其概率为 $p(A_i)$。
定义从该 outcome 中学到的信息量为:

$$ I(A_i) = \log_2 \frac{1}{p(A_i)} $$
  • 解释:概率越小 → 结果越“稀有” → 信息量越大
  • 特殊情况:
    • 如果 $p(A_i)=1$(必然事件),则 $I(A_i)=0$,因为没有新信息
    • 如果 $p(A_i)$ 很小,则 $I(A_i)$ 很大,说明知道这个结果非常有价值

平均信息量 = 熵(Entropy)

在 outcome 未知之前,我们不知道具体是哪一个事件,只能计算平均信息量

$$ H = \sum_i p(A_i)\,\log_2 \frac{1}{p(A_i)} $$
  • $H$ 就是 (Entropy)
  • 单位:比特(bits),因为底数取 2
  • 本质:每次选符号平均能带来多少 bit 信息

性质

  • 熵 $H \geq 0$

  • 如果有 $n$ 个等可能事件:

    $$

    $$

H = \log_2 n
$$
(最大值,所有结果等可能 → 最不确定)

  • 如果有两个结果,概率 $p$ 和 $1-p$,则:

  • $$

    $$

H(p) = -p\log_2 p - (1-p)\log_2 (1-p)

$$ 在 $p=0.5$ 时达到最大值 1 bit ### 举例 1. **抛硬币(公平)** - $p(正)=0.5, ; p(反)=0.5$ - 熵 $H=1$ bit - 每次抛硬币可以提供 1 bit 信息 2. **抛硬币(偏置)** - $p(正)=0.9, ; p(反)=0.1$ - 熵 $H \approx 0.469$ bits - 因为大部分时候都猜中,信息量更少 ### 数学直觉 - **信息量 = 稀有度**:越罕见的结果越有信息 - **熵 = 平均信息量**:越接近均匀分布,熵越大 → 不确定性越强 - **确定性 = 信息量为零**:如果 outcome 已知(概率=1),学不到新东西 ## 5.7 信息的性质(Properties of Information) ### 核心思想 - 信息量(Information)和熵(Entropy)是可以像物理量一样处理的 - 信息的单位依赖于 **对数的底数** - 信息量的大小和事件的概率分布直接相关 ### 信息的度量单位 - 信息公式: - $$ I = \sum_i p(A_i)\,\log_b \frac{1}{p(A_i)}$$ - 底数 $b$ 不同 → 单位不同: - $b=2$ → 单位是 **bit**(常用) - $b=e$ → 单位是 **nat**(自然对数,理论分析常见) - $b=10$ → 单位是 **hartley**(较少用) - 不同单位之间可以换算,例如: $$ \log_b(x) = \frac{\log_2(x)}{\log_2(b)} $$

二元分布的熵

如果只有两个事件,概率分别是 $p$ 和 $1-p$:

$$ H(p) = -p\log_2 p - (1-p)\log_2(1-p) $$
  • 当 $p=0.5$ 时,熵最大 = 1 bit
  • 当 $p=0$ 或 $p=1$ 时,熵最小 = 0 bit(完全确定)
  • 在 $0.4 \leq p \leq 0.6$ 区间,熵接近 1 bit

说明:信息量在最均衡时最高,越偏向一边,熵就下降

多元分布的熵

  • 如果有 $n$ 个可能事件:
    $$ 0 \leq H \leq \log_2 $$
$$ - **最大熵**:当所有事件等可能时($p_i = 1/n$), $$ H = \log_2 n $$
  • 最小熵:当某个事件概率=1,其余=0,
    $H = 0$

举例

  1. 公平骰子(6 个等可能结果)
    • 熵 $H = \log_2 6 \approx 2.585$ bits
    • 每次掷骰子平均能提供 2.585 bit 信息
  2. 不公平骰子(某面几乎必出)
    • 熵接近 0,因为几乎没有不确定性

数学直觉

  • 最大熵 = 最大不确定性(等可能 → 最难预测)
  • 最小熵 = 完全确定(结果已知 → 没有信息)
  • 熵本质上就是“不确定性的平均刻度

5.8 高效源编码(Efficient Source Coding)

核心思想

  • 前面学了:熵 $H$ 表示每个符号的平均信息量
  • 问题:实际通信中,用多少比特来表示一个符号?
  • 目标:设计一种 编码方式,让平均码长尽可能接近熵 $H$

固定长度编码的局限

  • 如果有 $n$ 个可能符号,固定长度编码需要 $\lceil \log_2 n \rceil$ 比特/符号
  • 例如:5 种成绩(A,B,C,D,F) → 需要 3 比特(因为 $2^3=8 \geq 5$)
  • 但这比真实熵 $H$ 要大很多(尤其当分布不均匀时)

变长编码(Variable-length Codes)

  • 思路:高概率的符号 → 分配更短的码字;低概率的符号 → 分配更长的码字
  • 类似自然语言里,常用的词更短(如“a”,“the”),罕见词更长

前缀码(Prefix-free Codes)

  • 要求:没有一个码字是另一个码字的前缀
  • 好处:接收端可以即时解码,不需要分隔符
  • 例子:摩尔斯电码就是一种前缀码。

Huffman 编码(Huffman Coding)

  • 一种构造前缀码的算法,保证平均码长最小
  • 性质:
    • 平均码长 $L$ 满足
      $$ H \leq L < H + 1 $$ $$
    • 即 Huffman 编码的效率非常接近熵

举例:MIT 成绩分布

  • 符号:A, B, C, D, F
  • 概率分布(示例):A=0.35, B=0.25, C=0.2, D=0.15, F=0.05
  • 熵:$ H \approx 1.84 \ \text{bits/symbol}$
  • Huffman 编码:平均码长
  • $$ L=1.875 bits/symbolL = 1.875 \ \text{bits/symbol} $$ $$
  • 结果:平均码长几乎等于熵,远小于固定长度的 3 bits

工程意义

  • 高效源编码使得实际存储/传输接近理论极限
  • Huffman 码在数据压缩(如 JPEG, MP3)里广泛使用
  • 更复杂的情况可用 算术编码 (Arithmetic Coding),其平均长度甚至能无限接近熵

数学直觉

  • 熵 = 理论下限(不能低于它)
  • Huffman = “几乎最优”的实际算法
  • 平均码长 $L$ 总是满足:
    $$ H \leq L < H+1 $$
$$ #### 我的问题: 这里为什么一定是 1 ? - “**1**” 的来源就是对数取整: - 每个 $-\log_2 p_i$ 向上取整,误差最多是 1 - 所以平均码长的冗余(Redundancy)上界就是 1 bit - 不可能更大(不会所有符号都刚好损失超过 1) - 也不可能更小(某些概率分布下,确实会逼近 $H+1$ 的极限)

$$

Licensed under CC BY-NC-SA 4.0
最后更新于 Sep 13, 2025 14:02 UTC
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计