Probability
§1 Probability Introduction
Element of Probability
样本空间 (Sample Space)
是指随机现象所有的基本结果组成的集合。
事件空间 (Event Space)
是指样本空间所有子集合所构成的集合
Permutation & Combination
排列 (permutation) 指从 n 个元素按次序选取 r 个元素组成一组,定义为
$$ P_n^r=n\times(n-1)\times\cdots\times(n-r+1)=\frac{n!}{(n-r!)}. $$组合 (combination) 指从 n 个不同的元素中任意抽取 r 个元素组成一组,定义为
$$ C_n^r = \binom nr=\frac{P_n^r}{r!}=\frac{n(n-1)\cdots(n-r+1)}{r!}=\frac{n!}{r!(n-r)!}. $$Conditional Probability
$$ P(A|B)\triangleq\frac{P(A\cap B)}{P(B)} $$条件概率即已知事件 B 发生的情况下,事件 A 发生的概率。
Law of total probability
假设 $S = \{1, 2, ..., k\}$ ,若有
$$ A_i, i \in S, P(\bigcap_{i \in S'}A_i) = \varnothing \\ B \subseteq \bigcup_{i \in S} A_i $$则有
$$ P(B) = \sum_i^k P(A_i)P(B|A_i) $$全概率公式表明当事件 A 空间包含事件 B 时,将事件 A 空间划分为多个不相交的空间,则事件 B 发生的概率等于事件 B 在事件 A 划分的各个子空间中的概率之和。
Bayes’ theorem
第四章 朴素贝叶斯法 -统计学方法
假设 $S = \{1, 2, ..., k\}$ ,若有
$$ P(B) \neq 0 \\ B \subset \bigcup_{i \in S} A_i $$则有
$$ \begin{aligned} P(A_i|B) &= \frac{P(A_i)P(B|A_i)}{P(B)} \\ &= \frac{P(A_i)P(B|A_i)}{\sum_i^k P(A_i)P(B|A_i)} \end{aligned} $$贝叶斯定理中第一个等号由条件概率可得,第二个等号由全概率公式可得。
贝叶斯定理表明通过先验概率 $P(A_i)$ 及条件概率分布 $P(B|A)$ 获得已知数据的经验知识,即通过观察 $P(A_i)P(B|A_i)$ 的先验知识(已有的数据知识)掌握 $A_i$ 发生时 $B$ 的分布情况,用来判断事件 B 发生时事件 A 发生的信心。
Common distribution
§2 Random Variables
随机变量是定义在样本空间 (Sample Space) $\Omega$ 上的函数 $X: \Omega \rightarrow R$,即将样本点映射到实数的函数,将自然语言描述的事件描述为数学语言中的实数。
离散型随机变量有定义
$$ P(X = k) \triangleq P(\{\omega: \omega \in X(\omega)= k \}) $$该定义表明函数 $X = k$ 的概率由 $P(\{\omega: X(\omega)= k \})$ 给出,而 $P(\{\omega: X(\omega)= k \})$ 指由能够得到 $X(\omega) = k$ 的事件 $\omega$ 构成的集合的概率。
连续型随机变量有定义
$$ P(a < X < b) \triangleq P(\{\omega: a < X(\omega) < b \}) $$Cumulative distribution functions
累计分布函数 CDF 是一个函数 $F_X: R \rightarrow [0,1]$,定义为
$$ F_X(x) \triangleq P(X \leq x) $$Probability mass function
质量密度函数 PMF 定义为:
$$ p_X(x) \triangleq P(X = x) $$Probability denstiy function
当概率分布函数 $F_X$ 处处可微时,质量密度函数 PDF 定义为:
$$ f_X(x) \triangleq \frac{dF_X(x)}{dx}. $$Expectation
$\Omega$ 为样本空间,离散型随机变量的期望定义为:
$$ E[X] = \sum_{x \in \Omega} xP(X=x) $$连续型随机变量的期望定义为:
$$ E[X] = \int_{-\infty}^{\infty} xf_X(x)dx $$期望常见性质:
- $E[a] = 0$,$a$ 为常数。
- $E[af(x)] = aE[f(x)]$,$a$ 为常数。
- $E[f(x)+g(x)] = E[f(x)] + E[g(x)]$,该性质又称 linearity of expectation。
Variance
随机变量的方差描述随机变量在期望附近的波动程度,定义为:
$$ Var(X) \triangleq E[(X-E[X])^2] $$其中
$$ \begin{aligned} E[(X-E[X])^2]&= E[X^2-2E[X]X+E[X]^2] \\ &= E[X^2]-2E[X]E[X]+E[X]^2 \\ &= E[X^2]-E[X]^2, \end{aligned} $$方差常见性质:
- $Var(a)=0$,$a$ 是常数。
- $Var(af(x)) = a^2Var(f(x))$,$a$ 是常数。