HUAHUA

Probability

cs229-probability_review.pdf


§1 Probability Introduction

Element of Probability

样本空间 (Sample Space)

是指随机现象所有的基本结果组成的集合。

事件空间 (Event Space)

是指样本空间所有子集合所构成的集合

Permutation & Combination

Combinatorics -Wiki

排列 (permutation) 指从 n 个元素按次序选取 r 个元素组成一组,定义为

$$ P_n^r=n\times(n-1)\times\cdots\times(n-r+1)=\frac{n!}{(n-r!)}. $$

组合 (combination) 指从 n 个不同的元素中任意抽取 r 个元素组成一组,定义为

$$ C_n^r = \binom nr=\frac{P_n^r}{r!}=\frac{n(n-1)\cdots(n-r+1)}{r!}=\frac{n!}{r!(n-r)!}. $$

Conditional Probability

$$ P(A|B)\triangleq\frac{P(A\cap B)}{P(B)} $$

条件概率即已知事件 B 发生的情况下,事件 A 发生的概率。

Law of total probability

假设 $S = \{1, 2, ..., k\}$ ,若有

$$ A_i, i \in S, P(\bigcap_{i \in S'}A_i) = \varnothing \\ B \subseteq \bigcup_{i \in S} A_i $$

则有

$$ P(B) = \sum_i^k P(A_i)P(B|A_i) $$

全概率公式表明当事件 A 空间包含事件 B 时,将事件 A 空间划分为多个不相交的空间,则事件 B 发生的概率等于事件 B 在事件 A 划分的各个子空间中的概率之和。

Bayes’ theorem

第四章 朴素贝叶斯法 -统计学方法

贝叶斯定理 -Wiki

第四章朴素贝叶斯法 .pdf

假设 $S = \{1, 2, ..., k\}$ ,若有

$$ P(B) \neq 0 \\ B \subset \bigcup_{i \in S} A_i $$

则有

$$ \begin{aligned} P(A_i|B) &= \frac{P(A_i)P(B|A_i)}{P(B)} \\ &= \frac{P(A_i)P(B|A_i)}{\sum_i^k P(A_i)P(B|A_i)} \end{aligned} $$

贝叶斯定理中第一个等号由条件概率可得,第二个等号由全概率公式可得。

贝叶斯定理表明通过先验概率 $P(A_i)$ 及条件概率分布 $P(B|A)$ 获得已知数据的经验知识,即通过观察 $P(A_i)P(B|A_i)$ 的先验知识(已有的数据知识)掌握 $A_i$ 发生时 $B$ 的分布情况,用来判断事件 B 发生时事件 A 发生的信心。

Common distribution

cs229-probability_review.pdf

§2 Random Variables

样本空间 (Sample Space)

随机变量是定义在样本空间 (Sample Space) $\Omega$ 上的函数 $X: \Omega \rightarrow R$,即将样本点映射到实数的函数,将自然语言描述的事件描述为数学语言中的实数。

离散型随机变量有定义

$$ P(X = k) \triangleq P(\{\omega: \omega \in X(\omega)= k \}) $$

该定义表明函数 $X = k$ 的概率由 $P(\{\omega: X(\omega)= k \})$ 给出,而 $P(\{\omega: X(\omega)= k \})$ 指由能够得到 $X(\omega) = k$ 的事件 $\omega$ 构成的集合的概率。

连续型随机变量有定义

$$ P(a < X < b) \triangleq P(\{\omega: a < X(\omega) < b \}) $$

Cumulative distribution functions

累计分布函数 CDF 是一个函数 $F_X: R \rightarrow [0,1]$,定义为

$$ F_X(x) \triangleq P(X \leq x) $$

Probability mass function

质量密度函数 PMF 定义为:

$$ p_X(x) \triangleq P(X = x) $$

Probability denstiy function

当概率分布函数 $F_X$ 处处可微时,质量密度函数 PDF 定义为:

$$ f_X(x) \triangleq \frac{dF_X(x)}{dx}. $$

Expectation

$\Omega$ 为样本空间,离散型随机变量的期望定义为:

$$ E[X] = \sum_{x \in \Omega} xP(X=x) $$

连续型随机变量的期望定义为:

$$ E[X] = \int_{-\infty}^{\infty} xf_X(x)dx $$

期望常见性质:

  • $E[a] = 0$,$a$ 为常数。
  • $E[af(x)] = aE[f(x)]$,$a$ 为常数。
  • $E[f(x)+g(x)] = E[f(x)] + E[g(x)]$,该性质又称 linearity of expectation。

Variance

随机变量的方差描述随机变量在期望附近的波动程度,定义为:

$$ Var(X) \triangleq E[(X-E[X])^2] $$

其中

$$ \begin{aligned} E[(X-E[X])^2]&= E[X^2-2E[X]X+E[X]^2] \\ &= E[X^2]-2E[X]E[X]+E[X]^2 \\ &= E[X^2]-E[X]^2, \end{aligned} $$

方差常见性质:

  • $Var(a)=0$,$a$ 是常数。
  • $Var(af(x)) = a^2Var(f(x))$,$a$ 是常数。