第一章 事件及其概率¶
约 3431 个字 预计阅读时间 14 分钟
随机现象与统计规律性¶
- 必然事件:必然会发生的事件
- 不可能事件:必然不会发生的事件
- 随机事件:在一定条件下,不能准确预测其结果的事件
在相同条件下重复做 \(N\) 次试验,各次试验互不影响,考察事件 \(A\) 发生的次数(频数) \(n\),称 \(F_N(A)=\frac{n}{N}\) 为 \(A\) 在 \(N\) 次试验中发生的频率。 频率所稳定到的那个常数可以表示事件 \(A\) 的概率,记为 \(P(A)\)。
频率的性质
从频率的定义可以看出频率有以下性质:
- 非负性:\(0\leqslant F_N(A)\leqslant 1\)
- 规范性:对必然事件 \(\Omega\),\(F_N(\Omega)=\frac{N}{N}=1\)
- 可列可加性:若 \(A_1,A_2,\cdots\) 两两互斥,则 \(F_N(A_1\cup A_2\cup\cdots)=F_N(A_1)+F_N(A_2)+\cdots\)
古典概型¶
随机试验的每一基本结果称为样本点,记作 \(\omega\),所有基本事件的全体称为样本空间,记为 \(\Omega\)。
古典概型的特征
- 样本空间是有限的,\(\Omega=\{\omega_1,\omega_2,\cdots,\omega_n\}\),其中 \(\omega_i(I=1,2,\cdot,n)\) 是基本事件
- 每个基本事件发生的可能性相同,即 \(P(\omega_i)=\frac{1}{n}\)
古典概率的定义:
- 设试验有 \(n\) 个等可能的基本事件,而 \(A\) 事件恰包含其中 \(m\) 个基本事件,则 \(P(A)\) 定义为
古典概率的性质
从古典概型的定义可以看出概率有以下性质:
- 非负性:\(0\leqslant P(A)\leqslant 1\)
- 规范性:\(P(\Omega)=1\)
- 可列可加性:若 \(A_1,A_2,\cdots\) 两两互斥,则 \(P(A_1\cup A_2\cup\cdots)=P(A_1)+P(A_2)+\cdots\)
特别地,若 \(A\) 与 \(B\) 两事件互反(不可能同时发生且至少发生一个),则 \(P(A)=1 - P(B)\)
Example
设有 \(n\) 个球,\(N\) 个格子\((n \leqslant N)\),球和格子都是可以区分的。每个球落在各格子内的概率相同(设格子足够大,可以容纳任意多个球),将这 \(n\) 个球随机地放入这 \(N\) 个格子中,求:
- 指定的 \(n\) 个格子中各有一个球的概率
- 有 \(n\) 个格子各有一球的概率
解: 1. \[P(A) = \frac{n!}{N^n}\] 2. $$ \begin{aligned} P(B) &= \frac{P^n_N}{N^n} = \frac{N(N-1)\cdots(N-n+1)}{N^n} \\ &= \left(1-\frac{1}{N}\right)\left(1-\frac{2}{N}\right)\cdots\left(1-\frac{n-1}{N}\right) \end{aligned} $$ 注意到 \(\log(1-x) = -x +O(x^2),x \rightarrow 0\). 我们有 $$ \begin{aligned} &\log \left(1-\frac{1}{N}\right)\left(1-\frac{2}{N}\right)\cdots\left(1-\frac{n-1}{N}\right)\\ &= \sum_{i=1}^{n-1}\log\left(1-\frac{i}{N}\right) = -\sum_{i=1}^{n-1}\frac{i}{N} + O\left(\frac{1}{N^2}\right)\\ &= -\frac{n(n-1)}{2N} + O\left(\frac{n^3}{N^2}\right) \end{aligned} $$ 故当 \(N\) 比 \(n\) 大得多时,可以采用近似计算公式 \[P(B) \approx \exp{1-\frac{n(n-1)}{2N}}\]
几何概率¶
若样本空间是一个包含无限个点的区域 \(\Omega\)(一维、二维或 \(n\) 维),样本点是区域中的一个点,此时用点数度量样本点的多少就毫无意义。若记事件 $A_g = $ {任取一个样本点,它落在区域 \(g \subset \Omega\) } ,则 \(A_g\) 的概率定义为 $$ P(A_g) = \frac{g 的测度}{\Omega 的测度} $$ 这样定义的概率称为几何概率。
概率的公理化定义¶
事件¶
- 事件一般用大写字母 \(A,B,C,\cdots\) 表示,事件的概率用 \(P(A),P(B),P(C),\cdots\) 表示。
- 样本空间 \(\Omega\) 也可看作一个事件,\(\Omega\) 是必然事件
- 类似地,把空集 \(\emptyset\) 也看作一个事件,\(\emptyset\) 是不可能事件
事件的运算
- \(A\) 包含 \(B\)(\(B\) 包含于 \(A\)): \(A \supset B(B \subset A)\)
- \(A\) 与 \(B\) 相等: \(A = B\),即 \(A \supset B\) 且 \(B \supset A\)
- \(A\) 与 \(B\) 的并: \(A \cup B = \{ \omega | \omega \in A 或 \omega \in B \}\)
- \(A\) 与 \(B\) 的交: \(A \cap B = \{ \omega | \omega \in A 且 \omega \in B \}\)
- \(A\) 与 \(B\) 的差: \(A \backslash B = \{ \omega | \omega \in A 且 \omega \notin B \}\)
- \(A\) 与 \(B\) 互不相容(互斥): \(A \cap B = \emptyset\),在此时有时用 \(A + B\) 代替 \(A \cup B\)
- \(A\) 与 \(B\) 不可能同时发生,且至少发生一个: \(A \cup B = \Omega, A \cap B = \emptyset\),则称 \(A\) 与 \(B\) 互反(互为逆事件、对立事件、余事件),记作 \(B = A^c\) 或 \(B = \overline{A}\)
运算性质
- 交换律: \(A \cup B = B \cup A, A \cap B = B \cap A\)
- 结合律: $(A \cup B) \cup C = A \cup (B \cup C),~~ (A \cap B) $
- 分配律: \(A \cup (B \cap C) = (A \cup B) \cap (A \cup C),~~ A \cap (B \cup C) = (A \cap B) \cup (A \cap C)\)
- 对偶律(De Morgan律): \(\overline{A \cup B} = \overline{A} \cap \overline{B},~~ \overline{A \cap B} = \overline{A} \cup \overline{B}\)
- \(A~ \backslash ~B = A\overline{B}\)
概率空间¶
概率空间包含三个要素。
第一个要素:样本空间 \(\Omega\),是样本点 \(\omega\) 的全体,根据问题需事先取定。
第二个要素:事件域 \(\mathscr{F}\),是 \(\Omega\) 中满足下列条件的子集的全体所组成的集合:
- \(\Omega \in \mathscr{F}\)
- 若 \(A \in \mathscr{F}\),则 \(\overline{A} \in \mathscr{F}\)
- 若 \(A_1,A_2,\cdots, A_n, \cdots \in \mathscr{F}\),则 \(\cup_{n=1}^{\infty}A_n \in \mathscr{F}\)
满足这三个条件的集合 \(\mathscr{F}\) 称为 \(\Omega\) 上的 \(\sigma\)-代数或 \(\sigma\)-域。\(\mathscr{F}\) 中的元素(\(\Omega\) 的子集)称为事件。
由这三个条件,可以推得事件域有下列性质:
- \(\emptyset \in \mathscr{F}\)(因为 \(\overline{\Omega} = \emptyset\))
- 若 \(A_1,A_2,\cdots, A_n, \cdots \in \mathscr{F}\),则 \(\cap_{n=1}^{\infty}A_n \in \mathscr{F}\)(因为 \(\overline{\cup_{n=1}^{\infty}A_n} = \cap_{n=1}^{\infty}\overline{A_n}\))
- 若 \(A_1,A_2,\cdots, A_n \in \mathscr{F}\),则 \(\cup_{i=1}^{n}A_i \in \mathscr{F}\),\(\cap_{i=1}^{n}A_i \in \mathscr{F}\)
事件域也可根据问题选择,对同一样本空间 \(\Omega\) 可能有不同的 \(\sigma\)-代数。
- 如最简单的事件域 \(\mathscr{F}_1 = \{ \emptyset, \Omega \}\),称为平凡 \(\sigma\)-代数。
-
复杂的如 \(\mathscr{F}_2 =\) { \(\Omega\) 的一切子集 }。
-
若 \(\Omega\) 由有限或可列个样本点组成,则常取 \(\Omega\) 的一切子集所成的集类作为 \(\mathscr{F}\)
- 若 \(\Omega = \mathbf{R}\)(一维实数全体),此时常取一切左开右闭有界区间和它们的(有限或可列)并、(有限或可列)交、逆所成的集的全体为 \(\mathscr{F}\)(通常记为 \(\mathscr{B}\))称为一维波雷尔(Borel)\(\sigma\)-代数,其中的集称为一维波雷尔集,它是比全体区间大得多的一个集类。
- 若 \(\Omega = \mathbf{R}^n\)(\(n\) 维实数全体),则常取一切左开右闭有界 \(n\) 维矩形和它们的(有限或可列)并、(有限或可列)交、逆所成的集的全体为 \(\mathscr{F}\)(通常记为 \(\mathscr{B}^n\)),称为 \(n\) 维波雷尔 \(\sigma\)-代数,其中的集称为 \(n\) 维波雷尔集。
如果我们对 \(\Omega\) 的某个子集类 \(\mathscr{C}\) 感兴趣,所选的事件域 \(\mathscr{F}\)(可以是包含 \(\mathscr{C}\) 的最小 \(\sigma\)-代数,这种 \(\sigma\)-代数是存在的,因为:
- 至少有一个包含 \(\mathscr{C}\) 的 \(\sigma\)-代数,即上述 \(\mathscr{F}_2\)
- 若有很多包含 \(\mathscr{C}\) 的 \(\sigma\)-代数,则它们的交也是 \(\sigma\)-代数,且就是最小的。
特别地,如果我们只对 \(\Omega\) 的一个子集 \(A\) 感兴趣,我们可以取包含 \(A\) 的最小 \(\sigma\)-代数。 \(\(\mathscr{F} = \{ \emptyset, A, \overline{A}, \Omega \}\)\)
第三个要素:概率 \(P\)
概率的定义
概率 \(P\)是定义在事件域 \(\mathscr{F}\) 上的实值集函数,满足以下三个条件:
- 非负性:\(P(A) \geqslant 0,A \in \mathscr{F}\)
- 规范性:\(P(\Omega) = 1\)
- 可列可加性:若 \(A_1,A_2,\cdots, A_n, \cdots \in \mathscr{F}\) 两两互斥,则 $$ P(\sum_{n=1}^{\infty}A_n) = \sum_{n=1}^{\infty}P(A_n) $$
用测度论的语言来说,概率 \(P\) 是定义在 \(\sigma\)-代数上的规范化的测度。
三元体(\(\Omega, \mathscr{F}, P\))称为概率空间。
概率的运算公式
- \(P(\emptyset) = 0\)
- 若 \(A_i A_j = \emptyset, i,j=1, 2, \cdots, n, i \neq j\),则
- \(P(\overline{A}) = 1 - P(A)\)
- 若 \(B \subset A\) 则 \(P(A-B) = P(A) - P(B)\)
- \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
- \(P(A \backslash B) = P(A) - P(AB)\)
- (多还少补定理)
- (次可列可加性)
概率测度的连续性¶
给定概率空间 \((\Omega, \mathscr{F}, P)\),若 \(A_1, A_2, \cdots\) 是一列单调增加的事件序列,即
记 \(A = \bigcup_{n=1}^{\infty} A_n\),称 \(A\) 为事件序列 \(A_n\) 的极限事件。从公理化定义可以看出,\(A\) 仍然是一个事件。下面定理给出该事件的概率大小
定理1.1
若 \(A_1, A_2, \cdots\) 是一列单调增加的事件序列,具有极限 \(A\),则
对一列单调增加的事件 $ A_1 \subset A_2 \subset \cdots $,记 \(\lim \limits_{n \to \infty} A_n = \bigcup_{n=1}^{\infty} A_n\),则上述定理说明 $$ P(\lim_{n \to \infty} A_n) = \lim_{n \to \infty} P(A_n) $$ 所以我们说概率具有连续性。
如果 $ A_1 \subset A_2 \subset \cdots $ 是一个单调减少的事件序列,记 \(\lim \limits_{n \to \infty} A_n = \bigcap_{n=1}^{\infty} A_n\),那么同样有 $$ P(\lim_{n \to \infty} A_n) = \lim_{n \to \infty} P(A_n) $$ 为了进行区分,我们将前者称为概率的上连续性,后者称为概率的下连续性。
事件的上极限和下极限¶
事件是样本点的集合,事件的上极限和下极限就是这个样本点集合的极限。
对于一个事件序列,我们可以更一般地定义它的上极限和下极限
事件的上极限和下极限
对于事件序列 $ { A_n }_{n=1}^{\infty} = A_1 ,\enspace A_2, \cdots $,我们定义
为它的上极限, $$ \liminf_{n \to \infty} A_n = \bigcup_{n=1}^{\infty} \bigcap_{k=n}^{\infty} A_k $$
为它的下极限。
容易验证 $ \liminf \limits_{n \to \infty} A_n \subset \limsup \limits_{n \to \infty} A_n$
如果 $ \liminf \limits_{n \to \infty} A_n = \limsup \limits_{n \to \infty} A_n$,就称 \(A_n\) 的极限存在,并记作 \(\lim \limits_{n \to \infty} A_n\)
- 事件序列的上极限是事件的先并后交,可以认为是所有并集的交
- 事件序列的下极限是事件的先交后并,可以认为是所有交集的并
条件概率与事件的独立性¶
条件概率¶
设 \(A,B\) 是两个事件,且 \(P(B) > 0\),则在事件 \(B\) 发生的条件下,事件 \(A\) 发生的概率称为事件 \(A\) 关于事件 \(B\) 的条件概率,记作 \(P(A|B)\)
在某种情况下,条件的附加意味着对样本空间的压缩,相应的概率可在压缩的样本空间内直接计算。
定义
对任意事件 \(A\) 和 \(B\),若 \(P(B) \neq 0\),则“在事件 \(B\) 发生的条件下 \(A\) 发生的条件概率”,记作 \(P(A|B)\),定义为 \(\(P(A|B) = \frac{P(AB)}{P(B)}\)\) 反过来也可用条件概率表示 \(A, B\) 的乘积概率,即有乘法公式 $$ P(AB) = P(A|B)P(B) , P(B) \neq 0 $$ 或 $$ P(AB) = P(B|A)P(A) , P(A) \neq 0 $$
全概率公式与贝叶斯公式¶
定义1.3
若事件列 $ \{ A_1, A_2 \cdots, A_n \cdots \} $ 满足下列两个条件
- $A_i, i=1, 2, \cdots $ 两两互不相容,且 \(P(A_i) > 0\)
- \(\sum_{i=1}^{\infty}A_i = \Omega\)
则称 $ { A_1, A_2 \cdots, A_n \cdots } $ 为 \(\Omega\) 的一个完备事件组,也称为 \(\Omega\) 的一个分割。
- 最简单的完备事件组是 \(\{ A, \overline{A}\}\)
定理1.2(全概率公式)
设 $ { A_1, A_2 \cdots, A_n \cdots } $ 是 \(\Omega\) 的一个完备事件组,\(B\) 是任一事件,则 $$ P(B) = \sum_{i=1}^{\infty}P(A_i)P(B|A_i) $$
- 概率公式的意义在于,它把事件 \(B\) 的概率 \(P(B)\) 分解为若干个条件概率的乘积之和。
贝叶斯公式
设 $ \{ A_1, A_2 \cdots, A_n \cdots \} $ 是 \(\Omega\) 的一个完备事件组,\(B\) 是任一事件,且 \(P(B) > 0\),则 $$ P(A_i|B) = \frac{P(A_i)P(B|A_i)}{\sum_{k=1}^{\infty}P(A_k)P(B|A_k)} $$
- \(P(A_i)\) 是没有进一步的信息(不知道 \(B\) 是否发生)时,对 \(A_i\) 概率的估计,称为先验概率
-
\(P(A_i|B)\) 是在事件 \(B\) 发生后对 \(A_i\) 发生概率的估计,称为后验概率
-
全概率公式:“由原因推结果”
- 贝叶斯公式:“由结果推原因”
事件独立性¶
两个事件的独立性¶
- 当 \(P(A|B) = P(A)\) ,即 \(P(AB) = P(A)P(B)\) 时,称事件 \(A\) 与事件 \(B\) 统计独立,或 \(A\) 与 \(B\) 独立,记作 \(A \perp B\)。
- 当 \(A\) 与 \(B\) 不独立时,也称 \(A\) 与 \(B\) 统计相依。
例题
求证:若 \(A\) 与 \(B\) 互不相容,且 \(P(A)P(B) \neq 0\),则 \(A\) 与 \(B\) 不独立。 证明:\(A\) 与 \(B\)不相容,则 \(P(AB) = 0 \neq P(A)P(B)\),故 \(A\) 与 \(B\) 不独立。
已知 \(A\) 与 \(B\) 独立,求证 \(A\) 与 \(\overline{B}\),\(\overline{A}\) 与 \(B\),\(\overline{A}\) 与 \(\overline{B}\) 也独立。 证明:由 \(A\) 与 \(B\) 独立,有 \(P(AB) = P(A)P(B)\),从而 $$ \begin{aligned} P(A\overline{B}) &= P(A) - P(AB) = P(A) - P(A)P(B) \\ &= P(A) - P(A)P(B) = P(A)(1-P(B)) \\ &= P(A)P(\overline{B}) \\ \end{aligned} $$
多个时间的独立性¶
定义1.5
若 $$ \begin{cases} P(AB) = P(A)P(B) \\ P(AC) = P(A)P(C) \\ P(BC) = P(B)P(C) \end{cases} $$ 且 \(P(ABC) = P(A)P(B)P(C)\) 则称事件 \(A, B, C\) 相互独立。
定义1.6
若对一切可能的组合 \(1 \leqslant i < j < k < \cdots \leqslant n\),有 $$ \begin{cases} P(A_iA_j) = P(A_i)P(A_j)\\ P(A_iA_jA_k) = P(A_i)P(A_j)P(A_k)\\ \cdots \\ P(A_iA_jA_k\cdots A_n) = P(A_i)P(A_j)P(A_k) \cdots P(A_n) \end{cases} $$ 就称 \(A_1, A_2, \cdots, A_n\) 相互独立。
试验的独立性¶
与事件的独立性密切相关的是随机试验的独立性。
- 一般来说,若有 \(n\) 个试验 \(E_1, E_2, \cdots, E_n\),每个试验的每个结果都是一个事件。如果 \(E_1\) 的任一事件都与 \(E_2\) 的任一事件与 \(\cdots\) 与 \(E_n\) 的任一事件相互独立,就说 \(E_1, E_2, \cdots, E_n\) 相互独立
- 记 \(E_i\) 的样本空间为 \(\Omega_i\) 为描述这 \(n\) 次试验,要构造复合试验 \(E = (E_1, E_2, \cdots, E_n)\) 对应的样本空间为 \(\Omega = \Omega_1 \times \Omega_2 \times \cdots \times \Omega_n\) 是 \(n\) 个样本空间的直积
- \(E\) 中的样本点 \(\omega = (\omega^{(1)}, \cdots, \omega^{(n)})\),其中 \(\omega^{(i)} \in \Omega_i\)
若 \(A^{(i)}\) 为 \(E_i\) 的任一事件,对一切 \(A^{(1)}, A^{(2)}, \cdots, A^{(n)}\) 均有 $$ P(A^{(1)}A^{(2)} \cdots A^{(n)}) = P(A^{(1)})P(A^{(2)}) \cdots P(A^{(n)})$$
伯努利概型¶
- 若一次随机试验\(E\)只有\(A\)与\(\overline{A}\)两种相反的结果(是与否,成功与失败等),就称其为伯努利试验。对于\(n\)次重复独立的伯努利试验,这种概率模型称为伯努利概型。
二项分布:\(n\) 次伯努利试验中事件 \(A\) 恰好发生 \(k\) 次的概率为(设 \(A\) 的概率为 \(p\),\(\overline{A}\) 发生的概率为 \(q\) ) $$ b(k, n, p) = \binom{n}{k} p^k q^{n-k} = \frac{n!}{k!(n-k)!} p^k q^{n-k}, k=0, 1, \cdots, n $$
补充与注记¶
从\(n\)个不同物件中取\(k\)个\((1 \leqslant r \leqslant n)\)的不同排列总数为 $$ P^r_n = n(n-1)(n-2) \cdots (n-r+1) $$
- 特别的,若\(r=n\),有 \(P^r_r = r(r-1) \cdots 1 = r!\),将其称为全排列。
- 人们常约定把 \(0!\) 作为 \(1\)。
从\(n\)个不同物件中取\(k\)个\((1 \leqslant r \leqslant n)\)的不同排列总数为 $$ \binom{n}{r} = \frac{P^r_n}{r!} = \frac{n!}{r!(n-r)!} $$
组合数也常称为二项式系数 $$ (a+b)^n = \sum^n_{i=0} \binom{n}{i} a^i b^{n-i} $$
一些常用的公式: $$ \binom{n}{0} + \binom{n}{1} + \cdots + \binom{n}{n} = 2^n $$ $$ \binom{n}{0} - \binom{n}{1} + \cdots + (-1)^n \binom{n}{n} = 0 $$ $$ \binom{n}{k-1} + \binom{n}{k} = \binom{n+1}{k} $$ $$ \binom{m+n}{k} = \sum_{i=0}^k \binom{m}{i}\binom{n}{k-i} $$ $$ \sum_{i=0}^n \binom{n}{i} \binom{n}{i} = \binom{2n}{n} $$