Math Review: Probability Theory

Last updated on May 10, 2026 pm

本期是概率论与数理统计的简单复习。

随机事件和概率

概率的性质

差的概率： $P(B-A)=P(B)-P(A B)$
加法定理： $P(A \cup B)=P(A)+P(B)-P(A B)$ 一般地， $P\left(\bigcup_{i=1}^n A_i\right) =\sum_{i=1}^n P\left(A_i\right)-\sum_{1 \leq i<j \leq n} P\left(A_i A_j\right) +\sum_{1 \leq i<j<k \leq n} P\left(A_i A_j A_k\right)+\cdots+(-1)^{n-1} P\left(A_1 A_2 \cdots A_n\right)$

条件概率

全概率公式：

若 $B_1, B_2, \cdots, B_n$ 两两互斥，且 $\Omega=\bigcup_{i=1}^n B_i$ ，那么
$P(A)=\sum_{i=1}^n P\left(B_i\right) P\left(A | B_i\right)$
贝叶斯公式：
$P\left(B_i | A\right)=\frac{P\left(A B_i\right)}{P(A)}=\frac{P\left(B_i\right) P\left(A | B_i\right)}{\sum_{j=1}^n P\left(B_j\right) P\left(A | B_j\right)}$

随机事件的关系

互斥：事件 $A, B$ 不能同时发生，即 $A B=\emptyset$
对立：事件 $A, B$ 不同时发生，但其中一定有一个发生，即 $A B=\emptyset$ 且 $A \cup B=\Omega$
- 与互斥的关系：对立一定互斥，互斥不一定对立
独立： $P(A B)=P(A) P(B)$
- 与互斥的关系：若 $P(A) > 0, P(B) > 0$ ，则互斥一定不独立，独立一定不互斥

随机变量及其分布

常见的离散型分布

两点分布：
- 概率分布：
  $P(X=k)=p^k(1-p)^{1-k}, \quad k=0,1$
- 数学期望：
  $E(X) = p$
- 方差：
  $D(X) = p(1-p)$
二项分布： $X \sim B(n, p)$
- 概率分布：
  $P(X=k)=C_n^k p^k(1-p)^{n-k}, \quad k=0,1,2, \cdots, n$
- 数学期望：
  $E(X) = np$
- 方差：
  $D(X) = np(1-p)$
几何分布： $X \sim G(p)$
- 背景：一系列伯努利试验中，第一次成功时的试验次数
- 概率分布：
  $P(X=k)=p(1-p)^{k-1}, \quad k=1,2, \cdots$
- 数学期望：
  $E(X) = \frac{1}{p}$
- 方差：
  $D(X) = \frac{1-p}{p^2}$
负二项分布（帕斯卡分布）： $X \sim Nb(r, p)$
- 背景：一系列伯努利试验中，第 $r$ 次成功时的试验次数
- 概率分布：
  $P(X=k)=C_{k-1}^{r-1} p^r(1-p)^{k-r}, \quad k=r, r+1, \cdots$
泊松分布： $X \sim P(\lambda)$
- 概率分布：
  $P(X=k)=e^{-\lambda} \frac{\lambda^k}{k!}, \quad k=0,1,2, \cdots$
  其中 $\lambda > 0$
- 数学期望：
  $E(X) = \lambda$
- 方差：
  $D(X) = \lambda$

常见的连续型分布

均匀分布： $X \sim U(a, b)$
- 密度函数：
  $f(x)=\begin{cases} \dfrac{1}{b-a}, & x \in(a, b) \\ 0, & \text { 其他 } \end{cases}$
- 分布函数：
  $F(x)=\begin{cases} 0, & x<a \\ \dfrac{x-a}{b-a}, & a \leq x<b \\ 1, & x \geq b \end{cases}$
- 数学期望：
  $E(X) = \frac{a + b}{2}$
- 方差：
  $D(X) = \frac{(b-a)^2}{12}$
指数分布： $X \sim E(\lambda)$
- 密度函数：
  $f(x)= \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x<0 \end{cases}$
  其中 $\lambda > 0$
- 分布函数：
  $F(x)=\begin{cases} 1-e^{-\lambda x}, & x \geq 0 \\ 0, & x<0 \end{cases}$
- 数学期望：
  $E(X) = \frac{1}{\lambda}$
- 方差：
  $D(X) = \frac{1}{\lambda^2}$
正态分布： $X \sim N(\mu, \sigma^2)$
- 密度函数：
  $f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}, \quad-\infty<x<+\infty$
  其中 $\sigma > 0$
- 数学期望：
  $E(X) = \mu$
- 方差：
  $D(X) = \sigma^2$

泊松分布和其他分布的关系

泊松分布与二项分布：若 $X \sim B(n, p)$ ，当 $n$ 较大， $p$ 较小，而 $np$ 适中时，可以近似看成参数为 $np$ 的泊松分布
- 泊松定理：设 $\displaystyle \lim_{n \rightarrow \infty} n p_n=\lambda>0$ ，则对固定的 $k$ $\lim_{n \rightarrow \infty} C_n^k p_n^k\left(1-p_n\right)^{n-k} =e^{-\lambda} \frac{\lambda^k}{k!}, \quad k =0 ,1,2, \cdots$
泊松分布与指数分布：泊松分布描述“在单位时间内事件发生的次数”，指数分布描述“相邻两次事件发生的时间间隔”
- 例如， $(0, t)$ 内某柜台需要服务的顾客数 $N(t) \sim P(\lambda t)$ ，那么先后两个顾客到达柜台的时间间隔服从指数分布
泊松分布与正态分布：泊松分布的极限大样本分布近似于正态分布

多维随机变量及其分布

联合分布与边缘分布：

$\begin{aligned} F_X(x)=\int_{-\infty}^x \int_{-\infty}^{+\infty} f(u, v) d v d u \quad & f_X(x)=\int_{-\infty}^{+\infty} f(x, y) d y \\ F_Y(y)=\int_{-\infty}^y \int_{-\infty}^{+\infty} f(u, v) d u d v \quad & f_Y(y)=\int_{-\infty}^{+\infty} f(x, y) d x \end{aligned}$
- 已知联合分布可以求得边缘分布，反之则不能唯一确定
条件分布：

$f_{X | Y}(x | y)=\frac{f(x, y)}{f_Y(y)} \\ P(X \leq x | Y=y) \triangleq F_{X | Y}(x | y)=\int_{-\infty}^x f_{X | Y}(u | y) d u$
- 已知联合分布可以求得条件分布，反之则不能唯一确定
- 但边缘分布和条件分布可以结合求出联合分布
随机变量的独立性：
$F(x, y)=F_X(x) F_Y(y)$
此时边缘分布完全确定联合分布
具有可加性的分布：同一类型分布的独立随机变量和的分布仍服从此类分布
- 泊松分布：若 $X$ 和 $Y$ 相互独立，且 $X \sim P(\lambda_1)$ ， $Y \sim P(\lambda_2)$ ，那么 $X + Y \sim P(\lambda_1 + \lambda_2)$
- 二项分布：若 $X$ 和 $Y$ 相互独立，且 $X \sim B(n, p)$ ， $Y \sim B(m, p)$ ，那么 $X + Y \sim P(n + m, p)$
- 正态分布：若 $X$ 和 $Y$ 相互独立，且 $X \sim N(\mu_1, \sigma_1^2)$ ， $Y \sim N(\mu_2, \sigma_2^2)$ ，那么 $X \pm Y \sim N(\mu_1 \pm \mu_2, \sigma_1^2 + \sigma_2^2)$
- 卡方分布：若 $X$ 和 $Y$ 相互独立，且 $X \sim \chi^2(n_1)$ ， $Y \sim \chi^2(n_2)$ ，那么 $X + Y \sim \chi^2(n_1 + n_2)$
具有无记忆性的分布：几何分布、指数分布
$P(X>s+t \mid X>s)=P(X>t)$
极值的分布：设 $X_1, X_2, \cdots, X_n$ 相互独立，且 $X_i \sim F_{X_i}\left(x_i\right), i=1,2, \cdots, n$
$M=\max _{1 \leq i \leq n}\left\{X_i\right\}, \quad N=\min _{1 \leq i \leq n}\left\{X_i\right\}$
则
$\begin{aligned} & F_M(z)=\prod_{i=1}^n F_{X_i}(z) \\ & F_N(z)=1-\prod_{i=1}^n\left(1-F_{X_i}(z)\right) \end{aligned}$

随机变量的数字特征

方差：
- 定义： $D(X) = E\left[\left(X - E(X)\right)^2\right]$
- 计算公式： $D(X) = E\left(X^2\right) - \left(E(X)\right)^2$
协方差：
- 定义： $\operatorname{cov}(X, Y) = E\left(\left(X - E(X)\right)\left(Y - E(Y)\right)\right)$
- 计算公式： $\operatorname{cov}(X, Y) = E(XY) - E(X)E(Y)$
相关系数：
$\rho_{XY} = \frac{\operatorname{cov}(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$
不相关的等价表述：若 $X$ 和 $Y$ 的方差均存在且大于零，下列命题等价：
- $X$ 与 $Y$ 不相关
- $\rho_{XY} = 0$
- $\operatorname{cov}(X, Y) = 0$
- $E(XY) = E(X) E(Y)$
- $D(X \pm Y) = D(X) + D(Y)$
不相关与独立的关系： $X$ 与 $Y$ 相互独立，可以推出 $X$ 与 $Y$ 不相关；反之则不然

大数定律和中心极限定理

切比雪夫不等式：设随机变量 $X$ 的方差 $D(X)$ 存在，则对于任意实数 $\epsilon > 0$ ，
$P(|X-E(X)| \geq \epsilon) \leq \frac{D(X)}{\epsilon^2}$
依概率收敛：设 $Y_1, Y_2, \cdots, Y_n, \cdots$ 是一系列随机变量，若 $\forall \epsilon>0$ 有

$\lim _{n \to \infty} P\left(\left|Y_n-a\right| \geq \epsilon\right)=0$

则称随机变量序列 $Y_1, Y_2, \cdots, Y_n, \cdots$ 依概率收敛于常数 $a$
- 含义：随机变量序列 $Y_n$ 收敛于常数 $a$ 的概率趋于 1

大数定律

大数定律的定义：若随机变量序列 $X_1, X_2, \cdots, X_n, \cdots$ 满足：对 $\forall \epsilon>0$ 有

$\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{k=1}^n X_k-\frac{1}{n} \sum_{k=1}^n E\left(X_k\right)\right| \geq \epsilon\right)=0$

称该随机变量序列服从大数定律，即

$\frac{1}{n} \sum_{k=1}^n X_k \xrightarrow[n \rightarrow \infty]{P} \frac{1}{n} \sum_{k=1}^n E\left(X_k\right)$
- 也就是说，当样本数量足够大时，样本均值与数学期望充分接近
伯努利大数定律：设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是每次试验中 $A$ 发生的概率，则 $\forall \epsilon>0$ ，有
$\lim _{n \rightarrow \infty} P\left(\left|\frac{n_A}{n}-p\right| \geq \epsilon\right)=0$
即
$\dfrac{n_A}{n} \xrightarrow[n \rightarrow \infty]{P} p$
切比雪夫大数定律：设随机变量序列 $X_1, X_2, \cdots, X_n, \cdots$ 两两不相关，它们的方差存在，且有共同的上界，即
$\rho_{X_i X_j}=0,(i \neq j), \quad E\left(X_k\right)=\mu_k, \quad D\left(X_k\right)=\sigma_k^2 \leq \sigma^2, \quad k=1,2, \cdots$
则该序列服从大数定律，即对任意正数 $\epsilon>0$ ，有
$\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{k=1}^n X_k-\frac{1}{n} \sum_{k=1}^n \mu_k\right| \geq \epsilon\right)=0$
辛钦大数定律：设 $X_1, X_2, \cdots, X_n, \cdots$ 相互独立，服从同一分布，且具有相同的数学期望 $E\left(X_k\right)=\mu, k=1,2, \cdots$ ，则对任意正数 $\epsilon>0$ ，有
$\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{k=1}^n X_k-\mu\right| \geq \epsilon\right)=0$
即
$\frac{1}{n} \sum_{k=1}^n X_k \xrightarrow[n \rightarrow \infty]{P} \mu$

中心极限定理

独立同分布中心极限定理：设随机变量序列 $X_1, X_2, \cdots, X_n$ 为相互独立同分布的，它们的期望、方差都存在，
$E\left(X_k\right)=\mu, \quad D\left(X_k\right)=\sigma^2>0, \quad k=1,2, \cdots$
则对于任意实数 $x$ ，
$\lim _{n \rightarrow \infty} P\left(\frac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma} \leq x\right)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} d t$
这表明 $n$ 足够大时，
$\frac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma} \stackrel{\text { 近似 }}{\sim} N(0,1)$
即
$\sum_{k=1}^n X_k \stackrel{\text { 近似 }}{\sim} N\left(n \mu, n \sigma^2\right)$
棣莫弗-拉普拉斯中心极限定理：设 $Y_n \sim B(n, p), 0<p<1, n=1,2, \cdots$ ，则对任一实数 $x$ ，有
$\lim _{n \rightarrow \infty} P\left(\frac{Y_n-n p}{\sqrt{n p(1-p)}} \leq x\right)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} d t$
即 $n$ 足够大时，
$Y_n \stackrel{\text { 近似 }}{\sim} N(n p, n p(1-p))$

数理统计的基本概念

常用统计量

设 $\left(X_1, X_2, \cdots, X_n\right)$ 是来自总体 $X$ 的容量为 $n$ 的样本，

样本均值：

$\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i$
- 均值：
$E(\bar{X})=\mu$
- 方差：
$D(\bar{X})=\frac{\sigma^2}{n}$
样本方差：

$S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2$
- 均值：
$E\left(S^2\right)=\sigma^2$
样本的 $k$ 阶原点矩：
$M_k=\frac{1}{n} \sum_{i=1}^n X_i^k$
样本的 $k$ 阶中心矩：
$(C M)_k=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^k$
上侧 $\alpha$ 分位数：
$P(X > x_\alpha) = \alpha$
双侧 $\alpha$ 分位数： $X$ 的概率密度函数为偶函数，
$P(|X| > x_{\alpha/2}) = \alpha$

抽样分布

正态分布：若 $X_1, X_2, \cdots, X_n$ 相互独立，且 $X_i \sim N\left(\mu_i, \sigma_i^2\right)$ ，则
$\sum_{i=1}^n a_i X_i \sim N\left(\sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i^2 \sigma_i^2\right)$
特别地，若 $X_i \sim N\left(\mu, \sigma^2\right)$ ，则
$\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i \sim N\left(\mu, \frac{\sigma^2}{n}\right)$
$\chi^2$ 分布：设 $X_1, X_2, \cdots, X_n$ 相互独立，且 $X_i \sim N(0,1)$ ，则

$\sum_{i=1}^n X_i^2 \sim \chi^2(n)$
- $E\left(\chi^2(n)\right)=n$ ， $D\left(\chi^2(n)\right)=2 n$
- 当 $n \rightarrow \infty$ 时， $\chi^2(n) \rightarrow$ 正态分布
t 分布：设 $X \sim N(0,1), Y \sim \chi^2(n)$ ， $X, Y$ 相互独立，则

$T=\frac{X}{\sqrt{Y / n}} \sim t(n)$
- t 分布的概率密度是偶函数
- 当 $n \rightarrow \infty$ 时， $t(n) \rightarrow$ 正态分布
F 分布：设 $X \sim \chi^2(m), Y \sim \chi^2(n)$ ， $X, Y$ 相互独立，则

$F=\frac{X / m}{Y / n} \sim F(m, n)$
- 若 $F \sim F(m, n)$ , 则 $\frac{1}{F} \sim F(n, m)$
- $F_{1-\alpha}(n, m)=\frac{1}{F_\alpha(m, n)}$

正态总体抽样分布

一个正态总体：
$\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$ $\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)$ $\frac{(n-1) S^2}{\sigma^2}=\sum_{i=1}^n\left(\frac{X_i-\bar{X}}{\sigma}\right)^2 \sim \chi^2(n-1)$ $\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)^2 \sim \chi^2(n)$
两个正态总体：
$\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1)$ $\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(m-1, n-1)$
若 $\sigma_1 = \sigma_2$ ，则
$\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{1}{m}+\frac{1}{n}} \sqrt{\frac{(m-1) S_1^2+(n-1) S_2^2}{m+n-2}}} \sim t(m+n-2)$

参数估计

点估计

矩估计：用样本的 $k$ 阶矩作为总体的 $k$ 阶矩的估计量，建立含有待估计参数的方程，从而可解出待估计参数
$\begin{aligned} &\widehat{\mu}=\frac{1}{n} \sum_{i=1}^n X_i=\bar{X}\\ &\widehat{\sigma^2}=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2=(C M)_2 \end{aligned}$
最大似然估计：概率最大的事件在一次实验中最可能发生，因此使得一次试验就出现的事件有较大的概率的参数作为参数真值的估计
- 步骤：
  - 写出似然函数 $L\left(x_1, x_2, \cdots x_n ; \theta_1, \theta_2, \cdots, \theta_k\right)$
  - 求出 $\widehat{\theta}_1, \widehat{\theta}_2, \cdots, \widehat{\theta}_k$ ，使得 $L\left(x_1, x_2, \cdots, x_n ; \widehat{\theta}_1, \widehat{\theta}_2, \cdots, \widehat{\theta}_k\right) = \max _{\left(\theta_1, \theta_2, \cdots, \theta_k\right) \in \theta} L\left(x_1, x_2, \cdots, x_n ; \theta_1, \theta_2, \cdots, \theta_k\right)$
- 最大似然估计不变性原理：设 $\widehat{\theta}$ 是末知参数 $\theta$ 的最大似然估计，又 $g(\theta)$ 是 $\theta$ 的连续函数，则 $\widehat{g}=g(\widehat{\theta})$ 是 $g=g(\theta)$ 的最大似然估计

点估计的评价标准

无偏性：估计量的期望等于真实值
- 定义：设 $\widehat{\theta}$ 是总体参数 $\theta$ 的估计量，若 $E(\widehat{\theta})$ 存在且 $E(\widehat{\theta})=\theta$ 则称 $\widehat{\theta}$ 是 $\theta$ 的无偏估计量
- 样本 $k$ $k$ 阶矩 $M_k=\frac{1}{n} \sum_{i=1}^n X_i^k$ $M_{k} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{k}$ 是总体 $k$ $k$ 阶矩 $\mu_k$ $μ_{k}$ 的无偏估计量
  - 样本均值 $\bar{X}$ 是总体期望 $E(X)$ 的无偏估计量
  - 样本二阶原点矩 $M_2=\frac{1}{n} \sum_{i=1}^n X_i^2$ 是总体二阶原点矩 $E\left(X^2\right)$ 的无偏估计量
- $(C M)_2=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2$ 不是总体方差 $D(X)$ 的无偏估计量
- $S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2$ 是总体方差 $D(X)$ 的无偏估计量
有效性：在无偏估计量中，方差更小的估计量更有效
- 定义：设 $\widehat{\theta_1}$ 和 $\widehat{\theta_2}$ 都是总体参数 $\theta$ 的无偏估计量，且 $D(\widehat{\theta_1})<D(\widehat{\theta_2})$ 则称 $\widehat{\theta_1}$ 比 $\widehat{\theta_2}$ 更有效
一致性：当样本容量 $n$ 足够大时，估计量接近真实值
- 定义：设 $\widehat{\theta_n} = \widehat{\theta}(X_1, X_2, \cdots, X_n)$ 是总体参数 $\theta$ 的估计量，若 $\widehat{\theta_n}$ 依概率收敛于 $\theta$ ，即对 $\forall \epsilon>0$ ，有 $\lim _{n \rightarrow \infty} P\left(|\widehat{\theta_n}-\theta| \geq \epsilon\right)=0$ 则称 $\widehat{\theta_n}$ 是总体参数 $\theta$ 的一致（或相合）估计量
- 样本 $k$ 阶矩是总体 $k$ 阶矩的一致估计量
- 样本方差是总体方差的一致估计量
- 样本二阶中心矩也是总体方差的一致估计量

区间估计

置信度的含义：反复抽取一定容量的样本得到的多个区间中，含有参数真值的区间所占比例
评价标准及原则：
- 可靠度： $\alpha$ 反映了估计的可靠程度， $\alpha$ 越小，可靠程度越高
- 估计精度：置信区间的长度反映了估计的精度
- 原则：一般先保证可靠度，在保证可靠度的基础上，再提高精度
- 提高精度的方法：增大样本容量
求置信区间的步骤：
- 构造一个样本的函数（枢轴量） $g\left(X_1, X_2, \cdots ; \theta\right)$ 其含有待估参数，不含其它未知参数，其分布已知，且分布不依赖于待估计参数
- 给定置信度 $1-\alpha$ ，确定两个常数 $a, b$ 使得 $P\left(a<g\left(X_1, X_2, \cdots ; \theta\right)<b\right)=1-\alpha$
- 由 $a<g\left(X_1, X_2, \cdots ; \theta\right)<b$ 解出 $\bar{\theta}\left(X_1, X_2, \cdots, X_n\right), \quad \underline{\theta}\left(X_1, X_2, \cdots, X_n\right)$ 得到置信区间 $(\underline{\theta}, \overline{\theta})$
一个正态总体下的置信区间：
- 方差 $\sigma^2$ 已知，求 $\mu$ 的置信区间 $U=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$ $P\left(-u_{\alpha / 2}<\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}<u_{\alpha / 2}\right)=1-\alpha$ $\left(\bar{X}-u_{\alpha / 2} \frac{\sigma}{\sqrt{n}}, \quad \bar{X}+u_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)$
- 方差 $\sigma^2$ 未知，求 $\mu$ 的置信区间 $T=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)$ $P\left(-t_{\alpha / 2}(n-1)<\frac{\bar{X}-\mu}{S / \sqrt{n}}<t_{\alpha / 2}(n-1)\right)=1-\alpha$ $\left(\bar{X}-t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}, \quad \bar{X}+t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}\right)$
- 均值 $\mu$ 已知，求 $\sigma^2$ 的置信区间 $\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\sigma^2} \sim \chi^2(n)$ $P\left(\chi_{1-\alpha / 2}^2(n)<\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\sigma^2}<\chi_{\alpha / 2}^2(n)\right)=1-\alpha$ $\left(\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\chi_{\alpha / 2}^2(n)}, \quad \frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\chi_{1-\alpha / 2}^2(n)}\right)$
- 均值 $\mu$ 未知，求 $\sigma^2$ 的置信区间 $\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1)$ $P\left(\chi_{1-\alpha / 2}^2(n-1)<\frac{(n-1) S^2}{\sigma^2}<\chi_{\alpha / 2}^2(n-1)\right)=1-\alpha$ $\left(\frac{(n-1) S^2}{\chi_{\alpha / 2}^2(n-1)}, \quad \frac{(n-1) S^2}{\chi_{1-\alpha / 2}^2(n-1)}\right)$

假设检验

假设检验的概念

假设检验的步骤：
- 提出原假设 $H_0$ $H_{0}$ 与备择假设 $H_1$ $H_{1}$
  - 通常把有把握的、有经验的结论作为原假设
- 当 $H_0$ 为真时，选择一个合适的检验统计量 $V$ ，它的分布已知
- 给定显著性水平 $\alpha$ $α$ ，确定拒绝域
  - 双侧检验： $\left(V<V_{1-\alpha / 2}\right) \cup\left(V>V_{\alpha / 2}\right)$
  - 左侧检验： $\left(V<V_{1-\alpha}\right)$
  - 右侧检验： $\left(V>V_\alpha\right)$
- 计算检验统计量的样本值，根据样本值作出相应的推断
假设检验的原理：小概率事件原理
- 小概率事件在一次实验中几乎不发生
两类错误：
- 第一类错误：弃真错误，即在 $H_0$ $H_{0}$ 为真的条件下拒绝 $H_0$ $H_{0}$
  - 犯第一类错误的概率为 $\alpha$ ，即显著性水平
- 第二类错误：取伪错误，即在 $H_0$ $H_{0}$ 为假的条件下接受 $H_0$ $H_{0}$
  - 犯第二类错误的概率为 $\beta$
  - 减小 $\beta$ 的方法是增大样本容量 $n$
假设检验的原则：控制犯第一类错误的概率不超过 $\alpha$ ，然后尽可能减少犯第二类错误的概率

单个正态总体的参数检验

均值 $\mu$ 的检验

$\sigma^2$ 已知： $U$ 检验法

$\sigma^2$ 未知： $T$ 检验法

方差 $\sigma^2$ 的检验

$\mu$ 已知： $\chi^2$ 检验法

$\mu$ 未知： $\chi^2$ 检验法

$p$ 值检验法

步骤：
- 根据问题提出假设，如 $H_0: \mu=\mu_0$ ， $H_1: \mu \neq \mu_0$
- 确定检验统计量，如 $U$
- 算出检验统计量的观测值（如：记为 $u_0$ ）
- 计算 $P\left(|U|>\left|u_0\right|\right) \triangleq p$ $P (∣ U ∣ > ∣ u_{0} ∣) ≜ p$ ，这个 $p$ $p$ 值就等于拒绝原假设的概率
  - 对于对称分布：如标准正态分布或 $t$ 分布 $p=\begin{cases} P\left(|Z|>\left|z_0\right|\right), & \text { 双侧检验} \\ P\left(Z \geq z_0\right), & \text { 右侧检验} \\ P\left(Z \leq z_0\right), & \text { 左侧检验} \end{cases}$
  - 对于一般分布：如 $\chi^2$ 分布或 $F$ 分布 $p=\begin{cases} 2 P\left(Z \geq z_0\right), & \text { 双侧检验且 } P\left(Z \geq z_0\right) \leq 0.5, \\ 2 P\left(Z \leq z_0\right), & \text { 双侧检验且 } P\left(Z \leq z_0\right) \leq 0.5, \\ P\left(Z \geq z_0\right), & \text { 右侧检验} \\ P\left(Z \leq z_0\right), & \text { 左侧检验} \end{cases}$
- 判断：如果 $p$ 值很小，有理由认为发生这个事件的可能性非常小，所以拒绝 $H_0$ ；否则接受 $H_0$
$p$ 值的含义： $p$ 值的大小决定了 $H_0$ 的不可能性程度
- 如果觉得 $p$ 值小到不能接受的程度，就拒绝 $\boldsymbol{H}_0$
- $p$ 值越小，说明实际观察到的数据与 $H_0$ 之间的不一致程度越高，检验的结果也就越显著

两个正态总体的参数检验

关于 $\mu_1 - \mu_2$ 的假设检验：
- $\sigma_1^2, \sigma_2^2$ 已知：
- $\sigma_1^2, \sigma_2^2$ 未知且 $\sigma_1^2 = \sigma_2^2$ ：
关于 $\sigma_1^2 / \sigma_2^2$ 的假设检验：

参考资料

本文参考了上海交通大学《概率统计》课程 MATH1207H 皮玲老师的 PPT 课件。

数学

#数学 #概率论 #数理统计

Math Review: Probability Theory

https://cny123222.github.io/2026/03/16/Math-Review-Probability-Theory/

Author

Nuoyan Chen

Posted on

March 16, 2026

Licensed under

Cheatsheet: C++ Previous

Math Review: Linear Algebra Next

Math Review: Probability Theory

随机事件和概率

概率的性质

条件概率

随机事件的关系

随机变量及其分布

常见的离散型分布

常见的连续型分布

泊松分布和其他分布的关系

多维随机变量及其分布

随机变量的数字特征

大数定律和中心极限定理

大数定律

中心极限定理

数理统计的基本概念

常用统计量

抽样分布

正态总体抽样分布

参数估计

点估计

点估计的评价标准

区间估计

假设检验

假设检验的概念

单个正态总体的参数检验

均值 μ\muμ 的检验

方差 σ2\sigma^2σ2 的检验

ppp 值检验法

两个正态总体的参数检验

参考资料

均值 $\mu$ 的检验

方差 $\sigma^2$ 的检验

$p$ 值检验法