Math Review: Probability Theory

Last updated on April 25, 2026 pm

本期是概率论与数理统计的简单复习。

随机事件和概率

概率的性质

  • 差的概率

    P(BA)=P(B)P(AB)P(B-A)=P(B)-P(A B)

  • 加法定理

    P(AB)=P(A)+P(B)P(AB)P(A \cup B)=P(A)+P(B)-P(A B)

    一般地,

    P(i=1nAi)=i=1nP(Ai)1i<jnP(AiAj)+1i<j<knP(AiAjAk)++(1)n1P(A1A2An)P\left(\bigcup_{i=1}^n A_i\right) =\sum_{i=1}^n P\left(A_i\right)-\sum_{1 \leq i<j \leq n} P\left(A_i A_j\right) +\sum_{1 \leq i<j<k \leq n} P\left(A_i A_j A_k\right)+\cdots+(-1)^{n-1} P\left(A_1 A_2 \cdots A_n\right)

条件概率

  • 全概率公式

    B1,B2,,BnB_1, B_2, \cdots, B_n 两两互斥,且 Ω=i=1nBi\Omega=\bigcup_{i=1}^n B_i,那么

    P(A)=i=1nP(Bi)P(ABi)P(A)=\sum_{i=1}^n P\left(B_i\right) P\left(A | B_i\right)

  • 贝叶斯公式

    P(BiA)=P(ABi)P(A)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)P\left(B_i | A\right)=\frac{P\left(A B_i\right)}{P(A)}=\frac{P\left(B_i\right) P\left(A | B_i\right)}{\sum_{j=1}^n P\left(B_j\right) P\left(A | B_j\right)}

随机事件的关系

  • 互斥:事件 A,BA, B 不能同时发生,即 AB=A B=\emptyset

  • 对立:事件 A,BA, B 不同时发生,但其中一定有一个发生,即 AB=A B=\emptysetAB=ΩA \cup B=\Omega

    • 与互斥的关系:对立一定互斥,互斥不一定对立
  • 独立P(AB)=P(A)P(B)P(A B)=P(A) P(B)

    • 与互斥的关系:若 P(A)>0,P(B)>0P(A) > 0, P(B) > 0,则互斥一定不独立,独立一定不互斥

随机变量及其分布

常见的离散型分布

  • 两点分布

    • 概率分布

      P(X=k)=pk(1p)1k,k=0,1P(X=k)=p^k(1-p)^{1-k}, \quad k=0,1

    • 数学期望

      E(X)=pE(X) = p

    • 方差

      D(X)=p(1p)D(X) = p(1-p)

  • 二项分布XB(n,p)X \sim B(n, p)

    • 概率分布

      P(X=k)=Cnkpk(1p)nk,k=0,1,2,,nP(X=k)=C_n^k p^k(1-p)^{n-k}, \quad k=0,1,2, \cdots, n

    • 数学期望

      E(X)=npE(X) = np

    • 方差

      D(X)=np(1p)D(X) = np(1-p)

  • 几何分布XG(p)X \sim G(p)

    • 背景:一系列伯努利试验中,第一次成功时的试验次数

    • 概率分布

      P(X=k)=p(1p)k1,k=1,2,P(X=k)=p(1-p)^{k-1}, \quad k=1,2, \cdots

    • 数学期望

      E(X)=1pE(X) = \frac{1}{p}

    • 方差

      D(X)=1pp2D(X) = \frac{1-p}{p^2}

  • 负二项分布(帕斯卡分布)XNb(r,p)X \sim Nb(r, p)

    • 背景:一系列伯努利试验中,第 rr 次成功时的试验次数

    • 概率分布

      P(X=k)=Ck1r1pr(1p)kr,k=r,r+1,P(X=k)=C_{k-1}^{r-1} p^r(1-p)^{k-r}, \quad k=r, r+1, \cdots

  • 泊松分布XP(λ)X \sim P(\lambda)

    • 概率分布

      P(X=k)=eλλkk!,k=0,1,2,P(X=k)=e^{-\lambda} \frac{\lambda^k}{k!}, \quad k=0,1,2, \cdots

      其中 λ>0\lambda > 0

    • 数学期望

      E(X)=λE(X) = \lambda

    • 方差

      D(X)=λD(X) = \lambda

常见的连续型分布

  • 均匀分布XU(a,b)X \sim U(a, b)

    • 密度函数

      f(x)={1ba,x(a,b)0, 其他 f(x)=\begin{cases} \dfrac{1}{b-a}, & x \in(a, b) \\ 0, & \text { 其他 } \end{cases}

    • 分布函数

      F(x)={0,x<axaba,ax<b1,xbF(x)=\begin{cases} 0, & x<a \\ \dfrac{x-a}{b-a}, & a \leq x<b \\ 1, & x \geq b \end{cases}

    • 数学期望

      E(X)=a+b2E(X) = \frac{a + b}{2}

    • 方差

      D(X)=(ba)212D(X) = \frac{(b-a)^2}{12}

  • 指数分布XE(λ)X \sim E(\lambda)

    • 密度函数

      f(x)={λeλx,x00,x<0f(x)= \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x<0 \end{cases}

      其中 λ>0\lambda > 0

    • 分布函数

      F(x)={1eλx,x00,x<0F(x)=\begin{cases} 1-e^{-\lambda x}, & x \geq 0 \\ 0, & x<0 \end{cases}

    • 数学期望

      E(X)=1λE(X) = \frac{1}{\lambda}

    • 方差

      D(X)=1λ2D(X) = \frac{1}{\lambda^2}

  • 正态分布XN(μ,σ2)X \sim N(\mu, \sigma^2)

    • 密度函数

      f(x)=12πσe(xμ)22σ2,<x<+f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}, \quad-\infty<x<+\infty

      其中 σ>0\sigma > 0

    • 数学期望

      E(X)=μE(X) = \mu

    • 方差

      D(X)=σ2D(X) = \sigma^2

泊松分布和其他分布的关系

  • 泊松分布与二项分布:若 XB(n,p)X \sim B(n, p),当 nn 较大,pp 较小,而 npnp 适中时,可以近似看成参数为 npnp 的泊松分布

    • 泊松定理:设 limnnpn=λ>0\displaystyle \lim_{n \rightarrow \infty} n p_n=\lambda>0,则对固定的 kk

      limnCnkpnk(1pn)nk=eλλkk!,k=0,1,2,\lim_{n \rightarrow \infty} C_n^k p_n^k\left(1-p_n\right)^{n-k} =e^{-\lambda} \frac{\lambda^k}{k!}, \quad k =0 ,1,2, \cdots

  • 泊松分布与指数分布:泊松分布描述“在单位时间内事件发生的次数”,指数分布描述“相邻两次事件发生的时间间隔”

    • 例如,(0,t)(0, t) 内某柜台需要服务的顾客数 N(t)P(λt)N(t) \sim P(\lambda t),那么先后两个顾客到达柜台的时间间隔服从指数分布
  • 泊松分布与正态分布:泊松分布的极限大样本分布近似于正态分布

多维随机变量及其分布

  • 联合分布与边缘分布

    FX(x)=x+f(u,v)dvdufX(x)=+f(x,y)dyFY(y)=y+f(u,v)dudvfY(y)=+f(x,y)dx\begin{aligned} F_X(x)=\int_{-\infty}^x \int_{-\infty}^{+\infty} f(u, v) d v d u \quad & f_X(x)=\int_{-\infty}^{+\infty} f(x, y) d y \\ F_Y(y)=\int_{-\infty}^y \int_{-\infty}^{+\infty} f(u, v) d u d v \quad & f_Y(y)=\int_{-\infty}^{+\infty} f(x, y) d x \end{aligned}

    • 已知联合分布可以求得边缘分布,反之则不能唯一确定
  • 条件分布

    fXY(xy)=f(x,y)fY(y)P(XxY=y)FXY(xy)=xfXY(uy)duf_{X | Y}(x | y)=\frac{f(x, y)}{f_Y(y)} \\ P(X \leq x | Y=y) \triangleq F_{X | Y}(x | y)=\int_{-\infty}^x f_{X | Y}(u | y) d u

    • 已知联合分布可以求得条件分布,反之则不能唯一确定
    • 但边缘分布和条件分布可以结合求出联合分布
  • 随机变量的独立性

    F(x,y)=FX(x)FY(y)F(x, y)=F_X(x) F_Y(y)

    此时边缘分布完全确定联合分布

  • 具有可加性的分布:同一类型分布的独立随机变量和的分布仍服从此类分布

    • 泊松分布:若 XXYY 相互独立,且 XP(λ1)X \sim P(\lambda_1)YP(λ2)Y \sim P(\lambda_2),那么 X+YP(λ1+λ2)X + Y \sim P(\lambda_1 + \lambda_2)

    • 二项分布:若 XXYY 相互独立,且 XB(n,p)X \sim B(n, p)YB(m,p)Y \sim B(m, p),那么 X+YP(n+m,p)X + Y \sim P(n + m, p)

    • 正态分布:若 XXYY 相互独立,且 XN(μ1,σ12)X \sim N(\mu_1, \sigma_1^2)YN(μ2,σ22)Y \sim N(\mu_2, \sigma_2^2),那么 X±YN(μ1±μ2,σ12+σ22)X \pm Y \sim N(\mu_1 \pm \mu_2, \sigma_1^2 + \sigma_2^2)

    • 卡方分布:若 XXYY 相互独立,且 Xχ2(n1)X \sim \chi^2(n_1)Yχ2(n2)Y \sim \chi^2(n_2),那么 X+Yχ2(n1+n2)X + Y \sim \chi^2(n_1 + n_2)

  • 具有无记忆性的分布:几何分布、指数分布

    P(X>s+tX>s)=P(X>t)P(X>s+t \mid X>s)=P(X>t)

随机变量的数字特征

  • 方差

    • 定义

      D(X)=E[(XE(X))2]D(X) = E\left[\left(X - E(X)\right)^2\right]

    • 计算公式

      D(X)=E(X2)(E(X))2D(X) = E\left(X^2\right) - \left(E(X)\right)^2

  • 协方差

    • 定义

      cov(X,Y)=E((XE(X))(YE(Y)))\operatorname{cov}(X, Y) = E\left(\left(X - E(X)\right)\left(Y - E(Y)\right)\right)

    • 计算公式

      cov(X,Y)=E(XY)E(X)E(Y)\operatorname{cov}(X, Y) = E(XY) - E(X)E(Y)

  • 相关系数

    ρXY=cov(X,Y)D(X)D(Y)\rho_{XY} = \frac{\operatorname{cov}(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}}

  • 不相关的等价表述:若 XXYY 的方差均存在且大于零,下列命题等价:

    • XXYY 不相关
    • ρXY=0\rho_{XY} = 0
    • cov(X,Y)=0\operatorname{cov}(X, Y) = 0
    • E(XY)=E(X)E(Y)E(XY) = E(X) E(Y)
    • D(X±Y)=D(X)+D(Y)D(X \pm Y) = D(X) + D(Y)
  • 不相关与独立的关系XXYY 相互独立,可以推出 XXYY 不相关;反之则不然

大数定律和中心极限定理

  • 切比雪夫不等式:设随机变量 XX 的方差 D(X)D(X) 存在,则对于任意实数 ϵ>0\epsilon > 0

    P(XE(X)ϵ)D(X)ϵ2P(|X-E(X)| \geq \epsilon) \leq \frac{D(X)}{\epsilon^2}

  • 依概率收敛:设 Y1,Y2,,Yn,Y_1, Y_2, \cdots, Y_n, \cdots 是一系列随机变量,若 ϵ>0\forall \epsilon>0

    limnP(Ynaϵ)=0\lim _{n \to \infty} P\left(\left|Y_n-a\right| \geq \epsilon\right)=0

    则称随机变量序列 Y1,Y2,,Yn,Y_1, Y_2, \cdots, Y_n, \cdots 依概率收敛于常数 aa

    • 含义:随机变量序列 YnY_n 收敛于常数 aa 的概率趋于 1

大数定律

  • 大数定律的定义:若随机变量序列 X1,X2,,Xn,X_1, X_2, \cdots, X_n, \cdots 满足:对 ϵ>0\forall \epsilon>0

    limnP(1nk=1nXk1nk=1nE(Xk)ϵ)=0\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{k=1}^n X_k-\frac{1}{n} \sum_{k=1}^n E\left(X_k\right)\right| \geq \epsilon\right)=0

    称该随机变量序列服从大数定律,即

    1nk=1nXknP1nk=1nE(Xk)\frac{1}{n} \sum_{k=1}^n X_k \xrightarrow[n \rightarrow \infty]{P} \frac{1}{n} \sum_{k=1}^n E\left(X_k\right)

    • 也就是说,当样本数量足够大时,样本均值与数学期望充分接近
  • 伯努利大数定律:设 nAn_Ann 次独立重复试验中事件 AA 发生的次数,pp 是每次试验中 AA 发生的概率,则 ϵ>0\forall \epsilon>0 ,有

    limnP(nAnpϵ)=0\lim _{n \rightarrow \infty} P\left(\left|\frac{n_A}{n}-p\right| \geq \epsilon\right)=0

    nAnnPp\dfrac{n_A}{n} \xrightarrow[n \rightarrow \infty]{P} p

  • 切比雪夫大数定律:设随机变量序列 X1,X2,,Xn,X_1, X_2, \cdots, X_n, \cdots 两两不相关,它们的方差存在,且有共同的上界,即

    ρXiXj=0,(ij),E(Xk)=μk,D(Xk)=σk2σ2,k=1,2,\rho_{X_i X_j}=0,(i \neq j), \quad E\left(X_k\right)=\mu_k, \quad D\left(X_k\right)=\sigma_k^2 \leq \sigma^2, \quad k=1,2, \cdots

    则该序列服从大数定律,即对任意正数 ϵ>0\epsilon>0 ,有

    limnP(1nk=1nXk1nk=1nμkϵ)=0\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{k=1}^n X_k-\frac{1}{n} \sum_{k=1}^n \mu_k\right| \geq \epsilon\right)=0

  • 辛钦大数定律:设 X1,X2,,Xn,X_1, X_2, \cdots, X_n, \cdots 相互独立,服从同一分布,且具有相同的数学期望 E(Xk)=μ,k=1,2,E\left(X_k\right)=\mu, k=1,2, \cdots ,则对任意正数 ϵ>0\epsilon>0 ,有

    limnP(1nk=1nXkμϵ)=0\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{k=1}^n X_k-\mu\right| \geq \epsilon\right)=0

    1nk=1nXknPμ\frac{1}{n} \sum_{k=1}^n X_k \xrightarrow[n \rightarrow \infty]{P} \mu

中心极限定理

  • 独立同分布中心极限定理:设随机变量序列 X1,X2,,XnX_1, X_2, \cdots, X_n 为相互独立同分布的,它们的期望、方差都存在,

    E(Xk)=μ,D(Xk)=σ2>0,k=1,2,E\left(X_k\right)=\mu, \quad D\left(X_k\right)=\sigma^2>0, \quad k=1,2, \cdots

    则对于任意实数 xx

    limnP(k=1nXknμnσx)=12πxet22dt\lim _{n \rightarrow \infty} P\left(\frac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma} \leq x\right)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} d t

    这表明 nn 足够大时,

    k=1nXknμnσ 近似 N(0,1)\frac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma} \stackrel{\text { 近似 }}{\sim} N(0,1)

    k=1nXk 近似 N(nμ,nσ2)\sum_{k=1}^n X_k \stackrel{\text { 近似 }}{\sim} N\left(n \mu, n \sigma^2\right)

  • 棣莫弗-拉普拉斯中心极限定理:设 YnB(n,p),0<p<1,n=1,2,Y_n \sim B(n, p), 0<p<1, n=1,2, \cdots ,则对任一实数 xx ,有

    limnP(Ynnpnp(1p)x)=12πxet22dt\lim _{n \rightarrow \infty} P\left(\frac{Y_n-n p}{\sqrt{n p(1-p)}} \leq x\right)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} d t

    nn 足够大时,

    Yn 近似 N(np,np(1p))Y_n \stackrel{\text { 近似 }}{\sim} N(n p, n p(1-p))

数理统计的基本概念

常用统计量

(X1,X2,,Xn)\left(X_1, X_2, \cdots, X_n\right) 是来自总体 XX 的容量为 nn 的样本,

  • 样本均值

    Xˉ=1ni=1nXi\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i

    • 均值

    E(Xˉ)=μE(\bar{X})=\mu

    • 方差

    D(Xˉ)=σ2nD(\bar{X})=\frac{\sigma^2}{n}

  • 样本方差

    S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2

    • 均值

    E(S2)=σ2E\left(S^2\right)=\sigma^2

  • 样本的 kk 阶原点矩

    Mk=1ni=1nXikM_k=\frac{1}{n} \sum_{i=1}^n X_i^k

  • 样本的 kk 阶中心矩

    (CM)k=1ni=1n(XiXˉ)k(C M)_k=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^k

  • 上侧 α\alpha 分位数

    P(X>xα)=αP(X > x_\alpha) = \alpha

  • 双侧 α\alpha 分位数XX 的概率密度函数为偶函数,

    P(X>xα/2)=αP(|X| > x_{\alpha/2}) = \alpha

抽样分布

  • 正态分布:若 X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立,且 XiN(μi,σi2)X_i \sim N\left(\mu_i, \sigma_i^2\right) ,则

    i=1naiXiN(i=1naiμi,i=1nai2σi2)\sum_{i=1}^n a_i X_i \sim N\left(\sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i^2 \sigma_i^2\right)

    特别地,若 XiN(μ,σ2)X_i \sim N\left(\mu, \sigma^2\right) ,则

    Xˉ=1ni=1nXiN(μ,σ2n)\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i \sim N\left(\mu, \frac{\sigma^2}{n}\right)

  • χ2\chi^2 分布:设 X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立,且 XiN(0,1)X_i \sim N(0,1) ,则

    i=1nXi2χ2(n)\sum_{i=1}^n X_i^2 \sim \chi^2(n)

    • E(χ2(n))=nE\left(\chi^2(n)\right)=nD(χ2(n))=2nD\left(\chi^2(n)\right)=2 n
    • nn \rightarrow \infty 时,χ2(n)\chi^2(n) \rightarrow 正态分布
  • t 分布:设 XN(0,1),Yχ2(n)X \sim N(0,1), Y \sim \chi^2(n)X,YX, Y 相互独立,则

    T=XY/nt(n)T=\frac{X}{\sqrt{Y / n}} \sim t(n)

    • t 分布的概率密度是偶函数
    • nn \rightarrow \infty 时,t(n)t(n) \rightarrow 正态分布
  • F 分布:设 Xχ2(m),Yχ2(n)X \sim \chi^2(m), Y \sim \chi^2(n)X,YX, Y 相互独立,则

    F=X/mY/nF(m,n)F=\frac{X / m}{Y / n} \sim F(m, n)

    • FF(m,n)F \sim F(m, n), 则 1FF(n,m)\frac{1}{F} \sim F(n, m)
    • F1α(n,m)=1Fα(m,n)F_{1-\alpha}(n, m)=\frac{1}{F_\alpha(m, n)}

正态总体抽样分布

  • 一个正态总体

    Xˉμσ/nN(0,1)\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)

    XˉμS/nt(n1)\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)

    (n1)S2σ2=i=1n(XiXˉσ)2χ2(n1)\frac{(n-1) S^2}{\sigma^2}=\sum_{i=1}^n\left(\frac{X_i-\bar{X}}{\sigma}\right)^2 \sim \chi^2(n-1)

    i=1n(Xiμσ)2χ2(n)\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)^2 \sim \chi^2(n)

  • 两个正态总体

    (XˉYˉ)(μ1μ2)σ12m+σ22nN(0,1)\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1)

    S12/σ12S22/σ22F(m1,n1)\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(m-1, n-1)

    σ1=σ2\sigma_1 = \sigma_2,则

    (XˉYˉ)(μ1μ2)1m+1n(m1)S12+(n1)S22m+n2t(m+n2)\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{1}{m}+\frac{1}{n}} \sqrt{\frac{(m-1) S_1^2+(n-1) S_2^2}{m+n-2}}} \sim t(m+n-2)

参数估计

点估计

  • 矩估计:用样本的 kk 阶矩作为总体的 kk 阶矩的估计量,建立含有待估计参数的方程,从而可解出待估计参数

    μ^=1ni=1nXi=Xˉσ2^=1ni=1n(XiXˉ)2=(CM)2\begin{aligned} &\widehat{\mu}=\frac{1}{n} \sum_{i=1}^n X_i=\bar{X}\\ &\widehat{\sigma^2}=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2=(C M)_2 \end{aligned}

  • 最大似然估计:概率最大的事件在一次实验中最可能发生,因此使得一次试验就出现的事件有较大的概率的参数作为参数真值的估计

    • 步骤
      • 写出似然函数 L(x1,x2,xn;θ1,θ2,,θk)L\left(x_1, x_2, \cdots x_n ; \theta_1, \theta_2, \cdots, \theta_k\right)
      • 求出 θ^1,θ^2,,θ^k\widehat{\theta}_1, \widehat{\theta}_2, \cdots, \widehat{\theta}_k ,使得

        L(x1,x2,,xn;θ^1,θ^2,,θ^k)=max(θ1,θ2,,θk)θL(x1,x2,,xn;θ1,θ2,,θk)L\left(x_1, x_2, \cdots, x_n ; \widehat{\theta}_1, \widehat{\theta}_2, \cdots, \widehat{\theta}_k\right) = \max _{\left(\theta_1, \theta_2, \cdots, \theta_k\right) \in \theta} L\left(x_1, x_2, \cdots, x_n ; \theta_1, \theta_2, \cdots, \theta_k\right)

    • 最大似然估计不变性原理:设 θ^\widehat{\theta} 是末知参数 θ\theta 的最大似然估计,又 g(θ)g(\theta)θ\theta 的连续函数,则 g^=g(θ^)\widehat{g}=g(\widehat{\theta})g=g(θ)g=g(\theta) 的最大似然估计

点估计的评价标准

  • 无偏性:估计量的期望等于真实值

    • 定义:设 θ^\widehat{\theta} 是总体参数 θ\theta 的估计量,若 E(θ^)E(\widehat{\theta}) 存在且

      E(θ^)=θE(\widehat{\theta})=\theta

      则称 θ^\widehat{\theta}θ\theta 的无偏估计量
    • 样本 kk 阶矩 Mk=1ni=1nXikM_k=\frac{1}{n} \sum_{i=1}^n X_i^k 是总体 kk 阶矩 μk\mu_k 的无偏估计量
      • 样本均值 Xˉ\bar{X} 是总体期望 E(X)E(X) 的无偏估计量
      • 样本二阶原点矩 M2=1ni=1nXi2M_2=\frac{1}{n} \sum_{i=1}^n X_i^2 是总体二阶原点矩 E(X2)E\left(X^2\right) 的无偏估计量
    • (CM)2=1ni=1n(XiXˉ)2(C M)_2=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2 不是总体方差 D(X)D(X) 的无偏估计量
    • S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2 是总体方差 D(X)D(X) 的无偏估计量
  • 有效性:在无偏估计量中,方差更小的估计量更有效

    • 定义:设 θ1^\widehat{\theta_1}θ2^\widehat{\theta_2} 都是总体参数 θ\theta 的无偏估计量,且

      D(θ1^)<D(θ2^)D(\widehat{\theta_1})<D(\widehat{\theta_2})

      则称 θ1^\widehat{\theta_1}θ2^\widehat{\theta_2} 更有效
  • 一致性:当样本容量 nn 足够大时,估计量接近真实值

    • 定义:设 θn^=θ^(X1,X2,,Xn)\widehat{\theta_n} = \widehat{\theta}(X_1, X_2, \cdots, X_n) 是总体参数 θ\theta 的估计量,若 θn^\widehat{\theta_n} 依概率收敛于 θ\theta,即对 ϵ>0\forall \epsilon>0,有

      limnP(θn^θϵ)=0\lim _{n \rightarrow \infty} P\left(|\widehat{\theta_n}-\theta| \geq \epsilon\right)=0

      则称 θn^\widehat{\theta_n} 是总体参数 θ\theta 的一致(或相合)估计量
    • 样本 kk 阶矩是总体 kk 阶矩的一致估计量
    • 样本方差是总体方差的一致估计量
    • 样本二阶中心矩也是总体方差的一致估计量

区间估计

  • 置信度的含义:反复抽取一定容量的样本得到的多个区间中,含有参数真值的区间所占比例

  • 评价标准及原则

    • 可靠度α\alpha 反映了估计的可靠程度,α\alpha 越小,可靠程度越高
    • 估计精度:置信区间的长度反映了估计的精度
    • 原则:一般先保证可靠度,在保证可靠度的基础上,再提高精度
    • 提高精度的方法:增大样本容量
  • 求置信区间的步骤

    • 构造一个样本的函数(枢轴量)

      g(X1,X2,;θ)g\left(X_1, X_2, \cdots ; \theta\right)

      其含有待估参数,不含其它未知参数,其分布已知,且分布不依赖于待估计参数
    • 给定置信度 1α1-\alpha ,确定两个常数 a,ba, b 使得

      P(a<g(X1,X2,;θ)<b)=1αP\left(a<g\left(X_1, X_2, \cdots ; \theta\right)<b\right)=1-\alpha

    • a<g(X1,X2,;θ)<ba<g\left(X_1, X_2, \cdots ; \theta\right)<b 解出

      θˉ(X1,X2,,Xn),θ(X1,X2,,Xn)\bar{\theta}\left(X_1, X_2, \cdots, X_n\right), \quad \underline{\theta}\left(X_1, X_2, \cdots, X_n\right)

      得到置信区间 (θ,θ)(\underline{\theta}, \overline{\theta})
  • 一个正态总体下的置信区间

    • 方差 σ2\sigma^2 已知,求 μ\mu 的置信区间

      U=Xˉμσ/nN(0,1)U=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)

      P(uα/2<Xˉμσ/n<uα/2)=1αP\left(-u_{\alpha / 2}<\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}<u_{\alpha / 2}\right)=1-\alpha

      (Xˉuα/2σn,Xˉ+uα/2σn)\left(\bar{X}-u_{\alpha / 2} \frac{\sigma}{\sqrt{n}}, \quad \bar{X}+u_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)

    • 方差 σ2\sigma^2 未知,求 μ\mu 的置信区间

      T=XˉμS/nt(n1)T=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)

      P(tα/2(n1)<XˉμS/n<tα/2(n1))=1αP\left(-t_{\alpha / 2}(n-1)<\frac{\bar{X}-\mu}{S / \sqrt{n}}<t_{\alpha / 2}(n-1)\right)=1-\alpha

      (Xˉtα/2(n1)Sn,Xˉ+tα/2(n1)Sn)\left(\bar{X}-t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}, \quad \bar{X}+t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}\right)

    • 均值 μ\mu 已知,求 σ2\sigma^2 的置信区间

      i=1n(Xiμ)2σ2χ2(n)\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\sigma^2} \sim \chi^2(n)

      P(χ1α/22(n)<i=1n(Xiμ)2σ2<χα/22(n))=1αP\left(\chi_{1-\alpha / 2}^2(n)<\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\sigma^2}<\chi_{\alpha / 2}^2(n)\right)=1-\alpha

      (i=1n(Xiμ)2χα/22(n),i=1n(Xiμ)2χ1α/22(n))\left(\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\chi_{\alpha / 2}^2(n)}, \quad \frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\chi_{1-\alpha / 2}^2(n)}\right)

    • 均值 μ\mu 未知,求 σ2\sigma^2 的置信区间

      (n1)S2σ2χ2(n1)\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1)

      P(χ1α/22(n1)<(n1)S2σ2<χα/22(n1))=1αP\left(\chi_{1-\alpha / 2}^2(n-1)<\frac{(n-1) S^2}{\sigma^2}<\chi_{\alpha / 2}^2(n-1)\right)=1-\alpha

      ((n1)S2χα/22(n1),(n1)S2χ1α/22(n1))\left(\frac{(n-1) S^2}{\chi_{\alpha / 2}^2(n-1)}, \quad \frac{(n-1) S^2}{\chi_{1-\alpha / 2}^2(n-1)}\right)

假设检验

假设检验的概念

  • 假设检验的步骤

    • 提出原假设 H0H_0 与备择假设 H1H_1
      • 通常把有把握的、有经验的结论作为原假设
    • H0H_0 为真时,选择一个合适的检验统计量 VV ,它的分布已知
    • 给定显著性水平 α\alpha ,确定拒绝域
      • 双侧检验(V<V1α/2)(V>Vα/2)\left(V<V_{1-\alpha / 2}\right) \cup\left(V>V_{\alpha / 2}\right)
      • 左侧检验(V<V1α)\left(V<V_{1-\alpha}\right)
      • 右侧检验(V>Vα)\left(V>V_\alpha\right)
    • 计算检验统计量的样本值,根据样本值作出相应的推断
  • 假设检验的原理:小概率事件原理

    • 小概率事件在一次实验中几乎不发生
  • 两类错误

    • 第一类错误:弃真错误,即在 H0H_0 为真的条件下拒绝 H0H_0
      • 犯第一类错误的概率为 α\alpha,即显著性水平
    • 第二类错误:取伪错误,即在 H0H_0 为假的条件下接受 H0H_0
      • 犯第二类错误的概率为 β\beta
      • 减小 β\beta 的方法是增大样本容量 nn
  • 假设检验的原则:控制犯第一类错误的概率不超过 α\alpha,然后尽可能减少犯第二类错误的概率

单个正态总体的参数检验

均值 μ\mu 的检验

  • σ2\sigma^2 已知UU 检验法

  • σ2\sigma^2 未知TT 检验法

方差 σ2\sigma^2 的检验

  • μ\mu 已知χ2\chi^2 检验法

  • μ\mu 未知χ2\chi^2 检验法

pp 值检验法

  • 步骤

    • 根据问题提出假设,如 H0:μ=μ0H_0: \mu=\mu_0H1:μμ0H_1: \mu \neq \mu_0
    • 确定检验统计量,如 UU
    • 算出检验统计量的观测值(如:记为 u0u_0
    • 计算 P(U>u0)pP\left(|U|>\left|u_0\right|\right) \triangleq p ,这个 pp 值就等于拒绝原假设的概率
      • 对于对称分布:如标准正态分布或 tt 分布

        p={P(Z>z0), 双侧检验P(Zz0), 右侧检验P(Zz0), 左侧检验p=\begin{cases} P\left(|Z|>\left|z_0\right|\right), & \text { 双侧检验} \\ P\left(Z \geq z_0\right), & \text { 右侧检验} \\ P\left(Z \leq z_0\right), & \text { 左侧检验} \end{cases}

      • 对于一般分布:如 χ2\chi^2 分布或 FF 分布

        p={2P(Zz0), 双侧检验且 P(Zz0)0.5,2P(Zz0), 双侧检验且 P(Zz0)0.5,P(Zz0), 右侧检验P(Zz0), 左侧检验p=\begin{cases} 2 P\left(Z \geq z_0\right), & \text { 双侧检验且 } P\left(Z \geq z_0\right) \leq 0.5, \\ 2 P\left(Z \leq z_0\right), & \text { 双侧检验且 } P\left(Z \leq z_0\right) \leq 0.5, \\ P\left(Z \geq z_0\right), & \text { 右侧检验} \\ P\left(Z \leq z_0\right), & \text { 左侧检验} \end{cases}

    • 判断:如果 pp 值很小,有理由认为发生这个事件的可能性非常小,所以拒绝 H0H_0;否则接受 H0H_0
  • pp 值的含义pp 值的大小决定了 H0H_0 的不可能性程度

    • 如果觉得 pp 值小到不能接受的程度,就拒绝 H0\boldsymbol{H}_0
    • pp 值越小,说明实际观察到的数据与 H0H_0 之间的不一致程度越高,检验的结果也就越显著

两个正态总体的参数检验

  • 关于 μ1μ2\mu_1 - \mu_2 的假设检验

    • σ12,σ22\sigma_1^2, \sigma_2^2 已知

    • σ12,σ22\sigma_1^2, \sigma_2^2 未知且 σ12=σ22\sigma_1^2 = \sigma_2^2

  • 关于 σ12/σ22\sigma_1^2 / \sigma_2^2 的假设检验

参考资料

本文参考了上海交通大学《概率统计》课程 MATH1207H 皮玲老师的 PPT 课件。


Math Review: Probability Theory
https://cny123222.github.io/2026/03/16/Math-Review-Probability-Theory/
Author
Nuoyan Chen
Posted on
March 16, 2026
Licensed under