Chapter 5 大数定律及中心极限定理

5.1 大数定律

定义5.1 设 $Y_1$ , $Y_2$ , $…$ ， $Y_n$ , $…$ 为一个随机变量序列，c为一常数，若对于 $\forall\varepsilon>0$ ，均有：

$\displaystyle\lim_{x \to \infty}{P\{|Y_n-c|\geq\varepsilon\}}=0$

成立，则称随机变量序列 $\{Y_n,n\geq1\}$ 依概率收敛于c，记为 $Y_n \stackrel{P}{\longrightarrow}c$ , 当 $n\rightarrow\infty$ .

定理（Chebyshev不等式） 设随机变量具有数学期望 $E(X)=\mu$ , 方差 $D(X)=\sigma^2$ ，则对于任意 $\varepsilon>0$ , 都有：

$P\{|X-\mu|\geq\varepsilon\}\leq\dfrac{\sigma^2}{\varepsilon_2}$

定理的等价形式：

$P\{|X-\mu|<\varepsilon\}\geq1-\dfrac{\sigma^2}{\varepsilon_2}$

适用范围：对于期望、存在的随机变量（范围广,但结果比较粗糙）

定理1 (Bernoulli大数定律) 设 $n_A$ 为n重Bernoulli试验中事件A发生的次数， $p(0<p<1)$ 为事件A在每次试验中发生的概率，则对于$ \varepsilon > 0$，有

$\displaystyle\lim_{n \rightarrow +\infty} P\left( \left\vert \dfrac{n_A}{n} - p \right\vert \geqslant \varepsilon \right) = 0$

即事件A发生的频率 $\dfrac{n_A}{n}$ 依概率收敛到A发生的概率 $p$ 。

定理2 （切比雪夫大数定律的推论) $X_1, X_2, …,X_n,…$ 为相互独立的随机变量，且具有相同的期望 $\mu$ , 相同的方差 $\sigma^2$ , 那么

$\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}X_i\stackrel{P}{\longrightarrow}\mu, (n\rightarrow\infty)$

定理3 (辛钦大数定理) $X_1, X_2, …,X_n,…$ 为相互独立的随机变量，且其期望存在，记为 ${\mu}$ , 那么

$\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}X_i\stackrel{P}{\longrightarrow}\mu, (n\rightarrow\infty)$

5.2 中心极限定理

定理1(独立同分布的中心极限定理) 设随机变量 $X_1, X_2, …,X_n,…$ ，相互独立且同分布， $E(X_i)=\mu$ , $D(X_i)=\sigma^2$ , $i=1,2,…$ ，则对于充分大的n，有 $\displaystyle\sum_{i=1}^{n}X_i \stackrel{近似}{\sim}N(n\mu,n\sigma^2)$ .此时

$P(a<\displaystyle\sum_{i=1}^{n}X_i\leq b)\approx\Phi(\dfrac{b-n\mu}{\sqrt{n} \sigma})-\Phi(\dfrac{a-n\mu}{\sqrt{n} \sigma})$

定理3 (De Moivre-Laplace定理) 设 $n_A$ 为n重Bernoulli试验中事件A发生的次数， $p(0<p<1)$ 为事件A在每次试验中发生的概率，则对于充分大的 $n$ 有

$n_A \sim N(np, np(1-p))$

即对于二项分布 $B(n,p)$ ,当 $n$ 充分大的时候，可用正态分布来近似。

Chapter 6 样本及抽样分布

6.1 总体与样本

在数理统计中，我们将所研究的对象的全体称为总体，而将总体中的每个成员称为个体。
总体中所包含的个体的数量称为样本的容量，如果一个总体所包含的个体数量是有限的，则称之为有限总体。如果总体所包含的个体数量是无限的，则称之为无限总体。
样本：被抽取的部分个体
简单随机样本
- 随机样本 $(X_1,X_2,…，X_n)$ 中，每个 $X_i$ 与 $X_n$ 是相互独立的随机变量
- 这些样本和总体 $X$ 同分布
获得简单随机样本
- 简单随机抽样
- 对于有限个体采用放回抽样
- 对于无限总体（或很大的总体）采用不放回抽样

6.2 统计量与抽样分布

一、统计量

定义设 $(X_1, X_2, \dots, X_n)$ 为来自总体 $X$ 的一个样本， $g(x_1, x_2, \dots, x_n)$ 是 $X_1, X_2, \dots, X_n$ 的函数，若 $g$ 中不含位置参数，则称 $g(X_1, X_2, \dots, X_n)$ 是一统计量。

常用统计量：

样本平均值：

$\overline X = \dfrac{1}{n} \sum_{i=1}^{n} X_i$
样本方差：

$S^2= \dfrac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline X)$
样本标准差：

$S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}(X_i-\overline{X})}$
样本 $k$ 阶原点矩：

$A_k=\frac{1}{n} \sum_{i=1}^{n} X_i^k， \quad k=1,2,3,\dots$
样本 $k$ 阶中心矩：

$B_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline X)^k,\quad k=1,2,3,\dots$

在一次具体的观察中，统计量是具体的数值；但脱离具体的观察或试验，统计量应看作随机变量。

统计量的分布称为抽样分布

二、正态总体的常用统计量的分布

（一） $\chi^2$ 分布

定义设 $X_1, X_2, \dots, X_n$ 为独立同分布的随机变量，均服从 $N(0, 1)$ ，则称随机变量

$\chi^2 = \sum_{i=1}^{n} X_i^2$

为服从自由度为n的 $\chi^2$ 分布，记为 $\chi^2 \sim \chi^2(n)$ .

自由度：独立变量的个数

概率密度（~~不重要~~）

$f(y)= \begin{cases} \dfrac{1}{2^{\frac n2 \Gamma(\frac n2)}} y^{\frac {n}{2}-1}e^{-{\frac y2}} & \text{y>0}\\ 0& \text{其他} \end{cases}$

其中，

$\Gamma(\alpha)=\int_{0}^{+\infty}x^{\alpha-1}e^{-x}dx \\ \Gamma(n)=(n-1)!$

性质:

$\chi^2$ 分布的可加性 若 $\chi_1^2 \sim \chi^2(n_1)，\chi_2^2 \sim \chi^2(n_2)$ ，并且 $\chi_1^2$ 与 $\chi_2^2$ 相互独立，则有

$\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)$
$\chi^2$ 分布的期望和方差 若 $\chi^2 \sim \chi^2(n)$ ，则有

$E(\chi^2)=n,\quad D(\chi^2)=2n$

$\chi^2$ 分布的上分位点 对于给定的正数 $\alpha$ , $0<\alpha<1$ , 满足条件

$P\{ \chi^2>\chi^2_\alpha(n) \}=\int_0^{\infty}f(y)dy=\alpha$

的点 $\chi_\alpha^2(n)$ 就是 $\chi_2(n)$ 分布的上 $\alpha$ 分位点。

（二）t 分布

定义设 $X\sim N(0, 1)，Y \sim \chi^2(n)$ ，且X与Y相互独立，则称随机变量

$T = \dfrac{X}{\sqrt{Y/n}}$

为服从自由度n的 t 分布，记为 $T \sim t(n)$ .

概率密度函数 ：

$h(t)=\dfrac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2}$

当 $n \rightarrow +\infty$ 时,

$\displaystyle \lim_{n \rightarrow +\infty} h(1)=\frac{1}{\sqrt{2\pi}}e^{-t^2/2}$

故当n足够大时，t 分布近似于 $N(0,1)$ 分布。

t 分布的上分位点 对于给定的 $\alpha$ , $0<\alpha<1$ , 满足条件

$P\{ t>t_\alpha(n)\}=\int_{t_\alpha}^\infty h(t) dt=\alpha$

的点 $t_\alpha(n)$ 就是 $t(n)$ 分布的上 $\alpha$ 分位点。

$t_{1-\alpha}(n)=-t_\alpha(n)$

（三）F 分布

定义设 $U \sim \chi^2(n_1)，V \sim \chi^2(n_2)$ ，且U与V相互独立，则称随机变量

$F = \dfrac{U/n_1}{V/n_2}$

服从自由度为 $(n_1, n_2)$ 的F分布，记为 $F \sim F(n_1, n_2)$ .

概率密度函数 :

$\psi(y)= \begin{cases} \dfrac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}y^{(n_1/2)-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1y/n_2)]^{(n_1+n_2)/2}} & \text{y>0}\\ 0& \text{其他} \end{cases}$

性质：

若 $F \sim F(n_1, n_2)$ ，则 $\dfrac{1}{F} \sim F(n_2, n_1)$ .
若 $T \sim t(n)$ ，则 $T^2 \sim F(1, n)$

F 分布的上分位点 对于给定的 $\alpha$ , $0<\alpha<1$ , 满足条件

$P\{ F>F_\alpha(n_1,n_2)\}=\int_{F_\alpha(n_1,n_2)}^\infty \psi(y) dy=\alpha$

的点 $F_\alpha(n_1,n_2)$ 就是 $F(n_1,n_2)$ 分布的上 $\alpha$ 分位点。

三、正态总体的样本均值与样本方差的分布

定理一二三 设 $X_1,X_2,\dots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的样本，则

$\bar{X} \sim N(\mu, \dfrac{\sigma^2}{n})$ ；
$\dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ ；
$\bar{X}$ 和 $S^2$ 相互独立；
$\dfrac{\bar{X} - \mu}{S/\sqrt n} \sim t(n-1) $

定理四 设 $X_1,X_2,\dots, X_n$ 与 $Y_1,Y_2,\dots,Y_n$ 分别是来自正态总体 $N(\mu_1,\sigma_1^2)$ 和 $N(\mu_2, \sigma_2^2)$ 的样本，且两样本相互独立。记 $\bar{X}=\dfrac{1}{n_1} \displaystyle\sum_{i=1}^{n_1}$ 和 $\bar{Y}=\dfrac{1}{n_2} \displaystyle\sum_{i=1}^{n_2}$ 分别为它们的样本均值； $S_1^2=\dfrac{1}{n_1-1} \displaystyle\sum_{i=1}^{n_1}({X_i-\bar{X})^2}$ , $S_2^2=\dfrac{1}{n_2-1} \displaystyle\sum_{i=1}^{n_2}({Y_i-\bar{Y})^2}$ 分别为它们的样本方差，则有

$\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}=F(n_1-1,n_2-1)$
当 $\sigma_1^2=\sigma_2^2=\sigma_3^2$ 时，

$\dfrac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_w \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$

其中，

$S_w^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2},\quad S_w=\sqrt{S_w^2}$

Chapter 7 参数估计

参数：反应总体某方面特征的量（比如：合格率、均值、方差、中位数…

参数估计的形式：点估计和区间估计

7.1 点估计

借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。

设总体的分布函数为 $F(x; \theta)$ ，其中 $\theta$ 为k维向量。根据样本 $X_1, X_2, \dots, X_n$ 构造一个统计量 $\hat{\theta}(X_1, X_2, \dots, X_n)$ 作为 $\theta$ 的估计，则称 $\hat{\theta}(X_1, X_2, \dots, X_n)$ 为 $\theta$ 的估计量。如果 $x_1, x_2, \dots, x_n$ 是一个样本观察值，带入 $\hat{\theta}$ 后得到的具体值 $\hat{\theta}(x_1, x_2, \dots, x_n)$ 称为 $\theta$ 的估计值。

常用的点估计方法：矩估计法、极大似然估计法。

一、矩估计法

统计思想：以样本矩估计总体矩，以样本矩的函数估计总体矩的函数。

理论依据：辛钦大数定律和依概率收敛的性质。

设 $\theta_1,\theta_2,\dots,\theta_k$ 为待估参数， $X_1,X_2,\dots,X_n$ 是来自X的样本。矩估计的具体步骤：

建立 $(\theta_1,\theta_2,\dots,\theta_k)$ 与 $(\mu_1,\mu_2,\dots,\mu_k)$ 的联系：求总体前k阶矩关于k个参数的函数

$\mu_i=E(X^i)=h_i(\theta_1,\theta_2,\dots,\theta_k),\quad i=1,2,\dots,k.$
求各参数关于k阶矩的反函数

$\theta_i=g_i(\mu_1,\mu_2,\dots,\mu_k),\quad i=1,2,\dots,k$
以样本各阶矩 $A_1,A_2,\dots,A_k$ 代替总体X各阶矩 $\mu_1,\mu_2,\dots,\mu_k$ , 得到各参数的矩估计

$\hat\theta_i=g_i(A_1,A_2,\dots,A_k),\quad i=1,2,\dots,k$

【注】：方差 $\sigma^2$ 的矩估计并不是（修正）样本方差 $S^2$ ，而是样本二阶中心距

$B_2 = \dfrac{1}{n} \sum\limits_{i=1}^n (X_i - \bar{X})^2 = \dfrac{n-1}{n}S^2$

矩估计的特点：

直观、简便
适用范围广，不需要知道总体分布的具体类型
没有充分利用总体分布的信息，精度不高

二、最大似然估计法

离散型总体 $X \sim p(x;\theta),\theta \in \Theta$ , $\theta$ 为待估参数， $\Theta$ 为参数的取值范围。 $X_1,X_2,\dots, X_n$ 是来自总体X的样本，则 $X_1, X_2, \dots, X_n$ 的联合分布率为

$\prod_{i=1}^{n}p(x_i;\theta)$

又设 $(x_1, x_2, \dots, x_n)$ 是相应于样本的一组观察值，那么样本 $X_1, X_2, \dots, X_n$ 取到观察值的概率为

$L(\theta)=L(x_1,x_2,\dots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta), \quad \theta \in \Theta$

$L(\theta)$ 称为样本的似然函数。

最大似然估计法就是固定样本的观察值 $x_1, x_2, \dots, x_n$ ，在 $\theta$ 取值的可能范围 $\Theta$ 内挑选使得最大似然函数 $L(\theta)=L(x_1,x_2,\dots,x_n;\theta)$ 达到最大值的参数值 $\hat\theta$ 作为参数 $\theta$ 的估计值，即取 $\hat\theta$ 使

$L(x_1,x_2,\dots,x_n;\hat\theta)=\displaystyle\max_{\theta \in \Theta} L(x_1,x_2,\dots,x_n;\theta)$

这样得到的 $\hat\theta$ 值与 $x_1,x_2,\dots,x_n$ 有关，常记为 $\hat\theta(x_1,x_2,\dots,x_n)$ ,称为参数 $\theta$ 的最大似然估计值,相应的统计量 $\hat\theta(X_1,X_2,\dots,X_n)$ 称为参数 $\theta$ 的最大似然估计量。

连续型总体的概率密度 $f(x_i; \theta), \theta \in \Theta$ $\theta$ 为待估参数， $\Theta$ 为参数的取值范围。 $X_1,X_2,\dots, X_n$ 是来自总体X的样本，则 $X_1, X_2, \dots, X_n$ 的概率密度函数为

$\prod_{i=1}^{n} p(x_i; \theta)$

又设 $x_1, x_2, \dots, x_n$ 是样本的一组观察值，那么样本 $(X_1, X_2, \dots, X_n)$ 落在 $x_1, x_2, \dots, x_n$ 的领域内的概率近似为

$\prod_{i=1}^n p(x_i; \theta) dx_i$

因子 $\displaystyle\prod_{i=1}^{n}dx_i$ 与参数 $\theta$ 无关, 所以似然函数：

$L(\theta)=L(x_1, x_2, \dots, x_n;\theta)=\prod_{i=1}^n f(x_i;n)$

满足下式

$L(x_1, x_2, \dots, x_n;\hat\theta)=\max_{\theta \in \Theta} L(x_1, x_2, \dots, x_n;\theta)$

的 $\hat\theta(x_1,x_2,\dots,x_n)$ 称为 $\theta$ 的最大似然_估计值， $\hat\theta(X_1,X_2,\dots,X_n)$ 称为最大似然估计量。

【说明】：

很多情形下， $p(x_i;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微， $\theta$ 可从以下方程中解得

$\frac{d}{d\theta}L(\theta)=0$
对数似然函数 : $lnL(\theta)$
对数似然方程组：

$\dfrac{\partial L(\theta)}{\partial \theta} = \sum\limits_{i=1}^n \dfrac{\partial \ln p(x_i; \theta)}{\partial \theta} = 0$

7.3 估计量的评选标准

一、无偏性

定义若 $\hat\theta=\hat{\theta}(X_1, X_2, \dots, X_n)$ 为参数 $\theta$ 的一个估计量， $\Theta$ 为参数 $\theta$ 的取值范围，若对任意的 $\theta \in \Theta$ , 有

$E(\hat{\theta}) = \theta$

则称 $\hat\theta$ 是 $\theta$ 的无偏估计量。

若 $E(\hat\theta) \neq 0$ , 那么 $|E(\hat\theta)-\theta|$ 称为估计量 $\hat\theta$ 的偏差，

若 $\displaystyle\lim_{n \rightarrow \infty}E(\theta)=\theta$ ，则称 $\hat\theta$ 是 $\theta$ 的 渐进无偏估计量。

例: 样本均值 $\bar X$ 是总体均值 $\mu$ 的无偏估计，样本方差 $S_2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar X)^2$ 是总体方差 $\sigma^2$ 的无偏估计，而样本二阶中心矩 $B_2=\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(X_i-\bar X)^2=\dfrac{n-1}{n}S^2$ 不是总体方差 $\sigma^2$ 的无偏估计，但有 $\displaystyle\lim_{n \rightarrow \infty}E(B_2)=\lim_{n \rightarrow \infty}\frac{n-1}{n}\sigma^2=\sigma^2$ ，所以 $B_2$ 是 $\sigma^2$ 的渐进无偏估计。

纠偏方法：如果 $E(\hat\theta)=a\theta+b，\theta \in \Theta$ 其中 $a,b$ 是常数，且 $a \ne 0$ ，则 $\dfrac{1}{a}(\hat\theta-b)$ 是 $\theta$ 的无偏估计。

二、有效性

定义设 $\hat\theta_1=\hat\theta_1(X_1,X_2,\dots,X_n)$ 与 $\hat\theta_2=\hat\theta_2(X_1,X_2,\dots,X_n)$ 都是 $\theta$ 的无偏估计量，若对于任意的 $\theta \in \Theta$ ，有

$D(\hat\theta_1) \leq D(\hat\theta_2)$

且至少对于某一个 $\theta \in \Theta$ 上式中的不等号成立，则称 $\hat\theta_1$ 较 $\hat\theta_2$ 有效。

三、均方误差准则

定义称 $E(\hat{\theta} - \theta)^2$ 为均方误差，记为 $M(\hat{\theta}, \theta)$ 。显然，均方误差越小越好，这一准则称为均方误差准则。

均方误差可以分为两部分：

$M(\hat{\theta}, \theta) = D(\hat{\theta}) + (E(\hat{\theta}) - \theta)^2$

如果估计量是无偏估计，那么第二部分为0，均方误差变为方差。

四、相合性

定义设 $\hat{\theta}(X_1, X_2, \dots, X_n)$ 为参数 $\theta$ 的一个估计量， $\Theta$ 若对任意的 $\theta \in \Theta$ , 当 $n \rightarrow \infty$ 时， $\hat\theta(X_1,X_2,\dots, X_n)$ 依概率收敛于 $\theta$ ，则称 $\hat\theta$ 为 $\theta$ 的相合性估计量。

即，若对于任意 $\theta \in \Theta$ 都满足：对于任意 $\varepsilon > 0$ ，有

$\lim_{n\rightarrow\infty}\{ |\hat\theta-\theta|<\varepsilon \}=1$

则称 $\hat\theta$ 为 $\theta$ 的相合性估计量。

Chapter 5 大数定律及中心极限定理

5.1 大数定律

5.2 中心极限定理

Chapter 6 样本及抽样分布

6.1 总体与样本

6.2 统计量与抽样分布

一 、统计量

二 、正态总体的常用统计量的分布

（一） χ 2 \chi^2 χ2分布

（二）t 分布

（三）F 分布

三 、正态总体的样本均值与样本方差的分布

Chapter 7 参数估计

7.1 点估计

一 、矩估计法

二 、最大似然估计法