正态分布

正态分布

在概率论中,正态分布又称 Gauss 分布(高斯分布),是一种实际生活中应用最广泛的连续型概率分布之一。

目录

1 模型

2 标准化

3 性质

4 3σ 原则

5 与其它分布的关系

6 Fisher 引理

7 统计特性

8 上下节

9 参考资料

模型[]

设连续型随机变量

X

{\displaystyle X}

的概率密度函数是

f

(

x

)

=

1

2

π

σ

e

(

x

μ

)

2

2

σ

2

,

σ

>

0

{\displaystyle f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} \text{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}, \sigma > 0}

我们就说随机变量

X

{\displaystyle X}

服从正态分布,记作

X

N

(

μ

,

σ

2

)

{\displaystyle X \sim N(\mu, \sigma^2)}

。当

X

N

(

0

,

1

)

{\displaystyle X \sim N(0, 1)}

时称为标准正态分布。

它的分布函数是

F

(

x

)

=

x

1

2

π

σ

e

(

t

μ

)

2

2

σ

2

d

t

{\displaystyle F(x) = \int_{-\infty}^x \dfrac{1}{\sqrt{2\pi}\sigma} \text{e}^{-\frac{(t-\mu)^2}{2\sigma^2}} \mathrm{d}t}

可以证明它满足规范化条件,即

F

(

+

)

=

+

1

2

π

σ

e

(

t

μ

)

2

2

σ

2

d

t

=

1

{\displaystyle F(+\infty) = \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \text{e}^{-\frac{(t-\mu)^2}{2\sigma^2}} \mathrm{d}t = 1}

此外,也可以证明,参数

μ

,

σ

2

{\displaystyle \mu, \sigma^2}

分别是该分布的数学期望和方差。它的特征函数是

e

μ

i

t

1

2

σ

2

t

2

.

{\displaystyle \text{e}^{\mu\text{i}t-\frac{1}{2}\sigma^2t^2}.}

R 语言的正态分布密度函数为dnorm,分布函数为pnorm,一些不同参数的正态分布密度函数和分布函数为

标准化[]

设随机变量

X

N

(

μ

,

σ

2

)

{\displaystyle X \sim N(\mu, \sigma^2)}

,如果做可逆的变量代换

X

=

X

μ

σ

{\displaystyle X' = \dfrac{X - \mu}{\sigma}}

,那么

f

(

x

)

=

1

2

π

e

x

2

2

{\displaystyle f(x') = \dfrac{1}{\sqrt{2\pi}} \text{e}^{-\frac{x'^2}{2}}}

X

N

(

0

,

1

)

{\displaystyle X' \sim N(0,1)}

,是标准正态分布。我们把上述变量替换称作正态分布的标准化,这样,研究任意正态分布仅需研究标准正态分布的情形即可。

标准正态分布

x

N

(

0

,

1

)

{\displaystyle x \sim N(0,1)}

有如下性质:

概率密度函数图像是关于

x

=

0

{\displaystyle x = 0}

对称的,所以

f

(

x

)

=

f

(

x

)

;

{\displaystyle f(-x) = f(x);}

概率密度函数图像在

x

=

0

{\displaystyle x = 0}

处达到极大(也是最大);

分布函数有性质

F

(

x

)

=

1

F

(

x

)

.

{\displaystyle F(-x) = 1 - F(x).}

性质[]

由标准正态分布的性质我们可以平行地得到正态分布的性质。此外,对于相同方差

σ

2

{\displaystyle \sigma^2}

不同期望的正态分布,它们的密度函数和分布函数图像之间可以相互平移得到;对于相同期望

μ

{\displaystyle \mu}

不同方差的正态分布,它们密度函数图像形状不同,方差越小,数据越集中在数学期望附近,图像越陡峭,如下图。

设有

n

{\displaystyle n}

个相互独立的正态分布的随机变量

X

i

N

(

μ

i

,

σ

i

2

)

{\displaystyle X_i \sim N(\mu_i, \sigma_i^2)}

,那么它们的线性组合也是服从正态分布,且

i

=

1

n

a

i

X

i

N

(

i

=

1

n

a

i

μ

i

,

i

=

1

n

a

i

σ

i

2

)

.

{\displaystyle \sum_{i=1}^n a_i X_i \sim N \left( \sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i \sigma_i^2 \right).}

3σ 原则[]

关于正态分布,有一个实用的

3

σ

{\displaystyle 3\sigma}

原则。经过计算可知

P

{

σ

<

X

μ

<

σ

}

68.27

%

;

P

{

2

σ

<

X

μ

<

2

σ

}

95.45

%

;

P

{

3

σ

<

X

μ

<

3

σ

}

99.73

%

.

{\displaystyle \begin{align}

P \{ ~-\sigma < X - \mu < ~\sigma \} \approx 68.27\%; \\

P \{ -2\sigma < X - \mu < 2\sigma \} \approx 95.45\%; \\

P \{ -3\sigma < X - \mu < 3\sigma \} \approx 99.73\%. \\

\end{align}}

由上可知,

P

{

|

X

μ

|

<

3

σ

}

{\displaystyle P \{ | X - \mu | < 3\sigma \}}

的概率已经十分接近于

1

{\displaystyle 1}

,由小概率事件原理,事件

{

|

X

μ

|

>

3

σ

}

{\displaystyle \{ | X - \mu | > 3 \sigma \}}

的概率如此之小以至于在有限(少数)次试验中基本不可能观察到,这在数理统计中的假设检验中有着重要的应用。

与其它分布的关系[]

正态分布作为概率论中最重要的一种分布,它和其它分布有着广泛的联系,某些分布是它的导出结果。

正态分布是当

n

{\displaystyle n \to \infty}

时的二项分布的一种极限;

设随机变量

X

N

(

μ

,

σ

2

)

{\displaystyle X \sim N(\mu, \sigma^2)}

,则随机变量

Y

=

e

X

{\displaystyle Y = \text{e}^X}

服从对数正态分布;

n

{\displaystyle n}

个独立的标准正态分布的随机变量的平方和服从自由度为

n

{\displaystyle n}

χ

2

{\displaystyle \chi^2}

分布。

在有限维的情形下,一个随机向量服从的多元正态分布是一元正态分布的推广。

Fisher 引理[]

著名的 Fisher 引理及其若干推论是对正态总体进行参数假设检验和区间估计的基础。

假设随机变量

X

1

,

X

2

,

,

X

n

{\displaystyle X_1, X_2, \cdots, X_n}

是独立同分布的正态变量,

X

i

N

(

μ

,

σ

2

)

{\displaystyle X_i \sim N(\mu, \sigma^2)}

,分别记

X

¯

=

1

n

i

=

1

n

X

i

,

S

n

2

=

1

n

i

=

1

n

(

X

X

¯

)

2

{\displaystyle \overline{X} = \dfrac{1}{n} \sum_{i=1}^n X_i, \quad S_n^2 = \dfrac{1}{n} \sum_{i=1}^n (X - \overline{X})^2}

为样本均值和样本方差,于是有如下结论:

X

¯

{\displaystyle \overline{X}}

S

n

2

{\displaystyle S_n^2}

相互独立;

X

¯

N

(

μ

,

σ

2

n

)

;

{\displaystyle \overline{X} \sim N\!\left(\mu, \dfrac{\sigma^2}{n} \right);}

n

S

n

2

σ

2

χ

n

1

2

.

{\displaystyle \dfrac{nS_n^2}{\sigma^2} \sim \chi_{n-1}^2.}

证明的思路是寻找一个适当的正交矩阵

A

{\displaystyle \boldsymbol{A}}

,做适当正交变换

Y

=

A

X

{\displaystyle \boldsymbol{Y} = \boldsymbol{AX}}

{

X

i

}

i

=

1

n

{\displaystyle \{ X_i \}_{i=1}^n}

变换之后得到的

{

Y

i

}

i

=

1

n

{\displaystyle \{ Y_i \}_{i=1}^n}

依然是相互独立的)使得随机变量组

{

Y

i

}

i

=

1

n

{\displaystyle \{ Y_i \}_{i=1}^n}

在新的坐标系下能分离表示出

X

¯

{\displaystyle \overline{X}}

S

n

2

{\displaystyle S_n^2}

统计特性[]

指数分布族

正态分布

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数

(

μ

,

σ

2

)

{\displaystyle (\mu, \sigma^2)}

是指数分布族。

充分完备统计量

单参数的正态分布族

N

(

μ

,

1

)

{\displaystyle N(\mu, 1)}

关于参数

μ

{\displaystyle \mu}

是完备分布族,它的一个充分完备统计量是样本均值。

单参数的正态分布族

N

(

0

,

σ

2

)

{\displaystyle N(0, \sigma^2)}

关于参数

σ

2

{\displaystyle \sigma^2}

不是完备的,不过它的一个充分完备统计量是

i

=

1

n

x

i

2

.

{\displaystyle \sum_{i=1}^n x_i^2.}

双参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数

(

μ

,

σ

2

)

R

×

R

+

{\displaystyle (\mu, \sigma^2) \in \R \times \R^+}

的一个完备统计量是

(

X

¯

,

S

2

)

.

{\displaystyle (\overline{X}, S^2).}

这里

S

2

=

1

n

1

i

=

1

n

(

X

i

X

¯

)

2

{\displaystyle S^2 = \dfrac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2}

是无偏样本方差。

双样本的单参数正态分布族:假设

X

1

,

X

2

,

,

X

m

N

(

μ

,

σ

1

2

)

,

Y

1

,

Y

2

,

,

Y

m

N

(

k

μ

,

σ

2

2

)

{\displaystyle X_1, X_2, \cdots, X_m \sim N(\mu, \sigma_1^2), Y_1, Y_2, \cdots, Y_m \sim N(k\mu, \sigma_2^2)}

且相互独立,这里实数

k

0

,

σ

2

>

0

{\displaystyle k \ne 0, \sigma^2 > 0}

已知,它的一个充分完备统计量是

T

=

m

X

¯

σ

1

2

+

k

n

Y

¯

σ

2

2

.

{\displaystyle T = \dfrac{m\overline{X}}{\sigma_1^2} + \frac{kn\overline{Y}}{\sigma_2^2}.}

双样本的双参数正态分布族:假设

X

1

,

X

2

,

,

X

m

N

(

μ

1

,

σ

2

)

,

Y

1

,

Y

2

,

,

Y

m

N

(

μ

2

,

σ

2

)

{\displaystyle X_1, X_2, \cdots, X_m \sim N(\mu_1, \sigma^2), Y_1, Y_2, \cdots, Y_m \sim N(\mu_2, \sigma^2)}

且相互独立,那么它们关于参数

(

μ

1

,

μ

2

,

σ

2

)

{\displaystyle (\mu_1, \mu_2, \sigma^2)}

的一个充分完备统计量是

(

X

¯

,

Y

¯

,

S

w

2

)

{\displaystyle (\overline{X}, \overline{Y}, S_w^2)}

,其中

S

w

2

=

1

m

+

n

2

[

i

=

1

m

(

X

i

X

¯

)

2

+

j

=

1

n

(

Y

j

Y

¯

)

2

]

.

{\displaystyle S_w^2 = \dfrac{1}{m+n-2} \left[ \sum_{i=1}^m (X_i-\overline{X})^2 + \sum_{j=1}^n (Y_j-\overline{Y})^2 \right].}

双样本的双参数正态分布族:假设

X

1

,

X

2

,

,

X

m

N

(

μ

,

σ

2

)

,

Y

1

,

Y

2

,

,

Y

m

N

(

μ

,

k

σ

2

)

{\displaystyle X_1, X_2, \cdots, X_m \sim N(\mu, \sigma^2), Y_1, Y_2, \cdots, Y_m \sim N(\mu, k\sigma^2)}

且相互独立,这里正实数

k

{\displaystyle k}

已知,那么它们关于参数

(

μ

,

σ

2

)

{\displaystyle (\mu, \sigma^2)}

的一个充分完备统计量是

(

T

1

,

T

2

)

{\displaystyle (T_1, T_2)}

,其中

T

1

=

k

m

X

¯

+

n

Y

¯

,

T

2

=

k

m

X

2

¯

+

n

Y

2

¯

.

{\displaystyle T_1 = km \overline{X} + n \overline{Y}, T_2 = km \overline{X^2} + n \overline{Y^2}.}

点估计

假设方差

σ

2

{\displaystyle \sigma^2}

已知,那么单参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数

μ

R

{\displaystyle \mu \in \R}

的矩估计、极大似然估计和一致最小方差无偏估计都是

X

¯

{\displaystyle \overline{X}}

,这个估计达到了 C-R 下界;参数的函数

μ

2

{\displaystyle \mu^2}

的一致最小方差无偏估计是

X

¯

2

σ

2

n

{\displaystyle \overline{X}^2 - \dfrac{\sigma^2}{n}}

,这个估计没有达到 C-R 下界;而参数的函数

|

μ

|

{\displaystyle |\mu|}

没有无偏估计。

假设均值

μ

{\displaystyle \mu}

已知,那么单参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数

σ

2

R

+

{\displaystyle \sigma^2 \in \R^+}

的矩估计、极大似然估计和一致最小方差无偏估计都是

S

μ

2

=

1

n

k

=

1

n

(

X

k

μ

)

2

{\displaystyle S_\mu^2 = \dfrac{1}{n} \sum_{k=1}^n (X_k - \mu)^2}

,这个估计达到了 C-R 下界

2

σ

4

n

.

{\displaystyle \dfrac{2\sigma^4}{n}.}

假设均值

μ

{\displaystyle \mu}

已知,那么单参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数的函数

σ

r

,

r

>

0

{\displaystyle \sigma^r, r > 0}

的一致最小方差无偏估计是

Γ

(

n

2

)

2

r

2

Γ

(

n

+

r

2

)

(

i

=

1

n

(

X

i

X

¯

)

2

)

r

2

.

{\displaystyle \dfrac{\Gamma\!\left(\frac{n}{2}\right)}{2^{\frac{r}{2}}\Gamma\!\left(\frac{n+r}{2}\right)} \left(\sum_{i=1}^n (X_i-\overline{X})^2 \right)^\frac{r}{2}.}

单参数的正态分布族

N

(

σ

,

σ

2

)

{\displaystyle N(\sigma, \sigma^2)}

关于参数

σ

R

+

{\displaystyle \sigma \in \R^+}

的极大似然估计是

X

¯

2

+

X

¯

2

4

+

1

n

i

=

1

n

x

i

2

.

{\displaystyle - \dfrac{\overline{X}}{2} + \sqrt{\dfrac{\overline{X}^2}{4} + \dfrac{1}{n} \sum_{i=1}^n x_i^2}.}

这个估计是弱相合的。

双参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数

(

μ

,

σ

2

)

R

×

R

+

{\displaystyle (\mu, \sigma^2) \in \R \times \R^+}

的矩估计和极大似然估计都是

(

X

¯

,

S

n

2

)

.

{\displaystyle (\overline{X}, S_n^2).}

这里

S

n

2

=

1

n

i

=

1

n

(

X

i

X

¯

)

2

{\displaystyle S_n^2 = \dfrac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^2}

是有偏样本方差。

双参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数

(

μ

,

σ

2

)

R

×

R

+

{\displaystyle (\mu, \sigma^2) \in \R \times \R^+}

的一致最小方差无偏估计是

(

X

¯

,

S

2

)

.

{\displaystyle (\overline{X}, S^2).}

同时这个估计量是强相合的也是均方相合的,但是

σ

2

{\displaystyle \sigma^2}

的 UMVUE

S

2

{\displaystyle S^2}

的方差是

2

σ

4

n

1

{\displaystyle \dfrac{2\sigma^4}{n-1}}

达不到 C-R 下界

2

σ

4

n

.

{\displaystyle \dfrac{2\sigma^4}{n}.}

双参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数的函数

σ

r

,

r

R

+

{\displaystyle \sigma^r, r \in \R^+}

的一致最小方差无偏估计是

Γ

(

n

1

2

)

2

r

2

Γ

(

n

+

r

1

2

)

(

i

=

1

n

(

X

i

X

¯

)

2

)

r

2

.

{\displaystyle \dfrac{\Gamma\!\left(\frac{n-1}{2}\right)}{2^{\frac{r}{2}}\Gamma\!\left(\frac{n+r-1}{2}\right)} \left(\sum_{i=1}^n (X_i-\overline{X})^2 \right)^\frac{r}{2}.}

双参数的正态分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

关于参数的函数

μ

σ

2

{\displaystyle \dfrac{\mu}{\sigma^2}}

的一致最小方差无偏估计是

(

n

3

)

X

¯

n

S

n

2

1

n

.

{\displaystyle \dfrac{(n-3)\overline{X}}{nS_n^2} - \dfrac{1}{n}.}

双样本的单参数正态分布族:假设

X

1

,

X

2

,

,

X

m

N

(

μ

,

σ

1

2

)

,

Y

1

,

Y

2

,

,

Y

m

N

(

k

μ

,

σ

2

2

)

{\displaystyle X_1, X_2, \cdots, X_m \sim N(\mu, \sigma_1^2), Y_1, Y_2, \cdots, Y_m \sim N(k\mu, \sigma_2^2)}

且相互独立,这里实数

k

0

,

σ

2

>

0

{\displaystyle k \ne 0, \sigma^2 > 0}

已知,那么参数

μ

{\displaystyle \mu}

的一致最小方差无偏估计是

μ

^

=

m

X

¯

σ

1

2

+

k

n

Y

¯

σ

2

2

m

σ

1

2

+

k

2

n

σ

2

2

.

{\displaystyle \hat{\mu} = \dfrac{\frac{m\overline{X}}{\sigma_1^2} + \frac{kn\overline{Y}}{\sigma_2^2}}{\frac{m}{\sigma_1^2} + \frac{k^2n}{\sigma_2^2}}.}

双样本的双参数正态分布族:假设

X

1

,

X

2

,

,

X

m

N

(

μ

,

σ

2

)

,

Y

1

,

Y

2

,

,

Y

m

N

(

μ

,

k

σ

2

)

{\displaystyle X_1, X_2, \cdots, X_m \sim N(\mu, \sigma^2), Y_1, Y_2, \cdots, Y_m \sim N(\mu, k\sigma^2)}

且相互独立,这里正实数

k

{\displaystyle k}

已知,那么参数

(

μ

,

σ

2

)

{\displaystyle (\mu, \sigma^2)}

的一致最小方差无偏估计是

μ

^

=

T

1

k

m

+

n

,

σ

2

^

=

(

k

m

+

n

)

T

2

T

1

2

k

(

k

m

+

n

)

(

m

+

n

1

)

{\displaystyle \hat{\mu} = \dfrac{T_1}{km+n}, \hat{\sigma^2} = \dfrac{(km+n)T_2 - T_1^2}{k(km+n)(m+n-1)}}

,其中

T

1

=

k

m

X

¯

+

n

Y

¯

,

T

2

=

k

m

X

2

¯

+

n

Y

2

¯

.

{\displaystyle T_1 = km \overline{X} + n \overline{Y}, T_2 = km \overline{X^2} + n \overline{Y^2}.}

区间估计

在数理统计中正态分布是十分重要的,因此对正态场合下的区间估计是备受关注,一组正态样本的区间估计可以通过枢轴变量法完全解决,下表列出了不同场合下的正态参数分布族

N

(

μ

,

σ

2

)

{\displaystyle N(\mu, \sigma^2)}

的区间估计的枢轴变量。

假设

X

¯

=

1

n

k

=

1

n

X

k

,

S

2

=

1

n

1

k

=

1

n

(

X

k

X

¯

)

2

,

S

μ

2

=

1

n

1

k

=

1

n

(

X

k

μ

)

2

,

{\displaystyle \begin{align}

\overline{X} & = \dfrac{1}{n} \sum_{k=1}^n X_k, \\

S^2 & = \dfrac{1}{n-1} \sum_{k=1}^n (X_k - \overline{X})^2, \\

S_\mu^2 & = \dfrac{1}{n-1} \sum_{k=1}^n (X_k - \mu)^2, \\

\end{align}}

一组正态样本的区间估计的枢轴变量,假设置信水平为

1

α

(

0

,

1

)

{\displaystyle 1-\alpha \in (0, 1)}

情形

枢轴变量

枢轴变量服从的分布

置信区间

μ

{\displaystyle \mu}

是参数

σ

2

{\displaystyle \sigma^2}

已知

n

(

X

¯

μ

)

σ

{\displaystyle \dfrac{\sqrt{n}(\overline{X}-\mu)}{\sigma}}

标准正态分布

N

(

0

,

1

)

{\displaystyle N(0, 1)}

[

X

¯

σ

n

u

α

/

2

,

X

¯

+

σ

n

u

α

/

2

]

{\displaystyle \left[ \overline{X} - \dfrac{\sigma}{\sqrt{n}} u_{\alpha/2}, \overline{X} + \dfrac{\sigma}{\sqrt{n}} u_{\alpha/2} \right]}

μ

{\displaystyle \mu}

是参数

σ

2

{\displaystyle \sigma^2}

未知

n

(

X

¯

μ

)

S

{\displaystyle \dfrac{\sqrt{n}(\overline{X}-\mu)}{S}}

t 分布

t

n

1

{\displaystyle t_{n-1}}

[

X

¯

S

n

t

n

1

(

α

/

2

)

,

X

¯

+

σ

n

t

n

1

(

α

/

2

)

]

{\displaystyle \left[ \overline{X} - \dfrac{S}{\sqrt{n}} t_{n-1}(\alpha/2), \overline{X} + \dfrac{\sigma}{\sqrt{n}} t_{n-1}(\alpha/2) \right]}

σ

2

{\displaystyle \sigma^2}

是参数

μ

{\displaystyle \mu}

已知

n

S

μ

2

σ

2

{\displaystyle \dfrac{n S_\mu^2}{\sigma^2}}

Χ² 分布

χ

n

2

{\displaystyle \chi_n^2}

[

n

S

μ

2

χ

n

2

(

α

/

2

)

,

n

S

μ

2

χ

n

2

(

1

α

/

2

)

]

{\displaystyle \left[ \dfrac{nS_\mu^2}{\chi^2_n(\alpha/2)}, \dfrac{nS_\mu^2}{\chi^2_n(1-\alpha/2)} \right]}

σ

2

{\displaystyle \sigma^2}

是参数

μ

{\displaystyle \mu}

未知

(

n

1

)

S

2

σ

2

{\displaystyle \dfrac{(n-1) S^2}{\sigma^2}}

Χ² 分布

χ

n

1

2

{\displaystyle \chi_{n-1}^2}

[

(

n

1

)

S

2

χ

n

1

2

(

α

/

2

)

,

(

n

1

)

S

2

χ

n

1

2

(

1

α

/

2

)

]

{\displaystyle \left[ \dfrac{(n-1)S^2}{\chi^2_{n-1}(\alpha/2)}, \dfrac{(n-1)S^2}{\chi^2_{n-1}(1-\alpha/2)} \right]}

μ

,

σ

2

{\displaystyle \mu, \sigma^2}

未知

(

μ

,

σ

2

)

{\displaystyle (\mu, \sigma^2)}

是参数

(

n

(

X

¯

μ

)

σ

,

(

n

1

)

S

2

σ

2

)

{\displaystyle \left( \dfrac{\sqrt{n}(\overline{X}-\mu)}{\sigma}, \dfrac{(n-1) S^2}{\sigma^2} \right)}

(

N

(

0

,

1

)

,

χ

n

1

2

)

{\displaystyle (N(0, 1), \chi_{n-1}^2)}

\

在两组正态样本的场合下是著名的 Behrens-Fisher 问题,到目前为止没有完全解决,对一些特殊情形是可以给出准确解的。

其他区间估计的问题:

双样本的单参数正态分布族:假设

X

1

,

X

2

,

,

X

m

N

(

μ

,

σ

1

2

)

,

Y

1

,

Y

2

,

,

Y

m

N

(

k

μ

,

σ

2

2

)

{\displaystyle X_1, X_2, \cdots, X_m \sim N(\mu, \sigma_1^2), Y_1, Y_2, \cdots, Y_m \sim N(k\mu, \sigma_2^2)}

且相互独立,这里实数

k

0

,

σ

2

>

0

{\displaystyle k \ne 0, \sigma^2 > 0}

已知,那么参数

μ

{\displaystyle \mu}

的置信系数为

1

α

{\displaystyle 1-\alpha}

的置信区间是

[

H

u

α

/

2

(

m

σ

1

2

+

k

2

n

σ

2

2

)

1

2

,

H

+

u

α

/

2

(

m

σ

1

2

+

k

2

n

σ

2

2

)

1

2

]

.

{\displaystyle \left[ H - u_{\alpha/2} \left( \frac{m}{\sigma_1^2} + \frac{k^2n}{\sigma_2^2} \right)^{-\frac{1}{2}}, H + u_{\alpha/2} \left( \frac{m}{\sigma_1^2} + \frac{k^2n}{\sigma_2^2} \right)^{-\frac{1}{2}} \right].}

其中

H

=

m

X

¯

σ

1

2

+

k

n

Y

¯

σ

2

2

m

σ

1

2

+

k

2

n

σ

2

2

{\displaystyle H = \dfrac{\frac{m\overline{X}}{\sigma_1^2} + \frac{kn\overline{Y}}{\sigma_2^2}}{\frac{m}{\sigma_1^2} + \frac{k^2n}{\sigma_2^2}}}

。枢轴量及其对应的分布是

(

H

μ

)

(

m

σ

1

2

+

k

2

n

σ

2

2

)

1

2

N

(

0

,

1

)

.

{\displaystyle (H-\mu) \left( \frac{m}{\sigma_1^2} + \frac{k^2n}{\sigma_2^2} \right)^{-\frac{1}{2}} \sim N(0, 1).}

参数假设检验

一些对正态总体做参数假设检验的例子:U 检验、t 检验、χ² 检验、F 检验。对单组正态分布的样本进行假设检验的问题主要有:对均值的检验和对方差的检验。以下假设相互独立的样本

X

1

,

X

2

,

,

X

n

N

(

μ

,

σ

2

)

.

{\displaystyle X_1, X_2, \cdots, X_n \sim N(\mu, \sigma^2).}

μ

0

R

,

σ

0

2

>

0

{\displaystyle \mu_0 \in \R, \sigma_0^2 > 0}

是常数,检验水平为

α

(

0

,

1

)

.

{\displaystyle \alpha \in (0, 1).}

情形

检验问题

检验统计量及分布

拒绝域

W

{\displaystyle W}

单组正态样本均值的假设检验

σ

2

{\displaystyle \sigma^2}

已知

H

0

:

μ

=

μ

0

H

1

:

μ

μ

0

{\displaystyle H_0: \mu = \mu_0 \longleftrightarrow H_1: \mu \ne \mu_0}

U

=

X

¯

μ

0

σ

/

n

U

|

H

0

N

(

0

,

1

)

{\displaystyle \begin{align} U &= \dfrac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} \\ U|H_0 &\sim N(0, 1) \end{align}}

|

U

|

u

α

/

2

{\displaystyle |U| \geqslant u_{\alpha/2}}

H

0

:

μ

μ

0

H

1

:

μ

>

μ

0

{\displaystyle H_0: \mu \leqslant \mu_0 \longleftrightarrow H_1: \mu > \mu_0}

U

u

α

{\displaystyle U \geqslant u_\alpha}

H

0

:

μ

μ

0

H

1

:

μ

<

μ

0

{\displaystyle H_0: \mu \geqslant \mu_0 \longleftrightarrow H_1: \mu < \mu_0}

U

u

1

α

{\displaystyle U \leqslant u_{1-\alpha}}

σ

2

{\displaystyle \sigma^2}

未知

H

0

:

μ

=

μ

0

H

1

:

μ

μ

0

{\displaystyle H_0: \mu = \mu_0 \longleftrightarrow H_1: \mu \ne \mu_0}

T

=

X

¯

μ

0

S

/

n

T

|

H

0

t

n

1

{\displaystyle \begin{align} T &= \dfrac{\overline{X} - \mu_0}{S/\sqrt{n}} \\ T|H_0 &\sim t_{n-1} \end{align}}

|

T

|

t

n

1

(

α

/

2

)

{\displaystyle |T| \geqslant t_{n-1}(\alpha/2)}

H

0

:

μ

μ

0

H

1

:

μ

>

μ

0

{\displaystyle H_0: \mu \leqslant \mu_0 \longleftrightarrow H_1: \mu > \mu_0}

T

t

n

1

(

α

)

{\displaystyle T \geqslant t_{n-1}(\alpha)}

H

0

:

μ

μ

0

H

1

:

μ

<

μ

0

{\displaystyle H_0: \mu \geqslant \mu_0 \longleftrightarrow H_1: \mu < \mu_0}

T

t

n

1

(

1

α

)

{\displaystyle T \leqslant t_{n-1}(1-\alpha)}

单组正态样本方差的假设检验

μ

{\displaystyle \mu}

已知

H

0

:

σ

2

=

σ

0

2

H

1

:

σ

2

σ

0

2

{\displaystyle H_0: \sigma^2 = \sigma_0^2 \longleftrightarrow H_1: \sigma^2 \ne \sigma_0^2}

X

μ

2

=

n

S

μ

2

σ

0

2

X

μ

2

|

H

0

χ

n

2

{\displaystyle \begin{align} \Chi_\mu^2 &= \dfrac{n S_\mu^2}{\sigma_0^2} \\ \Chi_\mu^2|H_0 &\sim \chi^2_n \end{align}}

X

μ

2

χ

n

2

(

1

α

/

2

)

or

X

μ

2

χ

n

2

(

α

/

2

)

{\displaystyle \Chi_\mu^2 \leqslant \chi^2_n(1-\alpha/2) \text{ or } \Chi_\mu^2 \geqslant \chi^2_n(\alpha/2)}

H

0

:

σ

2

σ

0

2

H

1

:

σ

2

>

σ

0

2

{\displaystyle H_0: \sigma^2 \leqslant \sigma_0^2 \longleftrightarrow H_1: \sigma^2 > \sigma_0^2}

X

μ

2

χ

n

2

(

α

)

{\displaystyle \Chi_\mu^2 \geqslant \chi^2_n(\alpha)}

H

0

:

σ

2

σ

0

2

H

1

:

σ

2

<

σ

0

2

{\displaystyle H_0: \sigma^2 \geqslant \sigma_0^2 \longleftrightarrow H_1: \sigma^2 < \sigma_0^2}

X

μ

2

χ

n

2

(

1

α

)

{\displaystyle \Chi_\mu^2 \leqslant \chi^2_n(1-\alpha)}

μ

{\displaystyle \mu}

未知

H

0

:

σ

2

=

σ

0

2

H

1

:

σ

2

σ

0

2

{\displaystyle H_0: \sigma^2 = \sigma_0^2 \longleftrightarrow H_1: \sigma^2 \ne \sigma_0^2}

X

2

=

(

n

1

)

S

2

σ

0

2

X

2

|

H

0

χ

n

1

2

{\displaystyle \begin{align} \Chi^2 &= \dfrac{(n-1)S^2}{\sigma_0^2} \\ \Chi^2|H_0 &\sim \chi^2_{n-1} \end{align}}

X

2

χ

n

1

2

(

1

α

/

2

)

or

X

2

χ

n

1

2

(

α

/

2

)

{\displaystyle \Chi^2 \leqslant \chi^2_{n-1}(1-\alpha/2) \text{ or } \Chi^2 \geqslant \chi^2_{n-1}(\alpha/2)}

H

0

:

σ

2

σ

0

2

H

1

:

σ

2

>

σ

0

2

{\displaystyle H_0: \sigma^2 \leqslant \sigma_0^2 \longleftrightarrow H_1: \sigma^2 > \sigma_0^2}

X

2

χ

n

1

2

(

α

)

{\displaystyle \Chi^2 \geqslant \chi^2_{n-1}(\alpha)}

H

0

:

σ

2

σ

0

2

H

1

:

σ

2

<

σ

0

2

{\displaystyle H_0: \sigma^2 \geqslant \sigma_0^2 \longleftrightarrow H_1: \sigma^2 < \sigma_0^2}

X

2

χ

n

1

2

(

1

α

)

{\displaystyle \Chi^2 \leqslant \chi^2_{n-1}(1-\alpha)}

双样本的正态假设检验问题详见 Behrens-Fisher 问题/假设检验。

上下节[]

上一节:均匀分布

下一节:对数正态分布

参考资料李贤平, 《概率论基础(第3版)》, 高等教育出版社, 北京, 2010-04, ISBN 978-7-0402-8890-2.

概率分布(学科代码:1106420,GB/T 13745—2009)

概率公理化

随机事件 ▪ 样本空间 ▪ De Morgan 定理 ▪ 概率空间 ▪ 古典概型 ▪ 几何概型 ▪ 条件概率 ▪ 事件独立性 ▪ 独立重复试验 ▪ Bernoulli 概型

随机变量

离散型随机变量 ▪ 连续型随机变量 ▪ 随机变量的函数 ▪ 随机向量 ▪ 边缘分布 ▪ 条件分布 ▪ 随机变量的独立性 ▪ 随机向量的函数 ▪ 极差分布

随机变量的特征

数学期望 ▪ 方差 ▪ 协方差 ▪ 相关系数 ▪ 矩 ▪ 母函数 ▪ 矩量母函数 ▪ 特征函数 ▪ 示性函数 ▪ 中位数 ▪ 众数 ▪ 峰度 ▪ 偏度

离散概率分布

二项分布 ▪ 几何分布 ▪ Pascal 分布 ▪ Poisson 分布 ▪ 超几何分布 ▪ 对数分布 ▪ 负二项分布 ▪ 多项分布 ▪ 多元超几何分布

连续概率分布

正态分布 ▪ 均匀分布 ▪ 指数分布 ▪ 对数正态分布 ▪ Γ 分布 ▪ χ 分布 ▪ β 分布 ▪ Rayleigh 分布 ▪ Cauchy 分布 ▪ Pareto 分布 ▪ Laplace 分布 ▪ Weibull 分布 ▪ Maxwell 分布律 ▪ 二元正态分布 ▪ 多元正态分布

统计三大分布

χ² 分布 ▪ F 分布 ▪ t 分布 ▪ 非中心 χ² 分布 ▪ 非中心 F 分布 ▪ 非中心 t 分布

所在位置:数学(110)→ 概率论(11064)→ 概率分布(1106420)