假设检验:对总体提出某项假设→用样本检验假设
接受假设:认为假设正确
拒绝假设:认为假设错误
假设检验分为参数假设、分布假设
实际推断原理:一个小概率事件在一次实验中是几乎不可能发生的
假设检验的思想:构造一个适用于检验假设H0H_0H0的统计量(检验统计量),若假设H0H_0H0成立则检验统计量满足一个条件(如果H0H_0H0成立则满足条件的概率很大),现在看样本满不满足这个条件,若满足则接受H0H_0H0,若不满足则拒绝H0H_0H0(这表明小概率事件发生了,原假设不成立,类似于拒取式推理)。
拒绝域WWW:当检验统计量的观测值落在WWW时,拒绝H0H_0H0
接受域W‾\overline{W}W:当检验统计量的观测值落在W‾\overline{W}W时,接受H0H_0H0
临界值:拒绝域和接受域的临界点
两类错误:
第I类错误:H0H_0H0为真但被拒绝了
第II类错误:H0H_0H0为假但被接受了
显著性水平α\alphaα:犯第I类错误的概率,P{拒绝H0∣H0为真}=αP\{\text{拒绝}H_0|H_0\text{为真}\}=\alphaP{拒绝H0∣H0为真}=α,反映了拒绝H0H_0H0的说服力
β\betaβ:犯第II类错误的概率,P{接受H0∣H0不真}=βP\{\text{接受}H_0|H_0\text{不真}\}=\betaP{接受H0∣H0不真}=β
在样本容量nnn一定的情况下,α\alphaα减小,β\betaβ就会增大
显著性检验:控制犯第I类错误的概率不超过一个值(显著性水平),不考虑第II类错误
显著性水平为α\alphaα的检验法:犯第I类错误的概率不超过α\alphaα,即P{拒绝H0∣H0为真}≤αP\{\text{拒绝}H_0|H_0\text{为真}\}\le\alphaP{拒绝H0∣H0为真}≤α
在所有显著性水平为α\alphaα的检验法中,犯第II类错误的概率β\betaβ最小的检验法为最好的检验法
(1) 充分考虑和利用已知的背景知识提出原假设H0H_0H0即备择假设H1H_1H1。
H1H_1H1是H0H_0H0的对立面,称为对立假设或备择假设。H0H_0H0一般是“要保护的假设”或“维持现状的假设”,错误拒绝假设H0H_0H0比错误拒绝假设H1H_1H1带来更严重的后果。实践中,H0H_0H0不应被轻易否定,若否定必须要有充分的理由。
(2) 确定检验统计量ZZZ,并在H0H_0H0成立的前提下导出ZZZ的概率分布,要求ZZZ的分布不依赖于任何未知参数。
这里的ZZZ与参数估计中的枢轴量类似,选取ZZZ的原因都是为了排除未知参数的干扰,用一个确定的分布求出拒绝域。
(3) 确定拒绝域。依据直观分析先确定拒绝域的形式,然后根据给定的水平α\alphaα和ZZZ的分布,由P{拒绝H0∣H0为真}=αP\{\text{拒绝}H_0|H_0\text{为真}\}=\alphaP{拒绝H0∣H0为真}=α确定拒绝域的临界值,从而确定拒绝域。
确定拒绝域与参数估计中确定置信区间的过程类似。
(4) 作一次具体的抽样,根据得到的样本值和上面确定的拒绝域对H0H_0H0作出拒绝或接受的判断。
如果ZZZ的观测值落入拒绝域WWW,则拒绝原假设H0H_0H0,接受备择假设H1H_1H1;若落入接受域W‾\overline{W}W,则接受原假设H0H_0H0,拒绝备择假设H1H_1H1。
Z∈W‾⟶H0H1Z∈W⟶H1H0Z\in\overline{W}\longrightarrow \textcolor{green}{H_0}\,\textcolor{red}{\sout{H_1}}\\ Z\in W\longrightarrow \textcolor{green}{H_1}\,\textcolor{red}{\sout{H_0}} Z∈W⟶H0H1Z∈W⟶H1H0
ppp值:利用样本值的拒绝原假设的最小显著性水平称为ppp值。
α
在固定α\alphaα的情况下,ppp越大,越容易接受H0H_0H0(简称“ppp越大越好”)。
我感觉,α\alphaα是一种对拒绝H0H_0H0的“容忍度”,也就是对H0H_0H0的“怀疑程度”;α\alphaα越小,对H0H_0H0的怀疑程度越小,越容易接受H0H_0H0。ppp值是对H0H_0H0的最小“怀疑程度”,如果α
α\alphaα越小,对H0H_0H0越有信心。
用拒绝域判断的方法称为临界值法,用ppp值的叫做ppp值法。
检验统计量服从正态分布→u\;\to u→u检验法
检验统计量服从χ2\chi^2χ2分布→χ2\;\to \chi^2→χ2检验法
检验统计量服从ttt分布→t\;\to t→t检验法
检验统计量服从FFF分布→F\;\to F→F检验法
对于单个总体的情形,我们设X~N(μ,σ2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu,\sigma^2)X~N(μ,σ2);对于两个总体的情形,我们设X~N(μ1,σ12)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu_1,\sigma_1^2)X~N(μ1,σ12),Y~N(μ2,σ22)\newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td N(\mu_2,\sigma_2^2)Y~N(μ2,σ22)。XXX的样本容量为nnn,样本方差为SX2S_X^2SX2;YYY的样本容量为mmm,样本方差为SY2S_Y^2SY2。
下面是单个总体的情形(X~N(μ,σ2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu,\sigma^2)X~N(μ,σ2))。
双侧假设检验:提出假设:H0:μ=μ0H1:μ≠μ0\begin{aligned} &\textcolor{green}{H_0:\mu=\mu_0}&\\ &\textcolor{red}{H_1:\mu\ne\mu_0}& \end{aligned}H0:μ=μ0H1:μ=μ0回顾一下α\alphaα是犯第一类错误的概率,即当H0H_0H0成立时P{拒绝H0}=αP\{\text{拒绝}H_0\}=\alphaP{拒绝H0}=α。因为只有假设H0H_0H0成立我们才能继续分析,所以我们必须令H0H_0H0先成立,即μ=μ0\mu=\mu_0μ=μ0成立。此时X~N(μ0,σ2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu_0,\sigma^2)X~N(μ0,σ2),我们给出检验统计量U=n(X‾−μ0)σ~N(0,1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\cfrac{\sqrt{n}\left(\overline{X}-\mu_0\right)}{\sigma}\td N(0,1)U=σn(X−μ0)~N(0,1)。H0H_0H0什么时候成立呢?就是样本均值X‾\overline{X}X与μ0\mu_0μ0比较接近的时候成立,太离谱了就拒绝。现在我们已经假定H0H_0H0成立了,只要保证UUU的观测值落入拒绝域的概率为α\alphaα就可以了。这和区间估计类似,因为P{U≥uα/2或U≤−uα/2}=αP\{U\ge u_{\alpha/2}\text{或}U\le-u_{\alpha/2}\}=\alphaP{U≥uα/2或U≤−uα/2}=α,所以拒绝的时候就是∣U∣≥uα/2|U|\ge u_{\alpha/2}∣U∣≥uα/2的时候。对于确定的样本,我们算出样本的UUU值,然后判断∣U∣|U|∣U∣和uα/2u_{\alpha/2}uα/2的关系就可以了。如果∣U∣≥uα/2|U|\ge u_{\alpha/2}∣U∣≥uα/2,那么也就说在H0H_0H0成立的条件下一个概率仅仅只有α\alphaα的事件发生了,这说明H0H_0H0不太可能成立,所以我们拒绝H0H_0H0。注意,UUU衡量的是X‾\overline{X}X与μ\muμ的差异,差异太大就拒绝H0H_0H0;UUU中除以σ\sigmaσ的目的是去除量纲,进行标准化。
单侧假设检验:提出假设:H0:μ=μ0H1:μ≥μ0\begin{aligned} &\textcolor{green}{H_0:\mu=\mu_0}&\\ &\textcolor{red}{H_1:\mu\ge\mu_0}& \end{aligned}H0:μ=μ0H1:μ≥μ0因为均值μ\muμ不会小于μ0\mu_0μ0,所以U≤−uα/2U\le -u_{\alpha/2}U≤−uα/2的拒绝域就不存在了,只剩下U≥某个值U\ge\text{某个值}U≥某个值的拒绝域。这个值是多少呢?不要忘了,UUU落入拒绝域的概率是α\alphaα,所以显然这个值是uαu_{\alpha}uα,拒绝域为U≥uαU\ge u_{\alpha}U≥uα。把H0\textcolor{green}{H_0}H0改成H0:μ≤μ0\textcolor{green}{H_0:\mu\le\mu_0}H0:μ≤μ0,拒绝域还是一样的。
检验统计量T=n(X‾−μ0)S~t(n−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\cfrac{\sqrt{n}\left(\overline{X}-\mu_0\right)}{S}\td t(n-1)T=Sn(X−μ0)~t(n−1)
拒绝域与σ2\sigma^2σ2已知时类似,就是把uαu_{\alpha}uα换成了tα(n−1)t_{\alpha}(n-1)tα(n−1)而已。
检验统计量χ2=∑i=1n(Xi−μ)2σ02~χ2(n)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\chi^2=\cfrac{\sum\limits_{i=1}^n{\left(X_i-\mu\right)}^2}{\sigma_0^2}\td\chi^2(n)χ2=σ02i=1∑n(Xi−μ)2~χ2(n)
检验统计量χ2=∑i=1n(Xi−X‾)2σ02=(n−1)S2σ02~χ2(n−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\chi^2=\cfrac{\sum\limits_{i=1}^n{\left(X_i-\overline{X}\right)}^2}{\sigma_0^2}=\cfrac{(n-1)S^2}{\sigma_0^2}\td\chi^2(n-1)χ2=σ02i=1∑n(Xi−X)2=σ02(n−1)S2~χ2(n−1)
双侧假设检验H0:σ2=σ02,H1:σ2≠μ02\textcolor{green}{H_0:\sigma^2=\sigma_0^2},\textcolor{red}{H_1:\sigma^2\ne\mu_0^2}H0:σ2=σ02,H1:σ2=μ02的拒绝域为{χ2≤χ1−α/22(n−1)}⋃{χ2≥χα/22(n−1)}\textcolor{chocolate}{\left\{\chi^2\le\chi^2_{1-\alpha/2}(n-1)\right\}\bigcup\left\{\chi^2\ge\chi^2_{\alpha/2}(n-1)\right\}}{χ2≤χ1−α/22(n−1)}⋃{χ2≥χα/22(n−1)}。
单侧假设检验H0:σ2=σ02,H1:σ2>σ02\textcolor{green}{H_0:\sigma^2=\sigma_0^2},\textcolor{red}{H_1:\sigma^2>\sigma_0^2}H0:σ2=σ02,H1:σ2>σ02的拒绝域为χ2≥χα2(n−1)\chi^2\ge\chi^2_\alpha(n-1)χ2≥χα2(n−1)。
单侧假设检验H0:σ2=σ02,H1:σ2<σ02\textcolor{green}{H_0:\sigma^2=\sigma_0^2},\textcolor{red}{H_1:\sigma^2<\sigma_0^2}H0:σ2=σ02,H1:σ2<σ02的拒绝域为χ2≤χ1−α2(n−1)\chi^2\le\chi^2_{1-\alpha}(n-1)χ2≤χ1−α2(n−1)。
检验统计量U=(X‾−Y‾)−Δμσ12n+σ22m~N(0,1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\cfrac{\left(\overline{X}-\overline{Y}\right)-\Delta\mu}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}\td N(0,1)U=nσ12+mσ22(X−Y)−Δμ~N(0,1)
检验统计量T=(X‾−Y‾)−ΔμSW1n+1m~t(n+m−2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\cfrac{\left(\overline{X}-\overline{Y}\right)-\Delta\mu}{S_W\sqrt{\frac{1}{n}+\frac{1}{m}}}\td t(n+m-2)T=SWn1+m1(X−Y)−Δμ~t(n+m−2),其中SW=(n−1)SX2+(m−1)SY2n+m−2S_W=\sqrt{\cfrac{(n-1)S_X^2+(m-1)S_Y^2}{n+m-2}}SW=n+m−2(n−1)SX2+(m−1)SY2
检验统计量F=∑i=1n(Xi−μ1)2n∑j=1m(Yj−μ2)2m/c=1cm∑i=1n(Xi−μ1)2n∑j=1m(Yj−μ2)2~F(n,m)\newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\left.\cfrac{\sum\limits_{i=1}^n\cfrac{{(X_i-\mu_1)}^2}{n}}{\sum\limits_{j=1}^m\cfrac{{(Y_j-\mu_2)}^2}{m}}\right/c=\cfrac{1}{c}\cfrac{m\sum\limits_{i=1}^n{(X_i-\mu_1)}^2}{n\sum\limits_{j=1}^m{(Y_j-\mu_2)}^2}\td F(n,m)F=j=1∑mm(Yj−μ2)2i=1∑nn(Xi−μ1)2/c=c1nj=1∑m(Yj−μ2)2mi=1∑n(Xi−μ1)2~F(n,m)
检验统计量F=1cSX2SY2~F(n−1,m−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\cfrac{1}{c}\cfrac{S_X^2}{S_Y^2}\td F(n-1,m-1)F=c1SY2SX2~F(n−1,m−1)
注意F1−α(n,m)=1Fα(m,n)F_{1-\alpha}(n,m)=\cfrac{1}{F_{\alpha}(m,n)}F1−α(n,m)=Fα(m,n)1(要干三件事情:①取倒数、②1−α1-\alpha1−α变α\alphaα、③交换n,mn,mn,m的次序)。拒绝域与χ2\chi^2χ2检验类似。
单个变量检验均值:为了把分布标准化,我们需要排除三个因素的影响:均值(μ\muμ)、样本容量(nnn)、标准差(σ\sigmaσ或SSS),其中排除标准差也是使数据无量纲化。所以,分别对应标准差已知与未知,我们有统计量U=n(X‾−μ)σU=\cfrac{\sqrt{n}\left(\overline{X}-\mu\right)}{\sigma}U=σn(X−μ)和T=n(X‾−μ)ST=\cfrac{\sqrt{n}\left(\overline{X}-\mu\right)}{S}T=Sn(X−μ),前者服从N(0,1)N(0,1)N(0,1),后者服从t(n−1)t(n-1)t(n−1)。
单个变量检验方差:我们的统计量应该服从卡方分布,注意χ2(n)\chi^2(n)χ2(n)的期望是nnn,所以我们要求当知道均值时我们的统计量的期望应该是nnn,不知道均值时为n−1n-1n−1。注意E[∑i=1n(Xi−μ)2]=nE[(X1−μ)2]E\left[\sum\limits_{i=1}^n{\left(X_i-\mu\right)}^2\right]=nE\left[{\left(X_1-\mu\right)}^2\right]E[i=1∑n(Xi−μ)2]=nE[(X1−μ)2],而μ=E(X1)\mu=E(X_1)μ=E(X1),所以根据方差的定义有E[(X1−μ)2]=σ2E\left[{\left(X_1-\mu\right)}^2\right]=\sigma^2E[(X1−μ)2]=σ2,因此E[∑i=1n(Xi−μ)2]=nσ2E\left[\sum\limits_{i=1}^n{\left(X_i-\mu\right)}^2\right]=n\sigma^2E[i=1∑n(Xi−μ)2]=nσ2。同时我们知道,E(S2)=σ2E\left(S^2\right)=\sigma^2E(S2)=σ2,即E[∑i=1n(Xi−X‾)2]=(n−1)σ2E\left[\sum\limits_{i=1}^n{\left(X_i-\overline{X}\right)}^2\right]=(n-1)\sigma^2E[i=1∑n(Xi−X)2]=(n−1)σ2。因此,我们采用的两个检验统计量分别为∑i=1n(Xi−μ)2σ2\cfrac{\sum\limits_{i=1}^n{\left(X_i-\mu\right)}^2}{\sigma^2}σ2i=1∑n(Xi−μ)2和∑i=1n(Xi−μ)2σ2\cfrac{\sum\limits_{i=1}^n{\left(X_i-\mu\right)}^2}{\sigma^2}σ2i=1∑n(Xi−μ)2,分别服从自由度为nnn和n−1n-1n−1的卡方分布。可以理解为:在我们用到的检验统计量中,量纲是平方且期望是nnn的就服从χ2(n)\chi^2(n)χ2(n)。
两个变量检验均值差:注意X‾−Y‾~N(μ1−μ2,σ12n+σ22m)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\overline{X}-\overline{Y}\td N\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}\right)X−Y~N(μ1−μ2,nσ12+mσ22)。模仿单个变量检验均值时的情形,方差已知的情况这里不再赘述;对于方差未知的情况,要求σ12=σ22\sigma_1^2=\sigma_2^2σ12=σ22,为方便起见我们都记为σ2\sigma^2σ2。此时D(X‾−Y‾)=σ2(1n+1m)D\left(\overline{X}-\overline{Y}\right)=\sigma^2\left(\frac{1}{n}+\frac{1}{m}\right)D(X−Y)=σ2(n1+m1),所用的检验统计量应为(X‾−Y‾)−(μ1−μ2)σ1n+1m\cfrac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n}+\frac{1}{m}}}σn1+m1(X−Y)−(μ1−μ2),但σ\sigmaσ未知,所以我们必须把σ\sigmaσ替换为一个用SXS_XSX和SYS_YSY表示的估计值。怎么估计呢?我们设估计σ2\sigma^2σ2的量是SW2S_W^2SW2。首先,这个SW2S_W^2SW2的期望必须是σ2\sigma^2σ2;其次,它除以σ2\sigma^2σ2以后必须服从χ2(n+m−2)\chi^2(n+m-2)χ2(n+m−2)(要求自由度是满的)。我们想想,∑i=1n(Xi−X‾)2+∑j=1m(Yj−Y‾)2\sum\limits_{i=1}^n{\left(X_i-\overline{X}\right)}^2+\sum\limits_{j=1}^m{\left(Y_j-\overline{Y}\right)}^2i=1∑n(Xi−X)2+j=1∑m(Yj−Y)2是什么呢?它其实就是(n−1)SX2+(m−1)SY2(n-1)S_X^2+(m-1)S_Y^2(n−1)SX2+(m−1)SY2,而且(n−1)SX2+(m−1)SY2σ2~χ2(n+m−2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\cfrac{(n-1)S_X^2+(m-1)S_Y^2}{\sigma^2}\td \chi^2(n+m-2)σ2(n−1)SX2+(m−1)SY2~χ2(n+m−2),E((n−1)SX2+(m−1)SY2n+m−2)=σ2E\left(\cfrac{(n-1)S_X^2+(m-1)S_Y^2}{n+m-2}\right)=\sigma^2E(n+m−2(n−1)SX2+(m−1)SY2)=σ2。所以,我们就用SW=(n−1)SX2+(m−1)SY2n+m−2S_W=\sqrt{\cfrac{(n-1)S_X^2+(m-1)S_Y^2}{n+m-2}}SW=n+m−2(n−1)SX2+(m−1)SY2来替换检验统计量中的σ\sigmaσ,得到T=(X‾−Y‾)−(μ1−μ2)SW1n+1mT=\cfrac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{S_W\sqrt{\frac{1}{n}+\frac{1}{m}}}T=SWn1+m1(X−Y)−(μ1−μ2)。
两个变量检验方差比:其实检验统计量就是一个测得的方差比要求的方差比\cfrac{\text{测得的方差比}}{\text{要求的方差比}}要求的方差比测得的方差比的形式。还有一种理解方式:我们知道χX2=(n−1)SX2σ12~χ2(n−1)\chi^2_X=\newcommand{\td}{\,\text{\large\textasciitilde}\,}\cfrac{(n-1)S_X^2}{\sigma_1^2}\td\chi^2(n-1)χX2=σ12(n−1)SX2~χ2(n−1),χY2=(m−1)SY2σ22~χ2(m−1)\chi^2_Y=\newcommand{\td}{\,\text{\large\textasciitilde}\,}\cfrac{(m-1)S_Y^2}{\sigma_2^2}\td\chi^2(m-1)χY2=σ22(m−1)SY2~χ2(m−1),根据FFF分布的性质我们知道χX2/(n−1)χY2/(m−1)~F(n−1,m−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\cfrac{\chi^2_X/(n-1)}{\chi^2_Y/(m-1)}\td F(n-1,m-1)χY2/(m−1)χX2/(n−1)~F(n−1,m−1),也就是SX2/σ12SY2/σ22~F(n−1,m−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\cfrac{S_X^2/\sigma_1^2}{S_Y^2/\sigma_2^2}\td F(n-1,m-1)SY2/σ22SX2/σ12~F(n−1,m−1)。
有的时候,X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn和Y1,Y2,⋯,YnY_1,Y_2,\cdots,Y_nY1,Y2,⋯,Yn之间不一定相互独立,XiX_iXi与YiY_iYi之可能有很强的关联,但不同的(Xi,Yi)(X_i,Y_i)(Xi,Yi)之间没有关联。在这种情况下我们如何考察均值差呢?
设有nnn对相互独立的样本(X1,Y1),(X2,Y2),⋯,(Xn,Yn)(X_1,Y_1),(X_2,Y_2),\cdots,(X_n,Y_n)(X1,Y1),(X2,Y2),⋯,(Xn,Yn),令Zi=Yi−Xi(i=1,2,⋯,n)Z_i=Y_i-X_i\,(i=1,2,\cdots,n)Zi=Yi−Xi(i=1,2,⋯,n),显然Z1,Z2,⋯,ZnZ_1,Z_2,\cdots,Z_nZ1,Z2,⋯,Zn相互独立。设Z1,Z2,⋯,ZnZ_1,Z_2,\cdots,Z_nZ1,Z2,⋯,Zn是来自总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,则可以对μ\muμ进行假设检验。一般情况下σ2\sigma^2σ2是未知的,所以我们选取的检验统计量一般是T=n(X‾−μ0)ST=\cfrac{\sqrt{n}\left(\overline{X}-\mu_0\right)}{S}T=Sn(X−μ0)。
分布拟合检验:设(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn)是来自总体XXX的样本,要根据此样本检验假设H0:X的分布函数为F(x)H1:X的分布函数不是F(x)\begin{aligned} &\textcolor{green}{H_0:X\text{的分布函数为}F(x)}&\\ &\textcolor{red}{H_1:X\text{的分布函数不是}F(x)}& \end{aligned}H0:X的分布函数为F(x)H1:X的分布函数不是F(x)这里F(x)F(x)F(x)是理论分布函数,它可以是已知的,或是形式已知、但包含未知参数的函数。分布拟合检验就是要考察用F(x)F(x)F(x)拟合XXX的分布时,拟合的优良程度如何?
皮尔逊定理 设一个随机试验的rrr个结果A1,A2,⋯,ArA_1,A_2,\cdots,A_rA1,A2,⋯,Ar构成互斥完备事件群,在一次试验中它们发生的概率分别为p1,p2,⋯,prp_1,p_2,\cdots,p_rp1,p2,⋯,pr,其中pi>0(i=1,2,⋯,r)p_i>0\,(i=1,2,\cdots,r)pi>0(i=1,2,⋯,r),且∑i=1rpi=1\sum\limits_{i=1}^r p_i=1i=1∑rpi=1。以mim_imi表示在nnn次独立重复试验中AiA_iAi发生的次数,则当n→∞n\to\inftyn→∞时随机变量χ2=∑i=1r(mi−npi)2npi\chi^2=\sum\limits_{i=1}^r \cfrac{{(m_i-np_i)}^2}{np_i}χ2=i=1∑rnpi(mi−npi)2的分布收敛于自由度为r−1r-1r−1的χ2\chi^2χ2分布。
设X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn是来自总体XXX的样本,F(x)F(x)F(x)是一个完全已知的分布函数,在显著性水平α\alphaα下,检验假设H0:X的分布函数为F(x)H1:X的分布函数不是F(x)\begin{aligned} &\textcolor{green}{H_0:X\text{的分布函数为}F(x)}&\\ &\textcolor{red}{H_1:X\text{的分布函数不是}F(x)}& \end{aligned}H0:X的分布函数为F(x)H1:X的分布函数不是F(x)方法如下:
设理论分布为F(x;θ1,θ2,⋯,θl)F(x;\theta_1,\theta_2,\cdots,\theta_l)F(x;θ1,θ2,⋯,θl),其中θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl是未知参数。我们要先干两件事情,然后继续进行理论分布已知时的过程:
上一篇:SQL速算N日留存