![非参数统计:基于R语言案例分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/277/25370277/b_25370277.jpg)
2.2 分位数检验与
的估计
二项检验可以用来检验有关随机变量分位数的假设,即所谓的分位数检验。二项检验只需要弱名义尺度来度量,度量尺度对于分位数检验而言至少是次序尺度。因为分位数几乎与度量的名义尺度没有关系。
若被检验的随机变量是连续的,检验的假设是:
H 0:X的P*分位数是指定的x*
根据分位数的定义,这就等价于
H 0:P(X≤x*)=p*
用p代表未知的概率P(X≤x*),则H0就可写成:
H 0:p=p*
检验统计量等于样本值小于或者等于x*的个数,可以用双边二项检验。
若被检验的随机变量不是连续的,此时零假设就变为:
H 0:X的P*分位数是x*
这就等价于
H 0:P(X≤x*)≥p*和P(X≤x*)≤p*
2.2.1 分位数检验
X 1,X2,…,Xn是一组随机样本,数据由Xi的观测值组成。假定这些Xi是随机样本,度量尺度至少是次序的。检验过程中用到两个检验统计量T1,T2。令T1等于观测值中小于等于x*的个数,T2等于观测值中小于x*的个数。那么当数据中没有严格等于x*的数时,则T1=T2,否则T1>T2。
检验统计量T1和T2的零分布是二项分布,参数n是样本量,p=p*和零假设相同。在二项分布表中给出了n≤20和选定p值时的零分布。对于其他n,p值,用正态分布逼近。
T的近似分位数xq为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_49_1.jpg?sign=1739255112-qk8pqmwW5e2IeCoSI9hn9LLq8Roeum5b-0-1a0e2cd1f1952bc1a300d4d50956712c)
zp是标准正态随机变量的q分位数。
令x*,p*为指定的值,0<p*<1,则假设可能有以下双边检验、左边检验以及右边检验三种形式。
1.双边检验
H 0:第p*个总体的分位数为x*
这等价于H0:P(X≤x*)≥p*和P(X<x*)≤p*,其中X与样本中的Xi有相同的分布。
H 1:第p*个总体的分位数不是x*
拒绝域对应于T2其值太大,说明可能P(X<x*)>p*,或对应于T1其值太小,说明可能P(X≤x*)<p*。拒绝域可以通过二项分布表,样本量n以及假设概率p*得到。找到t1,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_49_2.jpg?sign=1739255112-XxFwKLhtP8ugPVZ9NAxNIPxhAuusnuga-0-189486b9fdc2498b0dce7cb2ce065a16)
Y服从参数为n和p*的二项分布,α1是显著性水平的二分之一。找到t2,使得P(Y≤t2)=1-α2。选α2使得α1+α2大约等于给定的显著性水平。若T1小于等于t1,或者T2大于等于t2,拒绝H0,否则不拒绝H0,显著性水平等于α1+α2。
对于n>20或者二项分布表中没有的p*值,分别令q=α/2,q=1-α/2,由(2-20)式求出t1=xα/2以及t2=x1-α/2。
p值是二项随机变量Y小于等于观测值T1,或大于等于T2的概率中较小值的两倍,当n≤20,p=p*时,可以从二项分布表中查出,对于n>20,用正态分布表,用
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_1.jpg?sign=1739255112-O7w50pcsEtJl9uZRJYvVDAXkBjrlG4ht-0-809653db719aa0fa3d0c1dbcf14b555f)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_2.jpg?sign=1739255112-V6gowrCVUaeMwnLmXUhz3DhcTOOYwDyE-0-219908b8ef0e64ed830e5eb71fbe9c11)
两式与0.5作为“对连续性的修正”,来改进正态对二项分布的逼近。
2.左边检验
H 0:总体的p*分位数不大于x*
这等价于H0:P(X≤x*)≥p*。
H 1:总体的p*分位数大于x*
这等价于H1:P(X≤x*)<p*。
T 1的值较小时,表示H0是假的,所以用样本量n和特定的概率值p*在二项分布表中得到t1,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_3.jpg?sign=1739255112-WpApsZRgxf0DpY7dPUP4zC0RL0pcTZJ4-0-2438e0a25a1d621f4af8c56233f79b22)
对于可以接受的水平α,其中Y服从参数为n和p*的二项分布。如果T1小于等于t1,则拒绝H0。如果T1大于t1,则接受H0。当n>20时,在(2-20)式中令q=α,得t1=xα。
p值等于二项随机变量Y小于等于观测值T1的概率,当n≤20,p=p*时,可以从二项分布表中查出;对于n>20,用(2-22)式,它可以从正态分布表中得到。
3.右边检验
H 0:总体的p*分位数大于等于x*
这等价于H0:P(X≤x*)≤p*。
H 1:总体的p*分位数小于x*
这等价于H1:P(X<x*)>p*。
由于较大的T2表示零假设是假的,在二项分布表中,把样本量n和假设的概率p*作为p,得到t2,使得
P(Y>t2)=α
对可接受的显著性水平α,它等同于
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_4.jpg?sign=1739255112-zLwPsFcwTSFMBOLRHKX8kFpyMxKMVFVj-0-752cebe07acc82e87baf7963c38519eb)
如果T2大于t2,则拒绝H0。如果T2小于等于t2,则接受H0。对于n>20,在(2-20)中令q=1-α,得t2=x1-α。
p值是二项随机变量Y大于等于观测值T2的概率,当n≤20,p=p*时,它可从二项分布表中查出;对于n>20,用(2-23)式,它可从正态分布表中得到。
举例说明分位数检验的过程。表2-1显示了28位同学某门课程的成绩,请问80是否可以作为学生成绩的3/4分位数?显著性水平为0.01。
表2-1 学生成绩
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_1.jpg?sign=1739255112-oecuGTnULfhxe73FiSZIBbPWQUmksava-0-d573ab90974262af5cfaf656623cd30d)
假设检验的问题是:H0:3/4分位数是80。
备择假设是:H1:3/4分位数不是80。
用双边分位数检验。显著性水平为0.01的临界域可以通过二项分布表查到,此时n=15,p=0.75。此例中T1等于13,p的值是2·p(Y≤13)=0.002 2<α=0.01,因此拒绝零假设,认为3/4分位数不是80。
2.2.2 分位数的置信区间
数据由独立同分布的随机变量X1,X2,…,Xn的观测组成,X(1)≤X(2)≤…≤X(r)≤…≤X(s)≤…≤X(n)为次序统计量,1≤r≤s≤n。希望找到p*(未知的)分位数,p*是0到1之间的某个指定数。
1.假定条件
(1)X1,X2,…,Xn是随机样本。
(2)Xi的度量尺度至少是次序的。
2.小样本
对于n≤20可以用二项分布表来寻找r与s。在二项分布表中,令p=p*和样本量n,沿着p=p*的量向下找,直到有近似等于α/2的值,此时,1-α近似于给定的置信系数,称这个近似值为α1,相应的y值(远离α1左边)是r-1,加1得到r。然后继续沿着这列向下找,直到有近似等于1-α/2的值,成为1-α2。对应1-α2的y值,记作s-1,加1得到s。这样就得到了α1,α2,r,s。准确置信系数是1-α1-α2,区间估计量是X(r),X(s)之间的区间,而X(r),X(s)可以从数据中得到。那么,
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_2.jpg?sign=1739255112-AFoW3aMADiDvFIq4DkQKkCfJAaPO2Jeh-0-3dec3ca0ee70e5bd9751a3288be4926f)
给出了置信区间。如果假设未知的分布函数是连续的,那么,
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_3.jpg?sign=1739255112-X7Rr1asAJrOflZdW3Ba57zCZi1Xuu07W-0-f2f7725c82a24f394fb5e2ac922de492)
3.大样本近似
对于n大于20,可以用基于中心极限定理的逼近计算
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_4.jpg?sign=1739255112-FcktvcIrvK8nyWggrvF6GNUKaVo1uy1z-0-40b867883c061f912e6ec8dea38a9d2d)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_5.jpg?sign=1739255112-uQIcWJFzc9roTHxZqtqkPuDpXCKsDSPT-0-b9048cfb5cf9a1a0c1e45e8716bfdf9a)
其中,分位数zq从正态分布表找出,1-α是给定的置信系数。一般地,r*,s*不是整数。令r和s是r*,s*向上取整的整数,则(2-31)式给出了近似置信区间,如果位置分布函数是连续的,则近似置信区间由(2-29)式给出。
如上所述,单边的置信区间可以通过只找r或s得到,单边置信区间为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_6.jpg?sign=1739255112-wdwS9nlea1Lw66XLk8wViCmJF9JR5786-0-14338c2dd45202cdfcc742cfbe0082b1)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_1.jpg?sign=1739255112-75yjy2wxAL0ollacUhzBq0XMalCdS0a2-0-494d1dc88e85b82cd2720e73620262e7)
如果分布函数是连续的,则为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_2.jpg?sign=1739255112-MgEdZqUKGwAcyM3X2l0AAXqnJQ7Ba8Yc-0-e6841fce48e09f3e11c0a2fa0912fb58)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_3.jpg?sign=1739255112-TIcYnhkFyqIjEdOH3EgfCpMQh6CrlHvq-0-df6fae6a7ec6593451035c9b82765d29)
首先考虑分布函数是连续的情况,这种情况比较简单。如果xp*是p*分位数,则有如下关系
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_4.jpg?sign=1739255112-MWPVuPMH35TeQYJAwTsRpzgkBJOahLqd-0-32459a9c6e701223834fbf5dbfea75e5)
其中,X的分布函数与随机样本的分布函数一样。
假设次序统计量X(1)大于某个确定的常数,只要样本中最小的数都大于这个常数,即只要样本中n个值都大于这个常数,X(1)就大于这个常数,选择xp*作为这个常数,可以得到
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_5.jpg?sign=1739255112-IWZq3eOVyMkXh65lbV0qGj0PToVficTE-0-fa89ee5d060f4bce010fb228811ab75d)
因为Xi独立,它们有同样的p*分位数xp*。
如果xp*小于X(2),那么X(1)≤xp*<X(2)中,恰有n-1个观测值大于xp*,或者在xp*<X(1)<X(2)中,有n个观测值大于xp*,所以
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_6.jpg?sign=1739255112-sTIboCmssoXxe6vsYHQIF5IFFY7hLvG7-0-d9934244b08a2eff8ed83fa91766a29f)
现在,(2-36)式中的概率由二项分布函数给出,因为每个Xi都有小于等于xp*的概率p*,且Xi是互相独立的,所以由上式可以得到
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_7.jpg?sign=1739255112-Nx3mVw8kux5tFLcacEYHt45z6TGCR2br-0-7f4930d6f6b9c85562d0e230e7cedac0)
在二项分布函数F(x)=P(X≤x)=∑i≤x(ni)piqn-i下,则之前的讨论可以做如下推广:
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_8.jpg?sign=1739255112-WPTCE8XYyFukd1ZEWdTXfFg73kuo7Fgq-0-d41042f6cec41029d145957ee4663f20)
置信系数由下式得出
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_9.jpg?sign=1739255112-OnNmF4GhlYazdp7TF157SksDRrZhu3rT-0-98dcfd72c9c130069909f72a6257af96)
从而,由(2-38)式和二项分布表可以得到r、s的值,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_10.jpg?sign=1739255112-zgSS9NWMjaEKxIvXGsGkpOo6X5gx7PZq-0-e9f396922b545fdf05c515e7a2fdf416)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_1.jpg?sign=1739255112-OxKMiGEllWTmhSlImiCWbJMqySCSyUWK-0-02c3e39bff53c58080b0b5e924ddd04b)
则置信系数是1-α1-α21-α。注意,因为假设分布函数是连续的,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_2.jpg?sign=1739255112-chaKWN86tfk7aVJJC9EFARaPR2JJw4WF-0-ca10fa050029ce18a685dc269d11ae4a)
因此,可以用二项分布表得到s。
如果X与Xi的分布函数都不是连续的,(2-42)式不成立。由离散随机变量的定义,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_3.jpg?sign=1739255112-EzPLFRvGTWtS4ublUw6ma5m8WVXBNtvd-0-be5d8a6354fff4862e6ea6a356d00eac)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_4.jpg?sign=1739255112-t96EHDbGVXRQIxMIQ6BQtrWnXSmPTabo-0-944effacd0821efadeed682d2aab473c)
首先,我们考虑(2-43)式是如何影响(2-38)式,进而影响(2-41)式求r的方法的。因为(2-43)式成立,每个观测值大于xp*的概率小于当X是连续时的值,所以,每个次序统计量大于xp*的倾向,小于X为连续时的情形。即概率P(xp*≤X(r))小于X为连续时(2-38)式给出的值。所以一般情况下,下式成立
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_5.jpg?sign=1739255112-WwUHWxhtT1aC18qciSSudpiVC2JRl2Jm-0-143bb82e733dc1fd7531e38bc857272d)
如果用上面介绍的方法从二项分布表中找r,那么
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_6.jpg?sign=1739255112-gkyoV7a5cw4S2E0QhHuGC9S3L4G733ip-0-5b3addd057b982840ead269f7d6ffc3e)
现在,我们考虑(2-44)式是怎样通过选择s的值来得到概率1-α2的。因为(2-44)式成立,每个观测值大于等于xp*的概率大于X为连续时的概率,所以观测值大于等于xp*的个数比X为连续时的多,xp*≤X(s)的概率大于X为连续时的情况。因此,(2-38)式可以改为适用于一般情况的式子
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_7.jpg?sign=1739255112-zqcvJxQy4IKqu3hXC5HOtqWFqqESnXTm-0-14b84d9672a452dd2ec985b5a1551e76)
所以,如果用先前的方式在二项分布表中找s,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_8.jpg?sign=1739255112-vtqqjAPlmsKaVIjVUIITdDa0Pr7uhj6X-0-9c629e66c8d23f940bc27a04437f288b)
对于任何分布都成立的(2-46)和(2-48)式,可以按如下方式使用
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_9.jpg?sign=1739255112-sqaIHFgbTVFl3EtLNpyvr9biqUI3I2n5-0-25c80370e20e5ebb4f043f2c3e894906)
所以,这种方法对于离散随机变量或有结点的有序数据是保守的。因此,求分位数的置信区间的方法,对于有二项分布函数的精确表可用的情形可是可行的。
用大样本方法求r和s是基于标准正态分布近似二项分布的想法,虽然关于怎样由r*,s*求得整数r,s的方法还有不同的争论,但是,此处给出的直接向上取整的方法是个很接近的近似。