非参数统计讲义二单样本模型通用课件



《非参数统计讲义二单样本模型通用课件》由会员分享,可在线阅读,更多相关《非参数统计讲义二单样本模型通用课件(116页珍藏版)》请在装配图网上搜索。
1、单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,非参数统计,第二章,单样本模型,符号检验法,,符号秩检验,,随机游程检验,,卡方拟合检验,主要内容,,符号检验的现实背 景,,,,现实中很多问题可以化成投掷硬币模型分析,正面(头象,heads,)为正,反面(币值,tails,)为负。,,,例如:用于确定人们驾车是否超限速,抽样车超速用“正号”;不超速用“负号”。,,,例如:比较两个品牌产品,顾客只需求说出或标出所偏好的品牌用“正号”,否则为“负号”。,,符号检验法,Sign test,符号检验是一种在只能得到定类数据时确认两个总体间差
2、异的非参数统计方法。,,1,、以对定类数据的分析为基础,,,2,、用于判断两总体间的差异。,,检验假设:,如果根据样本得到的正负号数有很大差异 ,就有理由拒绝,H0,,认为两个样本的数据有显著差异。,在小样本的情况下,,n,个样本出现,K,个“,+”,的概率服从二项分布。,(,1,)在双侧检验中,假设为,无论出现过多的“,+”,或过少的“,-”,号都 能导致拒绝,H0,。,EXCEL,中用,binomdist(k,n,p,1),求累计概率,(,2,)在单侧检验中,假设为,则出现过少的“,+”,号将 能导致拒绝,H0,。,K,这“,+”,的数目。,(,3,)在单侧检验中,假设为,则出现过少的“,
3、-”,号将能导致拒绝,H0,。些时检验统计量,K,为“,-”,号的数目。,例:两种品牌桔汁,让,12,个人品尝未加标签的样本,在品尝后说出在两个品牌中偏好那一个品牌。研究目的是确定两种品牌中消费者是否偏好某一个。,,,,,假设,H0:P,=,1/2, H1:P≠1/2,,若无法拒绝,H0,,则没有证据表明两种品牌桔汁的偏好有明显差异。,,若拒绝,H0,,则认为消费者对两种品牌存在差异。,如何用符号检验的小样本形式来检验假设。,,,为了记录参与这项研究的确切个人的偏好数据,若用加号表示偏好,A,品牌,用减号表示偏好,B,品牌。,,大多数消费者选出的品牌是认为最受欢迎的。,,,由于数据用加
4、,减号记录所以称符号检验,个人号,符号,,1,-,-1,2,-,-1,3,-,-1,4,-,-1,5,-,-1,6,-,-1,7,-,-1,8,+,1,9,+,1,10,-,-1,11,-,-1,12,-,-1,正号的个数为,2,,,,概率小于,0.05,。,,,说明顾客偏好存在差异,,B,比,A,好,,(要除去相等(相同)的样本。),,概率,加号个数,BINOMDIST(B3,12,0.5,0),0,0.000244,1,0.00293,2,0.016113,3,0.053711,4,0.12085,5,0.193359,6,0.225586,7,0.193359,8,0.12085,9,0
5、.053711,10,0.016113,11,0.00293,12,0.000244,显著性水平,0.05,,加号个数大于,10,的概率(等于小于,2,的概率),0.003418,,小于,0.05,, 认为有显著差异。,Data exa1;,,Input x @@;,,Datalines;,,-1 -1 -1 -1,,-1 -1 -1 1,,1 -1 -1 -1,,;,,proc univariate data=exa1;,,var x;,,run;,UNIVARIATE,过程,,变量,: x,,,矩,,,N 12,权重总和,12,,,均值
6、,-0.6666667,观测总和,-8,,,标准偏差,0.77849894,方差,0.60606061,,,偏度,2.05523721,峰度,2.64,,,未校平方和,12,校正平方和,6.66666667,,,变异系数,-116.77484,标准误差均值,0.22473329,,,基本统计测度,,位置 变异性,,均值,-0.66667,标准偏差,0.77850,,,中位数,-1.00000,方差,0.60606,,,众数,-1.00000,极差,2.00000,,,四分位极差,0,,,位置检验,: Mu0=0,,,检验,--,统计量,--- ---
7、----P,值,-------,,,学生,t t -2.96648 Pr > |t| 0.0128,,,符号,M -4 Pr >= |M| 0.0386,,,符号秩,S -26 Pr >= |S| 0.0386,In a sample of 100 butterflies, we found 35 males and 65 females. Can we conclude that,,there are, in general, more males than females?,,,The number of female but
8、terflies in a samples if 100 animals follows a binimial distribution,,B(100,p) and we want to test the null hypothesis H0: “p=0.5” against the alternative,,hypothesis H1: “p different from 0.5”.,,binom.test(35, 100, .5),R,软件计算二项分布,R,语言程序,n,次试验,成功小于等于,y,次,,p=0.5,,pbinom(y,n,.5,),,,x1=c(-1, -1, -1, -1
9、,-1, -1, -1 , 1,1 ,-1 ,-1, -1),,n=length(x1);m=sum(x1>.005),,pbinom(m,n,.5),,summary(x),,binom.test(m, n, .5),,正态近似,,R,程序,,N=100,p=0.5,k=45,,正态参数,U=0.5*100=50,D=0.5*0.5*100=25,,,y=1-pnorm(45,50,25),,y,,在比较两个有联系的样本的差异时,如果样本数据的计量水平至少为顺序水平时,可以用符号检验。,设两个有联系的样本,(X1,X2,…,Xn),与,(Y1,Y2,…,Yn),,它们的计量水平为顺序水平
10、,因而我们能比较出每一对,Xi,与,Yi,的大小,如果,,Xi>Yi,则记作“,+”,;如果,Xi 11、,1.8,2.6,服药后,3.1,3,3.5,1,1.8,3.9,2.2,2.1,1.4,2.9,2.6,1.4,2.7,,解:分析:如果药没有作用,上升与下降的比例近似相同。,,H0,:,P,=,0.5,,,H1,:,P≠0.5,其中有一人不变,,n=12,,其,11,个下降,服药前减服药后得,11,个“,+”,,,1,个上升得“,-”,,,,拒绝,H0,,认为有助于降低胆红素,NO,X1,X2,1,4,3.1,2,3.2,3,3,3.8,3.5,4,1.8,1,5,3,1.8,6,5.3,3.9,7,5.7,2.2,8,3,2.1,9,2.7,1.4,10,2.8,2.6,11,1.8,1 12、.4,12,2.6,2.7,COMPUTE y = (x2 > x1) .,,EXECUTE .,X1,X2,4,1,3.2,1,3.8,1,1.8,1,3,1,5.3,1,5.7,1,3,1,2.7,1,2.8,1,1.8,1,2.6,1,3.1,2,3,2,3.5,2,1,2,1.8,2,3.9,2,2.2,2,2.1,2,1.4,2,2.6,2,1.4,2,2.7,2,用,T,检验分析;,w=read.table("D:/r1.txt",header=T),,w,,x<-w[1:12,1],,y<-w[13:24,1],,t.test(x,y),,用,T,检验,结果为,在,0.01,显著 13、性水平下,,,不能拒绝,H0,,,,将产生极大错误。,N=12, k=1, p=0.5,大样本的情况:一般当,n>20(n>25),,可以对二项分布用正态分布近似计算,在计算,K,值时,当,K 14、;,,x=probbnml(,0.5,,,40,,,12,);,,put "x=" x;,,run,;,binom.test(12, 40, .5),例:有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么真实情况究竟应该是怎样的呢?随机地选取,15,名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按,优、良、中、及、差,打分,经过三个月训练后,再做一次测试对每个学生打分。数据见下表所示。我们将素质提高用正号表示,反之用负号表示,没有变化用,0,表示。显著性水平取,0.05,。,学生编号,训练之前,训练之后,差异符号,1,中,优,+,2,及,良,+,3,良,中,- 15、,4,差,中,+,5,良,良,0,6,中,优,+,7,差,及,+,8,良,优,+,9,中,差,-,10,差,中,+,11,中,优,+,12,及,良,+,13,中,及,-,14,中,优,+,15,差,中,+,假设检验为:,,即,H0:p<0.5,,训练之后学生素质没有提高。,,即,H1:P>0.5,训练之后学生素质有提高。,,,从表,1,中,15,名学生训练前后的差异分析可得出:有,14,名学生有差异,其中,S+=11,,,S-=3,。,,1,名学生无差异(学生编号为,5,),应该从分析中去掉,所以,n=15,-,1=14,。,,由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的 16、假定概率为,p=0.5,,负号为,1-p=0.5,,这样整个试验的概率是相同的,并且每一个试验是相互独立的。,,因此在,n=14,次独立的试验中,正号出现的次数服从二项分布,B(14,0.5),,,正号出现的次数,正号出现的概率,累计概率,0,0.0001,0.0001,1,0.0009,0.0009,2,0.0056,0.0065,3,0.0222,0.0287,4,0.0611,0.0898,5,0.1222,0.2120,6,0.1833,0.3953,7,0.2095,0.6047,8,0.1833,0.7880,9,0.1222,0.9102,10,0.0611,0.9713,11, 17、0.0222,0.9935,12,0.0056,0.9991,13,0.0009,0.9999,14,0.0001,1.0000,从表中的累计概率列中我们看到,正号出现的次数大于,10,的概率为,1,-,0.9713=,0.0287,,或者换一种方法计算为,0.0001+0.0009+0.0056+0.0222=,0.0287,,二者的微小差异是因为小数点后舍入问题造成的。,,而试验的结果:正号出现的次数为,11,,大于,10,,出现的概率不会超过,0.0287,,我们开始设定的显著性水平为,0.05,,由于,0.0287<0.05,,所以我们拒绝原假设,接受备选假设,。,学生编号,训练之前, 18、训练之后,差异符号,符号,1,中,优,+,1,2,及,良,+,1,3,良,中,-,0,4,差,中,+,1,5,良,良,0,,6,中,优,+,1,7,差,及,+,1,8,良,优,+,1,9,中,差,-,0,10,差,中,+,1,11,中,优,+,1,12,及,良,+,1,13,中,及,-,0,14,中,优,+,1,15,差,中,+,1,Spss,软件,P,值小于,0.1,,拒绝,H0,例:美国民意调查,200,个选民,,72,人认为民主党的政策好,,103,人认为共和党的政策好,,25,人无偏好,检验民众对两党政策观点是否有显著不同。,,解:,,样本数,N=200-25=175,,均值,U,=, 19、0.5*175,=,87.5,,标准差,SS,=√(,0.25*175,)=,6.6,,样本量大于,20,,认为抽样分布近似正态分布,,S=X,=,72,,Z=(72-87.5)/6.6=-2.35,=NORMSDIST(-2.35),=,0.009387,小于,0.05,,说明两党观点有显著差异,例:生男与生女与属象有无关系?,英国,Arbuthnott(1710,)收集了,80,年来的出生记录,并比较每年生男孩与女孩的人数,用“,+”,表示男多;用”,-“,表示女多。,,H0,:,P,(,+,)=,P,(,-,),,H0,:,P,(,+,)≠,P,(,-,),,调查结果是,82,年全是”, 20、+“,号;没有减号”,-”,,表示生男孩多。拒绝生男与生女概率相同,概率相等的可能,=BINOMDIST(0,82,0.5,1),=,2.068E-25,,如何研究节食对减肥有作用?,姓名,节食前体重,节食后体重,,,,,,,,,,,,,,,,,,,,,单样本中位数符号检验,,中位数将总体分割成为两部分,大于中位数和小于中位数的样本各占,50%,。,,用符号检验,大于假设的中位数的用加号,小于假设的中位数的用减号。等于中位数的删除。,,非参数检验不是把均值 作为集中越势的度量,而是把中位数作为集中趋势的度量。对两个总体,参数检验比较均值,非参数检验比较中位数,中位数推断,假设总体 21、 ,,M,是总体的中位数,对于假设检验问题:,,,,是待检验的中位数取值,,,定义,, ,,,则,,,,,,在零假设情况下 ,在显著性水平为 的拒绝域为,,,,,,,其中,k,是满足上式最大的,k,值。,,例,.,假设某地,16,座预出售的楼盘均价,单位,(,百元,/,平方米,),如下表所示:,,,,36,32,31,25,28,36,40,32,41,26,35,35,32,87,33,35,检验中位是否为,37,SPSS,,检验数据的正态性,,用,Analyze,-,Nonparame 22、tric Tests,--,Binomial Test,解:,,H0,:,Me=37, H1:me ≠37,不是正态分布,,,例:高级技师年收入的中位数为,40000,,某行业的高级技师收入数据如下表,检验该行业收入是否比全市的高,27659,30856,33908,39964,37143,34158,33786,26661,42968,20979,38157,38497,39544,30323,39213,34402,25765,38938,29494,46074,40659,45128,33226,33997,44885,38828,39409,33080,25267,32367,30 23、092,39786,47119,53746,43266,42687,40659,24076,23276,31941,,,30094,47017,,,28383,27612,,,,36224,H0,:,P{me>40000}=0.5,,H1: P{me>40000} ≠0.5,SPSS,计算,大于,40000,的人数,11,人,拒绝原假设,有显著差异,例:假设房价中位数为,130000,元,调查,62,所住宅的样本房价,有,34,所高于,130000,,有,26,所低于,130000,,有两所恰好等于,130000,元。,,解:,H0,:,ME=130000, h1:ME≠130000,,N=6 24、2-2=60,,均值,U=0.5*N=0.5*60=30,,标准差,SS,=√(,0.25*60,)=,3.87,,X=s=34,,Z=(x-u)/ss=(34-30)/3.87,,SAS,计算检验,P,值,,p=0.8493364667,,大于,0.05,,说明不能拒绝零假设。,例:某汽车质量要求从加速到,100,公里的秒数不超过,8,秒,随机抽样,10,部车,,,结果如下表,产品质量是否合格?,1,8.5,2,9.4,3,7.8,4,7.4,5,7.7,6,9.9,7,7.9,8,9.1,9,8.7,10,8.6,检验数据正态性;用,T,检验和符号检验两种检验,比较结果,数据基本呈正态性, 25、在,10%,显著性水平下拒绝,H0,,,4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,6720,习题:在某保险公司的某保险各类中,一次关于,1998,年的索赔额(单位:元)的随机抽样结果如下表:已知,1997,年中位数为,5064,元,是否有变化?,,x<-c(4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,6720),,n=length(x),,n,,me=median(x),,me1 26、=5064,,m=sum(x 27、 parameter for both groups is 0.5. To change the probabilities, you can enter a test proportion for the first group. The probability for the second group will be 1 minus the specified probability for the first group.,,(二项分布检验过程用于比较两个分类的频数,指定发生概率,P,,默认为,0.5,,可以改变,一组概率为,P,,另一组概率则为,1-p,,,Example. When 28、you toss a dime,掷硬币,, the probability of a head equals 1/2. Based on this hypothesis, a dime is tossed 40 times, and the outcomes are recorded (heads or tails). From the binomial test, you might find that 3/4 of the tosses were heads and that the observed significance level is small (0.0027). These 29、results indicate that it is not likely that the probability of a head equals 1/2; the coin is probably biased.,10,个观测数,检验假设中位数为,9,游程检验,runs test,某商场研究顾客是一个一个人来的多,还是一对一对来的多。,,如果是一对对来的多则样本应该是,,男女男女女男男女,,关于随机性的游程检验(,run test,),,游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。,,,假定下面是由,0,和,1,组成的一个这种变量的样本(数据,run1.sav,) 30、:,,0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0,,其中,相同的,0,(或相同的,1,)在一起称为一个游程,(单独的,0,或,1,也算)。,,这个数据中有,4,个由,0,组成的游程和,3,个由,1,组成的游程。一共是,R,=7,个游程。其中,0,的个数为,n0,=15,,而,1,的个数为,n1,=10,。,,随机游程检验,随机游程问题:,,一个由元素,0--1,构成序列当中,,一段全由,0,或者全由,1,构成的串成为一个游程。,,游程中数据的个数称为游程长度,序列中游程的个数记为,R,,,反映,0,和,1,轮换交替的频繁程度,。,,在序列 31、长度,N,固定的时候,,如果游程过少过者过多,都说明序列的随机性不好,。当游程过多或者过少时,就会怀疑序列的随机性。,,例,:,序列,共有,8,个游程,,11 0000 111 0 11 0000 1111 00,例:研究顾客是偏爱一般的可乐(,1,)还是无糖型可乐(,0,)。,,26,个样本序列为,,,计算样本游程数,,1 2 3 4 5 6 7 8 9 10 11 12,,0 11111 0 11 0 1111 0 1 0 111 000 111,12,个游程,,n0=8, 32、 n1=18,H0:,样本是随机的,,H1,:样本不是随机的,,,a,=,0.05,,0,1,1,1,1,1,0,1,0,1,1,1,1,0,1,0,1,1,1,0,0,0,1,1,1,数据输入,SPSS,中,游程高于及低于的分界值,K = 0.5,,样本数,12,,观测到的总游程数,= 12,,期望的总游程数,= 12.0769,,18,个观测值高于,K, 8,个低于,,P,值,= 1,,不能拒绝,H0,关于随机性的游程检验(,run test,),,,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的,取值小于某个值及大于该值,的个数(类似于,0,和,1,的个数)是否随机 33、的问题。看下面例子。,,例,(run2.sav):,从某装瓶机出来的,30,盒化妆品的重量如下(单位克),,71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9,,为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中 34、位数的个数是否是随机的(零假设为这种个数的出现是随机的)。,,关于随机性的游程检验(,run test,),,如果把小于中位数的记为,0,,否则记为,1,,上面数据变成下面的,0,-,1,序列,,1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0,,这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自动处理这个问题的。,67.60,71.60,67.70,71.00,67.60,71.80,68.10,70.30,68.00,70.50,67.50,72.90,69.80,71.00 35、,67.50,71.00,69.70,70.10,70.00,71.80,69.10,71.90,70.40,70.30,71.00,70.90,69.90,69.30,67.30,71.20,N,平均值,标准误,标准差,最小值,最大值,中位数,30,69.893,0.290,1.589,67.300,72.900,70.200,SPSS,软件使用说明,,用,run2.sav,数据。,,选项为,Analyze,-,Nonparametric Tests,-,Runs,。,,然后把变量(这里是,length,)选入,Variable List,。再在下面,Cut Point,选中位数(,Medi 36、an,)。当然,也可以选其他值,如均值(,Mean,),众数(,Mode,)或任何你愿意的数目(放在,Custom,)。注意在对前面的由,0,和,1,组成的序列(,run1.sav,进行随机性检验时,,要选均值,(,为什么?)。,,在点,Exact,时打开的对话框中可以选择精确方法(,Exact,),,Monte Carlo,抽样方法(,Monte Carlo,)或用于大样本的渐近方法(,Asymptotic only,)。最后,OK,即可。,直接利用这个数据,通过,SPSS,,得到下面游程检验结果的输出。,拒绝,H0,,任为质量不是随机的。,,从结果看有,15,个大于中位数和,15,个小于中 37、位数。,67.6,0,67.7,0,67.6,0,68.1,0,68,0,67.5,0,69.8,0,67.5,0,69.7,0,70,0,69.1,0,70.4,1,71,1,69.9,0,67.3,0,71.6,1,71,1,71.8,1,70.3,1,70.5,1,72.9,1,71,1,71,1,70.1,0,71.8,1,71.9,1,70.3,1,70.9,1,69.3,0,71.2,1,主要是游程太少,,R,=,8,,生产设备不正常,检验地方病有无聚集性?,大样本时正态分布近似计算,,当,n1,n0,大于,20,时,统计量,例:一质检员抽,50,件产品,,40,个合格,,10,个 38、不合格,游程,R,=,13,;检验不合格产品是否有随机性。,(0.05),H0:,样本随机的,,H1,:样本不是随机的,大样本正态近似,Z=(13-17)/2.213=-1.81,-1.96,,,Z,,,1.96,,不能拒绝,H0,,不能拒绝样本随机性,不合格品是随机的。机器不存在系统性缺陷。另查找问题(人员,工艺等),例:调查问卷题统计分析。,,问题:你认为妇女她们获得成功的机会比她们的父母 要多吗?,,H0:,回答是随机的,,H1,:问答不是随机的,,有,64,份问卷,答是,n1=40,,答否,n0=24,NPAR TESTS,,/RUNS(1.5)=X,,/STATISTICS D 39、ESCRIPTIVES,,/MISSING ANALYSIS,,/METHOD=EXACT TIMER(5).,检验模型残差是否随机,检验时间序列是否随机,股票价格,,Kolmogorov-Smirnov,拟合检验,根据样本数据检验是否来自某个已知的分布。如正态、指数、均匀分布,,poisson,分布,Kolmogorov-Smirnov,正态性检验,,,Kolmogorov-Smirnov,正态性检验,根据样本经验分布和理论分布的比较,检验样本是否来自于该理论分布。假设检验问题:,,假设样本的经验分布函数为 ,定义,,,,当时 ,拒绝零假设。,,经验分布函数,,Empiric 40、al distribution function,设,x1,x2,…,xn,是一组随机样本,经验分布,s(x),是它在点,X,点取值为小于或等于,X,的,XI,在样本总数中所占比例。,,1mile(1609,米,),速度,序号,比例,5.2,1,0.2,5.58,2,0.4,6.23,3,0.6,6.42,4,0.8,7.06,5,1,1,5.2,5.6,6.2,6.4,7.06,1mile(1609,米,),速度,序号,比例,,累计,5.2,1,0.2,0.170548,0.170548,5.58,2,0.4,0.183011,0.353559,6.23,3,0.6,0.204329,0.5 41、57888,6.42,4,0.8,0.210561,0.768449,7.06,5,1,0.231551,1,30.49,,,,,例:检验下列数据是否来自均匀分布,0.621,0.503,0.203,0.477,0.71,0.581,0.329,0.48,0.554,0.382,NPAR TESTS,,/K-S(UNIFORM)= X,,/MISSING ANALYSIS.,例:汽车排放的氮氧化物测量,以前为,,N,(,5.6,,,1.2),正态分布。,,今年测量,12,辆,,,问今年汽车排放量与去年是否相同?,4.8,6.2,6,5.9,6.6,5.5,5.9,6.3,6.6,6.2,5,5 42、.8,SPSS,程序命令,,K-S Subcommand (One-Sample),,NPAR TESTS K-S({NORMAL [mean,stddev]})=varlist,,{POISSON [mean] },,{UNIFORM [min,max] },,{EXPONENTIAL [mean] },NPAR TESTS,,/K-S(NORMAL[5.6,,,1.2])= X,,/STATISTICS DESCRIPTIVES,,/MISSING ANALYSIS.,R,软件计算,,> x<-c(4.8,6.2,6,5.9,6.6,5.5,5.9,6.3,6.6,6.2,5,5.8),, 43、> ks.test( rnorm(5.6,1.2), x ),,,Two-sample Kolmogorov-Smirnov test,,data: rnorm(5.6, 1.2) and x,,D = 1, p-value = 0.001720,,alternative hypothesis: two-sided,,,Warning message:,,In ks.test(rnorm(5.6, 1.2), x) :,在有连结的情况下无法正确計算,p,值,对称中心是原点的检验,称号检验只用到了符号是正与负,没有用到样本数值的大小的信息。,,需要进行改进,引入了威尔科克斯(,WILCOXON 44、,)符号秩和检验。,,用到了样本数值的大小的信息。,Wilcoxon,秩和检验,如果两个样本相关,则不能用,U,检验,处理相关数据的检验方法是,Wilcoxon,配对符号秩检验(,Wilcoxon matched-pairs signed rank test),,由,Frank Wilcoxon,于,1945,年提出,应用于一组数据与另一组数据相关的情况下。,例:同一组人在不同条件下进行的测量研究。,例:对双胞胎的研究,Wilcoxon,符号秩检验,,基本概念及性质,,,,对称分布的中心一定是中位数,在对称分布情况下,中位数不唯一,研究对称中心比中位数更有意义。,,例:下面的数据中,,O,是对 45、称中心吗?,,0,,,,,,,,,,,符号检验时,,P,=,0.5,,符号数各占一半,但数据值不对称,假设数据为不,0,,对样本数据取绝对值,设对称中心,θ,为原点。如果数据对称,则均值与中位数相等。符号秩和应该相差不大,,X,sign(x),abs(x),rank(abs(x)),sign(x)*rank(abs(x)),符号秩和,-5,-1.00,5,7,-7,,-4,-1.00,4,5,-5,,-3,-1.00,3,3,-3,-18,-2,-1.00,2,2,-2,,-1,-1.00,1,1,-1,,3,1.00,3,3,3,,4,1.00,4,5,5,,5,1.00,5,7,7,34, 46、8,1.00,8,9,9,,9,1.00,9,10,10,,用符号检验结果,出现的比例,P=0.5,WILCOXON,检验,W=min(18,34)=18>W(0.05)=11,不能拒绝,H0,,可以认为基本对称,Wilcoxon Rank Sum and Signed Rank Tests,x<-c(-5,-4,-3,-2,-1,3,4,5,8,9),,wilcox.test(x, y = NULL, mu = 0, paired = FALSE),,Wilcoxon signed rank test with continuity correction,,,data: x,,V = 35 47、.5, p-value = 0.4437,,alternative hypothesis: true location is not equal to 0,,,Wilcoxon,符号秩检验原理以及性质,,首先设样本绝对值 的顺序统计量 ,如果数据关于,0,点对称,那么对称中心两侧的数据疏密程度应该一样,整数在取绝对值以后的样本中的秩应该和负数在绝对值样本中的秩和相近。,,用 表示 在绝对值样本中的秩,反秩 由 定义。 表示 的符号, 称为符号秩统计量。,,Wil 48、coxon,符号秩统计量定义为:,,Wilcoxon,符号秩检验步骤:,,3.,令 表示和 对应的 的秩和,令 表示 和 对应的 的秩和。,,2.,找出 的秩,打结时取平均秩。,1.,计算,4.,双边检验,,,取,,当,W,很小时拒绝零假设;对,,,取 ;对 ,取 。,,5.,根据,W,的值查,Wilcoxon,符号秩检验分布表。对,n,很大的时候,可以采用正态近似。,,大样本,n>50,时近似正态分布,Wilcoxon,符号秩统计量分布,,在小样本情况下可以 49、计算,Wilcoxon,符号秩统计量的精确分布。,在大样本情况下可以使用正态近似:,,,,计算出,Z,值以后,查正态分布表对应的,p-,值,如果,p-,值很小,则拒绝零假设。,,在小样本情况下,用连续性修正公式:,,,例:,亚洲十国新生儿死亡率(单位:千分之一),,33 36 31 15 9 6 4 65 77 88,中位数是,34,,检验是否对称?,Wilcoxon,符号秩检验导出,Hodges-Lemmann,估计性质及运用,,定义,:简单随机样本 ,计算其中任意两个数的平均,称为,Walsh,平均,即,,定理,:,Wilcoxon,符号秩统计量 50、可表示为:,,定义,:假设 独立同分布于 , 当,F,对称时,定义,Walsh,平均中位数:,,,,作为 的,Hodges-Lemmann,估计。,正态计分检验,检验原理以及计算,:,,,基本思想是把升幂排列的秩 用对应的正态分位,,点替代,为了保证秩为正的,用变化的式子:,,,,,其中 就是第 个数据的正态记分。,,计算步骤,,对假设检验问题: 对单边或者双边。,,1.,将的 秩按升幂排列, 并加上 对应的 符号,也就是构造符号秩,.,,2,.,用正态记分代替符号秩:,,记 ,构造统计量:,,3. T,有近似的正态分布,,,当,T,大的时候,考虑拒绝零假设。,,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 36个关键词详解2025政府工作报告
- 学习2025年政府工作报告中的八大科技关键词
- 2025年政府工作报告要点速览接续奋斗共谱新篇
- 学习2025政府工作报告里的加减乘除
- 深化农村改革党课ppt课件(20250305)
- 弘扬雷锋精神凝聚奋进力量学习雷锋精神的丰富内涵和时代价值
- 深化农村改革推进乡村全面振兴心得体会范文(三篇)
- 2025年民营企业座谈会深度解读PPT课件
- 领导干部2024年述职述廉述责述学述法个人报告范文(四篇)
- 读懂2025中央一号党课ppt课件
- 2025年道路运输企业主要负责人安全考试练习题[含答案]
- 2024四川省雅安市中考英语真题[含答案]
- 2024湖南省中考英语真题[含答案]
- 2024宁夏中考英语真题[含答案]
- 2024四川省内江市中考英语真题[含答案]