数据的概括性度量.

上传人：陈** 文档编号：253076087 上传时间：2024-11-28 格式：PPT 页数：86 大小：815.50KB

收藏版权申诉举报下载

第1页 / 共86页

第2页 / 共86页

第3页 / 共86页

下载文档到电脑，查找使用更方便

15 积分

下载资源

资源描述：

《数据的概括性度量.》由会员分享，可在线阅读，更多相关《数据的概括性度量.（86页珍藏版）》请在装配图网上搜索。

1、单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,,,,*,,STAT,第 3章数据的概括性度量,3.1 集中趋势的度量,,3.2 离散程度的度量,,3.3 偏态与峰态的度量,学习目标,1.,集中趋势各测度值的计算方法,,2.,集中趋势各测度值的特点及应用场合,,3.,离散程度各测度值的计算方法,,4.,离散程度各测度值的特点及应用场合,,偏态与峰态的测度方法,,用,Excel,计算描述统计量并进行分析,数据分布的特征,集中

2、趋势,,,(位置),偏态和峰态,,（形状）,离中趋势,,,(分散程度),数据分布特征的测度,数据特征的测度,分布的形状,集中趋势,离散程度,众数,中位数,均值,离散系数,方差和标准差,峰态,四分位差,异众比率,偏态,集中趋势,(central tendency),一,组数据,向其中心值靠拢,的倾向和程度,,测度集中趋势就是寻找数据水平的,代表值或中心值,,不同类型的数据用不同的集中趋势测度值,,低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据,,测度值的选用取决于所掌握的数据的类型,3.1 集中趋势的测度,3.1 集中趋势的测度

3、,一. 分类数据：,众数,,二. 顺序数据：,中位数,和,分位数,,三. 数值型数据：,均值,,四. 众数、中位数和均值的比较,一. 分类数据：,众数,(,mode,),集中趋势的测度值之一,,出现次数最多,的,变量值,,不受极端值的影响,,可能,没有众数,或有,几个众数,,主要用于分类数据，也可用于顺序数据和数值型数据,众数,(不唯一性),无众数,,原始数据: 10 5 9 12 6 8,一个众数,,原始数据: 6 5 9 8 5 5,多于一个众数,,原始数据: 25 28 28 36 42 42,分类数

4、据的众数(例题分析),某城市居民关注广告类型的频数分布,,,,广告类型,人数,,(人),比例,频率(%),商品广告,,服务广告,,金融广告,,房地产广告,,招生招聘广告,,其他广告,112,,51,,9,,16,,10,,2,0.560,,0.255,,0.045,,0.080,,0.050,,0.010,56.0,,25.5,,4.5,,8.0,,5.0,,1.0,合计,200,1,100,解：这里的变量为“广告类型”，这是个分类变量，不同类型的广告就是变量值,,在所调查的,200,人当中，关注商品广告的人数最多，为,112,人，占总被调查人数的,56%,，因此众数为“商品广告”这一类别，即

5、,,,M,o,＝商品广告,顺序数据的众数,(例题分析),解：这里的数据为顺序数据。变量为“回答类别”,,甲城市中对住房表示不满意的户数最多，为,108,户，因此众数为“不满意”这一类别，即,,M,o,＝不满意,,甲城市家庭对住房状况评价的频数分布,,,回答类别,甲城市,,,户数 (户),百分比 (%),,非常不满意,,,不满意,,,一般,,,满意,,,非常满意,24,,108,,93,,45,,30,8,,36,,31,,15,,10,合计,300,100.0,顺序数据：中位数和分位数,,中位数,(,median,),集中趋势的测度值之一,,排序后处于中间位置上的值,M,e,50%,50%

6、,不受极端值的影响,,主要用于顺序数据，也可用数值型数据，但不能用于分类数据,,各变量值与中位数的离差绝对值之和最小，即,中位数,(位置的确定),未分组数值型数据：,顺序数据：,未分组数据的中位数,,(计算公式),顺序数据的中位数,解：中位数的位置为 300/2＝150,,从累计频数看，中位数在“一般”这一组别中。因此,,,M,e,=一般,甲城市家庭对住房状况评价的频数分布,,,回答类别,甲城市,,,户数 (户),累计频数,,非常不满意,,,不满意,,,一般,,,满意,,,非常满意,24,,108,,93,,45,,30,24,,132,,225,,270,,300,合计

7、,300,—,数值型未分组数据的中位数,(9个数据的算例),【例】：,9个家庭的人均月收入数据,,原始数据:,1500 750 780 1080 850 960 2000 1250 1630,,排序: 750 780 850 960 1080 1250 1500 1630 2000,,位置: 1 2 3 4 5 6 7 8 9,中位数,,1080,,数值型未分组数据的中位数,(10个数据的算例),【例】：10个家庭的人均月收入数据,,原始数据: 1500 750 780 660 10

8、80 850 960 2000 1250 1630,,排序: 660 750 780 850 960 1080 1250 1500 1630 2000,,位置: 1 2 3 4 5 6 7 8 9 10,,四分位数,(quartile),1. 集中趋势的测度值之一,,2. 排序后处于25%和75%位置上的值,,3.,,不受极端值的影响,,4. 主要用于顺序数据，也可用于数值型数据，但不能用于分类数据,Q,L,Q,M,Q,U,25%,25%,25%,25%,四分位数,(位置

9、的确定),未分组数据：,顺序数据的四分位数,,(例题分析),解：,Q,L,位置,=,(300)/4,=,75,,Q,U,位置,=,(3×300)/4,,,=,225,,从累计频数看，,Q,L,在“不满意”这一组别中；,Q,U,在“一般”这一组别中。因此,,Q,L,,,=,不满意,,,Q,U,,,=,一般,甲城市家庭对住房状况评价的频数分布,,,回答类别,甲城市,,,户数 (户),累计频数,,非常不满意,,,不满意,,,一般,,,满意,,,非常满意,24,,108,,93,,45,,30,24,,132,,225,,270,,300,合计,300,—,数值型未分组数据的四分位数,(9个数据的算

10、例),【例】：9个家庭的人均月收入数据,,原始数据: 1500 750 780 1080 850 960 2000 1250 1630,,排序: 750 780 850 960 1080 1250 1500 1630 2000,,位置: 1 2 3 4 5 6 7 8 9,,,数值型未分组数据的四分位数,(10个数据的算例),【例】：10个家庭的人均月收入数据,,原始数据: 1500 750 780 660 1080 850 960

11、2000 1250 1630,,排序: 660 750 780 850 960 1080 1250 1500 1630 2000,,位置: 1 2 3 4 5 6 7 8 9 10,,,数值型数据：均值,,均值,(,mean,),1.集中趋势的测度值之一,,2.最常用的测度值,,一组数据的均衡点所在,,体现了数据的必然性特征,,易受极端值的影响,,用于数值型数据，不能用于分类数据和顺序数据,简单均值,(simple mean),设一组数据为：,x,1,，,x,2,，… ，,x,n

12、,（,x,N,）,,样本均值,总体均值,加权均值,(weighted mean),设各组的组中值为：,M,1,，,M,2,，… ，,M,k,,,相应的频数为：,f,1,，,f,2,，… ，,f,k,样本加权均值,总体加权均值,已改至此！！,某电脑公司销售量数据分组表,,,,按销售量分组,组中值（M,i,）,频数（f,i,）,M,i,f,i,140,-,150,,150,-,160,,160,-,170,,170,-,180,,180,-,190,,190,-,200,,200,-,210,,210-220,,220-230,,230-240,145,,155,,165,,175,,185,,1

13、95,,205,,215,,225,,235,4,,9,,16,,27,,20,,17,,10,,8,,4,,5,580,,1395,,2640,,4725,,3700,,3315,,2050,,1720,,900,,1175,合计,—,120,22200,加权均值,,(例题分析),加权均值,(权数对均值的影响),,甲乙两组各有10名学生，他们的考试成绩及其分布数据如下,,甲组：考试成绩（,x,）: 0 20 100,,人数分布（,f,）： 1 1 8,,,乙组：考试成绩（,x,）: 0 20 100,,人数分布

14、（,f,）： 8 1 1,均值,(数学性质),1.,各变量值与均值的离差之和等于零,,2.,各变量值与均值的离差平方和最小,调和平均数,,(,harmonic mean,),1.,集中趋势的测度值之一,,2.均值的另一种表现形式,,易受极端值的影响,,计算公式为,,原来只是计算时使用了不同的数据！,调和平均数,,(例题分析),某日三种蔬菜的批发成交数据,,,,蔬菜,,名称,批发价格(元),,,M,i,成交额(元),,M,i,f,i,成交量(公斤),,f,i,甲,,乙,,丙,1.20,,0.50,,0.80,18000,,12500,,6400,15000,,2

15、5000,,8000,合计,—,36900,48000,【例】某蔬菜批发市场三种蔬菜的日成交数据如表，计算三种蔬菜该日的平均批发价格,几何平均数,(,geometric mean,),1. 集中趋势的测度值之一,,2.,n,个变量值乘积的,n,次方根,,3. 适用于对比率数据的平均,,4. 主要用于计算平均增长率,,5. 计算公式为,6.,,可看作是均值的一种变形,几何平均数,(例题分析),【例】一位投资者持有一种股票，1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率＝103.84%-1=

16、3.84%,众数、中位数和均值的比较,众数、中位数和均值的关系,左偏分布,均值,,中位数,,众数,对称分布,,均值,=,中位数,=,众数,右偏分布,众数,,中位数,均值,众数、中位数和均值的特点和应用,众数,,不受极端值影响,,具有不唯一性,,数据分布偏斜程度较大时应用,,中位数,,不受极端值影响,,数据分布偏斜程度较大时应用,,平均数,,易受极端值影响,,数学性质优良,,数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,数据类型和所适用的集中趋势测度值,,,,,数据类型,分类数据,顺序数据,间隔数据,比率数据,适,,用,,的,,测,,度,,值,※众数,※中位数,※均值,※均值,,—

17、,四分位数,众数,调和平均数,,—,众数,中位数,几何平均数,,—,—,四分位数,中位数,,—,—,—,四分位数,,—,—,—,众数,3.2 离散程度的测度,分类数据：异众比率,,顺序数据：四分位差,,数值型数据：方差及标准差,,相对位置的测量：标准分数,,相对离散程度：离散系数,离中趋势,数据分布的另一个重要特征,,反映各变量值远离其中心值的程度（离散程度）,,从另一个侧面说明了集中趋势测度值的代表程度,,不同类型的数据有不同的离散程度测度值,分类数据：异众比率,,异众比率,(,variation ratio,),1. 离散程度的测度值之一,,2. 非众数组的频数占总频数的比率,,3. 计

18、算公式为,,,4. 用于衡量众数的代表性,异众比率,(例题分析),某城市居民关注广告类型的频数分布,,,广告类型,人数(人),频率(%),商品广告,,服务广告,,金融广告,,房地产广告,,招生招聘广告,,其他广告,112,,51,,9,,16,,10,,2,56.0,,25.5,,4.5,,8.0,,5.0,,1.0,合计,200,100,解：,,,,,,,在所调查的200人当中，关注非商品广告的人数占44%，异众比率还是比较大。因此，用“商品广告”来反映城市居民对广告关注的一般趋势，其代表性不是很好,顺序数据：四分位差,,四分位差,(,quartile deviation,),1.,离散

19、程度的测度值之一,,2. 也称为内距或四分间距,,3. 上四分位数与下四分位数之差,,,Q,D,,=,Q,U,-,Q,L,,4. 反映了中间50%数据的离散程度,,不受极端值的影响,,用于衡量中位数的代表性,四分位差,(顺序数据的算例),解：,设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5,已知,,,Q,L,=,不满意,=,2,,,Q,U,=,,一般,=,,3,,四分位差：,,,Q,D,=,Q,U,=,,Q,L,,,=,3 – 2,,=,1,甲城市家庭对住房状况评价的频数分布,,,回答类别,甲城市,,,户数 (户),累计频数,,非常不满意,,,不满意,,,一般,,,满

20、意,,,非常满意,24,,108,,93,,45,,30,24,,132,,225,,270,,300,合计,300,—,数值型数据：方差和标准差,,极差(,range,),1. 一组数据的最大值与最小值之差,,2. 离散程度的最简单测度值,,3. 易受极端值影响,,未考虑数据的分布,,计算公式为,,,R,,= max(,x,i,) - min(,x,i,),,平均差,(,mean deviation,),1.,,离散程度的测度值之一,,2. 各变量值与其均值离差绝对值的平均数,,3. 能全面反映一组数据的离散程度,,4. 数学性质较差，实际中应用较少,5.,计算公式为,未分组数据

21、,组距分组数据,平均差,,(例题分析),某电脑公司销售量数据平均差计算表,,,,,按销售量分组,组中值(,M,i,),频数(,f,i,),,,140—150,,150—160,,160—170,,170—180,,180—190,,190—200,,200—210,,210—220,,220—230,,230—240,145,,155,,165,,175,,185,,195,,205,,215,,225,,235,4,,9,,16,,27,,20,,17,,10,,8,,4,,5,40,,30,,20,,10,,0,,10,,20,,30,,40,,50,160,,270,,320,,270,

22、,0,,170,,200,,240,,160,,250,合计,—,50,—,2040,平均差,,(例题分析),,,,含义：每一天的销售量平均数相比，,,平均相差17台,方差和标准差,,(,variance,and,standard deviation,),1.,离散程度的测度值之一,,2.最常用的测度值,,3.反映了数据的分布,,反映了各变量值与均值的平均差异,,根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差,总体方差和标准差,,,(population,variance,and,standard deviation,),未分组数据：,组距分组数据：,未分组

23、数据：,组距分组数据：,方差的计算公式,标准差的计算公式,总体标准差,,(例题分析),某电脑公司销售量数据平均差计算表,,,,,按销售量分组,组中值(,M,i,),频数(,f,i,),,,140—150,,150—160,,160—170,,170—180,,180—190,,190—200,,200—210,,210—220,,220—230,,230—240,145,,155,,165,,175,,185,,195,,205,,215,,225,,235,4,,9,,16,,27,,20,,17,,10,,8,,4,,5,40,,30,,20,,10,,0,,10,,20,,30,,40,

24、,50,160,,270,,320,,270,,0,,170,,200,,240,,160,,250,合计,—,120,—,55400,总体标准差,,(例题分析),,,,,,,含义：,每一天的销售量与平均数相比，,,平均相差21.49台,样本方差和标准差,,(simple variance and standard deviation),未分组数据：,组距分组数据：,未分组数据：,组距分组数据,：,方差的计算公式,标准差的计算公式,注意：,,样本方差用自由度n-1去除!,样本方差,自由度,(degree of freedom),一组数据中可以自由取值的数据的个数,,当样本数据的个数为,n,时，

25、若样本均值,,x,确定后，只有,n,-1,个数据可以自由取值，其中必有一个数据则不能自由取值,,例如，样本有,3,个数值，即,x,1,=2,，,x,2,=4,，,x,3,=9,，,则,,x,= 5,。,当,,x,= 5,确定后，,x,1,，,x,2,和,x,3,有两个数据可以自由取值，另一个则不能自由取值，比如,x,1,=6,，,x,2,=7,，,那么,x,3,则必然取,2,，而不能取其他值,,样本方差用自由度去除，其原因可从多方面来解释，从实际应用角度看，在抽样估计中，当用样本方差去估计总体方差,σ,2,时，它是,σ,2,的无偏估计量,样本方差与标准差,,(例题分析),原始数据:,,1

26、0 5 9 13 6 8,方差,标准差,相对位置的测量：标准分数,,标准分数,(,standard score,),1.,,也称标准化值,,2. 对某一个值在一组数据中相对位置的度量,,3. 可用于判断一组数据是否有离群点,,4. 用于对变量的标准化处理,,5. 计算公式为,,标准分数,,(,性质,),均值等于,0,,,,2.,方差等于,1,,标准分数,,(,性质,),,z,分数只是将原始数据进行了线性变换，它并没有改变一个数据在改组数据中的位置，也没有改变该组数分布的形状，而只是将该组数据变为均值为,0,，标准差为,1,。,,,标准化值,,(例题分析),9,个

27、家庭人均月收入标准化值计算表,,,家庭编号,人均月收入（元）,标准化值,z,,1,,2,,3,,4,,5,,6,,7,,8,,9,1500,,750,,780,,1080,,850,,960,,2000,,1250,,1630,0.695,,-1.042,,-0.973,,-0.278,,-0.811,,-0.556,,1.853,,0.116,,0.996,经验法则,,经验法则表明：当一组数据对称分布时,,约有,68%,的数据在平均数加减,1,个标准差的范围之内,,约有,95%,的数据在平均数加减,2,个标准差的范围之内,,约有,99%,的数据在平均数加减,3,个标准差的范围之内,,切比雪

28、夫不等式,,(,Chebyshev’s inequality,),如果一组数据不是对称分布，经验法则就不再使用，这时可使用切比雪夫不等式,，,它对任何分布形状的数据都适用,,切比雪夫不等式提供的是“下界”，也就是“所占比例至少和多少”,,对于任意分布形态的数据，根据切比雪夫不等式，至少有的数据落在,k,个标准差之内。其中,k,是大于,1,的任意值，但不一定是整数,切比雪夫不等式,(,Chebyshev’s inequality,),,对于,k,=,2,，,3,，,4,，该不等式的含义是,,至少有,75%,的数据落在平均数加减,2,个标准差的范围之内,,至少有,89%,的数

29、据落在平均数加减,3,个标准差的范围之内,,至少有,94%,的数据落在平均数加减,4,个标准差的范围之内,,相对离散程度：离散系数,离散系数,(,coefficient of variation,),1.,标准差与其相应的均值之比,,对数据相对离散程度的测度,,消除了数据水平高低和计量单位的影响,,4.,用于对不同组别数据离散程度的比较,,5.,计算公式为,离散系数,,(例题分析),某管理局所属8家企业的产品销售数据,,,企业编号,产品销售额（万元）,,x,1,销售利润（万元）,,x,2,1,,2,,3,,4,,5,,6,,7,,8,170,,220,,390,,430,,480,,650,,

30、950,,1000,8.1,,12.5,,18.0,,22.0,,26.5,,40.0,,64.0,,69.0,【例】某管理局抽查了所属的8家企业，其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数,,(例题分析),结论：,,计算结果表明，,v,1,<,v,2,，说明产品销售额的离散程度小于销售利润的离散程度,v,1,=,536.25,309.19,=,0.577,v,2,=,32.5215,23.09,=,0.710,数据类型与离散程度测度值,数据类型和所适用的离散程度测度,值,,,,数据类型,分类数据,顺序数据,数值型数据,适,,用,,的,,测,,度,,值,※异众比率,

31、※四分位差,※方差或标准差,,—,,异众比率,※离散系数（比较时用）,,—,—,,平均差,,—,—,,极差,,—,—,,四分位差,,—,—,,异众比率,4.3,偏态与峰态的测度,一. 偏态及其测度,,二. 峰态及其测度,偏态与峰态分布的形状,扁平分布,尖峰分布,偏态,峰态,左偏分布,右偏分布,与标准正态分布比较！,偏态,,偏态,(,skewness,),统计学家,Pearson,于,1895,年首次提出,,数据分布偏斜程度的测度,,2.,偏态系数,=0,为对称分布,,3.,偏态系数,> 0,为右偏分布,,4.,偏态系数,< 0,为左偏分布,偏态系数,(,skewness coeff

32、icient,),根据原始数据计算,,,,,根据分组数据计算,偏态系数,,(例题分析),,某电脑公司销售量偏态及峰度计算表,,,,,按销售量份组(台),组中值(,M,i,),频数,,f,i,,,140—150,,150—160,,160—170,,170—180,,180—190,,190—200,,200—210,,210—220,,220—230,,230—240,145,,155,,165,,175,,185,,195,,205,,215,,225,,235,4,,9,,16,,27,,20,,17,,10,,8,,4,,5,-256000,,-243000,,-128000,,-270

33、00,,0,,17000,,80000,,216000,,256000,,625000,10240000,,7290000,,2560000,,270000,,0,,170000,,1600000,,6480000,,10240000,,31250000,合计,—,120,540000,,70100000,,偏态系数,(例题分析),结论：,偏态系数为正值，但与0的差异不大，说明电脑销售量为轻微右偏分布，即销售量较少的天数占据多数，而销售量较多的天数则占少数,偏态与峰态,(从直方图上观察),按销售量分组(台),结论,：,1. 为右偏分布,,2. 峰态适中,140,150,210,某电脑公司销售量

34、分布的直方图,190,200,180,160,170,频,,数,,(天),25,20,15,10,5,30,220,230,240,峰态,,峰态,(,kurtosis,),统计学家,Pearson,于,1905,年首次提出,,数据分布扁平程度的测度,,峰态系数,=0,扁平峰度适中,,峰态系数,<0,为扁平分布,,峰态系数,>0,为尖峰分布,峰态系数,(,kurtosis coefficient,),根据原始数据计算,,,,,根据分组数据计算,峰态系数,(例题分析),结论：,偏态系数为负值，但与0的差异不大，说明电脑销售量为轻微扁平分布,用,Excel,计算描述统计量,用,Excel,计算描述统计量,,将120的销售量的数据输入到Excel工作表中，然后按下列步骤操作：,,第1步：选择“工具”下拉菜单,,第2步：选择“数据分析”选项,,第3步：在分析工具中选择“描述统计”，然后选择“确定”,,第4步：当对话框出现时,,在“输入区域”方框内键入数据区域,,在“输出选项”中选择输出区域,,选择“汇总统计”,,选择“确定”,,本章小节,1. 数据水平的概括性度量,,2. 数据离散程度的概括性度量,,数据分布形状的测度,,用,Excel,计算描述统计量,结束,THANKS,

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

点击下载此资源

数据的概括性度量.

最新文档

相关资源

相关搜索