语言统计第二章数据的初步整理——统计图表

上传人:ra****d 文档编号:253392344 上传时间:2024-12-12 格式:PPT 页数:22 大小:150KB
收藏 版权申诉 举报 下载
语言统计第二章数据的初步整理——统计图表_第1页
第1页 / 共22页
语言统计第二章数据的初步整理——统计图表_第2页
第2页 / 共22页
语言统计第二章数据的初步整理——统计图表_第3页
第3页 / 共22页
资源描述:

《语言统计第二章数据的初步整理——统计图表》由会员分享,可在线阅读,更多相关《语言统计第二章数据的初步整理——统计图表(22页珍藏版)》请在装配图网上搜索。

1、单击此处编辑母版标题样式,,*,*,*,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,第二章 数据的初步整理 ——统计图表,第一节 范畴型数据的整理,,第二节 数值型数据的整理,,一、原始数据,,二、次数分布表,,三、次数分布图,,同任何研究一样,语言研究的目的是为了探讨和说明问题,以便深入地了解事物或现象的本质及其相互关系,而对数据的统计分析是实现这一目的的重要一环。对原始数据进行整理的根本方法之一是编制统计图表。统计表把被说明的事物及有关统计数字分门别类地整齐地表示出来,简洁明了,易于比较分析;统计图那么使数据的突出特征具体

2、、形象、直观、生动地展示出来,易于理解,且印象深刻。因而,图表的适当应用可以起到去粗取精、化繁为简的作用。,第一节  范畴型数据的整理,,在语言研究中 经常要把研究对象〔人、反响、语言现象等〕按某种标准分成相互排斥的类或范〔或者根据多种标准交叉分类〕,这类数据叫做范畴型数据〔见第一章“称名变量〞〕。对于范畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数〔即在总次数中所占的百分比〕,最后以表和条线图的形式表示出来。,例如,我们从学生的英语作业中收集到90个错误,经分析,其中30个是由汉语干扰造成的,25个是由过度概括造成的 ,个是个是由教学方法不当造成的,20个是由教学方法不当造

3、成的,15个是由其它原因造成的。此数据可以整理如下表〔相对次数也可以加括号放在次数之后〕:,该数据也可以用条线图进行更直观的表示:,,坐标中横坐标代表范畴或类别,纵坐标代表每个类别的观察次数。,第二节  数值型数据的整理,,语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。如果数据量很小〔譬如只有几个数值〕,把它列举出来即可,而不需进行任何整理,但是对于数量较大的数据,那么必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋势及离中趋势〔详细讨论见第三章〕,即数据的典型数值以及数值之间的差异程度。,一、原始数据,

4、,下面一组数据为一篇英语阅读材料中100个句子的长度数据〔以音节数表示〕:,表2.2〔a〕 100个英语句子的长度值﹡,29 40 36 58 20 23 44 18 47 18,,22 17 13 12 11 20 21 9 14 6,,26 8 17 24 27 9 16 28 12 22,,21 56 44 26 35

5、 21 55 17 50 40,,48 20 14 12 17 10 25 24 20 18,,18 19 20 15 26 23 16 18 12 24,,12 40 34 26 13 37 19 22 22 48,,17 23 14 16 13 10 19 17 9

6、 16,,12 13 9 16 19 19 14 10 11 16,,16 15 8 8 15 15 39 44 51 29,,58 29 21 17 13,,56 28 20 17 12,,55 27 20

7、 16 12,,51 26 20 16 12,,50 26 20 16 12,,48 26 20 16 12,,48 26 19 16 12,,47 25 19

8、 16 11,,44 24 19 16 11,,44 24 19 15 10,,44 24 19 15 10,,40 23 18 15 10,,40 23 18

9、 15 9,,40 23 18 14 9,,39 22 18 14 9,,37 22 18 14 9,,36 22 17 14 8,,35 22 17

10、 13 8,,34 21 17 13 8,,29 21 17 13 6,表 2.2 (b) 100个句子的长度〔按数值大小排列〕,对于这样数值数目较大的数据,按表2.2〔a〕列举,其用处是很有限的,因为它杂乱无序,难以获得有价值的信息。如果像表 2.2 (b) 按照数值的大小顺序列举,数据的条理性和清晰性就可以大大提高。,,表2.2 (b) 看起来比表2.2〔a〕清晰多了,

11、稍加分析就可以看出数据的分布情况,例如,最长句与最短句的长度是多少,二者之间的距离有多大〔可粗略表示数据的离散情况〕,哪些长度的句子出现次数比较多〔大体表示数据的集中情况,等等。,二、次数分布表,,尽管通过排序,数据的条理性有所提高,但是表2.2 (b) 仍然不够简明,不能做到一目了然。从表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大局部是重复出现的,如果把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。这样的表称为次数分布表。,,1.未分组与分组次数分布表,,次数分布表示数据的散布情况,而次数分布表那么是对数据进行初步整理

12、的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。一般来讲,次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。上述句子长度数据的次数分布表如下:,表2.2〔c)不仅清楚地显示出了句子长度的分散范围,而且说明了各长度的句子出现的次数,其中次数最高(7)的长度是16,其他长度的句子,出现的次数向两边逐渐减少直至1,出现次数较低的句子多为长句。,2.编制分组次数分布表的方法,,编制分组次数分布表的关键是确定组距和组数。具体方法如下:,,〔1〕求全距或两极差:全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最大数值

13、与最小数值,然后从前者减去后者,即得全距。,,〔2〕求组距:组距也叫做分组区间,指每组中最高数值〔成为“上限〞〕与最低数值〔成为“下限〞〕之间的距离,常用符号i表示,为了便于计算分组区间和组中点。各组组距应尽量相等。常用组距一般为2,3,5,10等,但最好取单数,这样便于定组中点。为了能确定一个最正确的组数,当数据的总体分布为正态时,可以用下面的公式计算,K=1.87(N-1)2/5 (2.1),,式中 K——组数〔取近似整数〕,,N——数据中数值的个数,,(3) 确定具体分组区间:各分组区间按照数值的大小,从高到低或从低到高排列均可,最高一组和

14、最低一组应能分别包含数据中的最大值和最小值。而且最高组或最低组的下限最好只组距的整数倍。分组区间列出后,要找出组中点,方法:上限与下限之和除以2,或每组下限加组距之半。例如10~15这一分组区间的组中点为〔10+15〕/2=12.5,或10+5/2=12.5。,〔4〕登记次数:这一步需注意两点:一是每组的精确上下限,这样才能处于组限的数据〔尤其是含有小数的数值〕归入适当的组别;二是要防止漏登或重复登记等讹误。,,〔5〕计算次数:全部数据登记完毕,数一数每个分组区间内数值的个数,即得出各组的次数,然后把各组次数相加,就得出总次数。通常用字母f来表示次数,那么总次数就为 ,等于数据中数值的的

15、总个数N。还可在各组次数的根底上进一步计算相对次数、累计次数和相对累积次数。,三、次数分布图,,如果用统计图来表示数据的次数分布,那么更加直观清楚。比较常用的统计图有次数分布直方图和次数分布多边图。这两种图都是用面积来表示数据的分布。,,1.次数分布直方图,,分组数据的次数分布直方图的绘制方法如下:,,〔1〕画一个直角坐标系,在横坐标上标明各分组区间,在纵坐标上标出次数。分组区间一般有两种标示方法:一种是标出各组的下限;另一种是标出各组的组中点。,〔2〕在每个分组区间上面画一直方形,其宽度等于组距,高度等于每分组区间的次数。如果横坐标上标的是每组的组中点,那么组中点应位于直方形底边的正中间。,

16、,〔3〕把各直方形连在一起〔中间不留间隙〕。,,上述句子长度数据的次数分布直方图如图2.2,当然,也可以用未分组的数据绘制次数分布直方图。,这时横坐标表示的是每一个数值,纵坐标表示数值的次数,直方形要绘在横坐标上的每个数值之上,其宽度要相等,标出的数值应位于直方形底边的中间。但是如果数据量较大,就会给分布图的绘制以及显示信息的清晰度带来一些问题,因为在一定的空间内难以把所有数值清楚地安排在横坐标上;此外,这样的分布图对数据的整理和压缩作用也不大。,,2.次数分布多边图,,次数分布多边图的绘制与直方图的绘制根本相同。对于未分组数据,在横坐标上的每个数值的上方画一个点,点的高度等于各数值的次数。对

17、于分组数据,那么在横坐标的每个分组区间的组中点上方画一个点,点的高度等于各分组区间的次数。然后用直线把各点连接起来。,,图2.3为句子长度数据的次数多边图,较之直方图,次数多边图可以把几组数据的次数分布情况显示在一个直角坐标系里,因而便于对它们进行直观的比较。,小 结,,如前所述,原始实验数据往往杂乱无章,如果不加以适当的整理,大量有份值的信息就会被掩盖起来,同时也无法进行进一步的统计分析,这样的数据是说明不了什么问题的。因而,统计分析的第一项重要工作就是对原始数据进行初步整理、归纳和分类,使其最突出、最重要的特征得以显现出来。本章介绍了在语言研究中对数据进行整理压缩的常用图表的编制方法和本卷须知。,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!