医学论文中的常见统计学错误

上传人:wu****ei 文档编号:253259895 上传时间:2024-12-10 格式:PPT 页数:34 大小:212KB
收藏 版权申诉 举报 下载
医学论文中的常见统计学错误_第1页
第1页 / 共34页
医学论文中的常见统计学错误_第2页
第2页 / 共34页
医学论文中的常见统计学错误_第3页
第3页 / 共34页
资源描述:

《医学论文中的常见统计学错误》由会员分享,可在线阅读,更多相关《医学论文中的常见统计学错误(34页珍藏版)》请在装配图网上搜索。

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学论文中的常见统计学错误,中国疾病预防控制中心,金水高,正确的统计学方法必须贯穿于从课题的统计设计到论文撰写的全过程。,不管是实验室研究、临床研究还是现场调查,其数据的归纳整理,都要列成一定的标准格式,以便于进行计算机的录入及统计分析。,其基本要求为:,1.横为记录,纵为变量,2.对每个变量要起合适的变量名,3.对分类变量中用字符表示的取值在进行计算机录入时必须按照一定的规矩将其转换为数值。,序号,性别,年龄,职业,治疗,分组,收缩压(mmHg),舒张压(mmHg),心电图,疗效,001,男,23,工人,

2、A,156,120,有效,002,男,32,农民,B,132,89,显效,表1高血压患者治疗周后的效果,序号,ID,性别,年龄,民族,婚姻状况,。,。,当前吸烟状况,吸烟量(支/日),。,001,1101,男,23,汉,未婚,。,。,不吸,。,00,1102,男,32,汉,已婚,。,。,吸,12,。,表2人,群危险因素调查的数据格式,从统计学的角度,我们并不关心数据是来自临床还是实验室还是现场,我们首先关心的是:,数据中那些属于研究者所关心的“产出”?即所谓的因变量反应变量?这些往往是研究者的研究设计假设中的产出。,这些数据的属性:是定性还是定量资料。,确定了所关心的研究产出后,其它的变量就都

3、可以解释为是这类变量的属性。,研究者要做的工作是:,分析这些产出的基本情况,研究这些属性是否对于他所关心的产出存在关联,或叫有影响。,这就是统计的几件基本工作:,定水平,作比较,找关系。,一、计数资,料分析中的常见错误举例,率与构成比,某研究想了解筛查与自查相比发现的肝癌病例分期是否存在差异,是否筛查更能发现早期肝癌病人。,一、计数资,料分析中的常见错误举例,率与构成比(续),一、计数资,料分析中的错误举例,2.样本量/,阳性例数较少时的统计分析,某地区乙肝表面抗原阳性率,5.04,178,3531,合计,5.85,85,1453,15-,4.82,60,1245,10-,4.20,25,32

4、1,5-,5.75,5,87,4-,2.27,2,25,3-,4.26,4,56,2-,2.94,2,38,1-,阳性率,(%),阳性人数,样本人数,年龄别,年龄组,样本量,阳性数,阳性率(%),1-,169,1,0.59,5-,292,7,2.40,10-,248,13,5.24,15-,130,11,8.46,某市乙肝表面抗原检测结果,年龄组,东城,西城,南城,北城,1-,3.03,0.00,0.00,0.00,5-,0.00,7.14,4.76,3.08,10-,2.38,0.00,4.55,6.78,15-,0.00,18.18,9.52,0.00,某市各区的乙肝表面抗原阳性率(%),

5、一、计数资,料分析中的错误举例,3.一般的,2,检验,只能得到总的是否存在差异的结论。,月份,样本量,阳性人数,阳性率(,%,),3,1111,40,36.0,4,2491,53,21.3,5,1673,14,8.4,6,1463,8,5.5,7,623,2,3.2,8,521,8,15.4,9,136,1,7.4,某病不同月份检出率,2,=58.16 P0.0000,一、计数资,料分析中的错误举例,类似这样的错误不仅存在于计数资料的统计分析中,经常还发现于Logistic回归的结果分析中。,不同职业对于某种职业肿瘤的危险度分析,3.24,丁,0.58,丙,2.31,乙,1,甲,OR,职业类型

6、,二、统计图表的错误使用,1.统计表的误用:,主要是不符合主谓语要求。,在统计表中,要突出研究者所要分析的指标,要将其准确的描述清楚,例如在不同条件下该指标的变化、差异等。,因此一般,要将不同条件作为主语,指标作为谓语。,统计制表要符合主谓语的原则。,统计表的正确表达格式,组别,指标1,指标2,指标3,指标4,甲,乙,丙,丁,主谓语颠倒的例子,正确的表达方式,二、统计图表的错误使用,2.统计图的误用:,1)线图的误用:线图只能用于描述某个指标(如吸烟率)随定量指标(如时间、身高)发生变化的情况。而不能用来描述某个指标(如吸烟率)在某个定性/分类指标不同取值/分类(如地区)之间的差异。因为分类指

7、标中的各个分类值之间没有大小的关系。,2)图的滥用:在PPT中用图比较清晰,而在论文中除非表示趋势,一般不建议用图。,二、统计图表的错误使用,错误的横坐标表示正确的横坐标表示,三、Logistic 回归中的主要统计学错误,哑变量设置中的错误,比数比与相对危险度的关系,用哑变量表示的自变量各个水平之间的比数比的估计,比数比与相对危险度的正确解释(因素之间作用大小的比较),三、Logistic 回归中的主要统计学错误,哑变量设置中的错误,下例是一个有关分类变量赋值的例子:,某个吸烟调查中一些自变量的意义及赋值,变量名变量意义 变量可能取值研究者对变量的赋值,A,如果想要烟,你认为 非常容易;,1,

8、你能容易得到吗?有点容易;,2,有点困难;,3,非常困难。,4,B,在过去的一个月里,没有看到过;,1,你是否在电视里看到 看到过,是关于反对吸烟的;,2,过有关吸烟的任何内容?看到过,是关于赞成吸烟的;,3,看到过,反对与赞成的都有。,4,C,你的祖母是否吸烟?不吸;,1,不知道;,2,吸烟。,3,三、Logistic 回归中的主要统计学错误,哑变量设置中的错误:,存在的主要问题剖析:,变量,A,、,B,、,C,均为分类变量,而分类变量的各个分类值之间是没有大小的。,解决的办法:设置哑变量。,用哑变量表示变量,B,的取值可能,可能回答,B1B2B3,没有看到过,000,看到过,是关于反对吸烟

9、的,100,看到过,是关于赞成吸烟的,010,看到过,反对与赞成的都有,001,三、Logistic 回归中的主要统计学错误,2.比数比与相对危险度的关系:,队列研究中暴露与患病的关系,暴露情况患病情况合计,患病未得病,暴露组,a ba+b,未暴露组,c dc+d,合计,a+cb+da+b+c+d,三、Logistic 回归中的主要统计学错误,2.比数比与相对危险度的关系:,相对危险度:,RR =a(a+b)/c(c+d),=a(c+d)/c(a+b),比数比:,OR =,a(a+b)/b(a+b)/c(c+d)/d(c+d),=(ad)/(bc),当,,a (a+b),c(c+d)时,可以有

10、,a(a+b)ab 及c(c+d)cd,此时,才可以有:RROR,因此要分析什么时候存在这种关系,什么时候不存在。,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,假设在研究吸烟与一些因素的关系时,拟合了下列形式的Logistic回归方程:,Logit(P|y=1)=b0+b1 B1+b2 B2+b3 B3+b4(SEX)+b5(AGE),y=1为吸烟,y=0 为不吸烟。,AGE为年龄(岁)。,SEX为性别,SEX=1为男性,SEX=0为女性。,B1,B2,B3的定义同前。,b0为截距,b1-b5分别为各自变量的偏回归系数。,三、Logisti

11、c 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,我们的研究设想是比较看到过烟草广告不同情况对于吸烟的影响。进行比较的指标是OR。因此要估计不同情况下的OR大小。,自变量第一个水平,B1=0,B2=0,B3=0,其比数为:,P0/(1-P0)=expb0+b4(SEX)+b5(AGE)。,第二水平:B1=1,B2=0,B3=0,P2/(1-P2)=expb0+b1+b4(SEX)+b5(AGE)。,第三水平:B1=0,B2=1,B3=0,P3/(1-P3)=expb0+b2+b4(SEX)+b5(AGE)。,第四水平:B1=0,B2=0,B3=1,P4/(1-P4

12、)=expb0+b3+b4(SEX)+b5(AGE)。,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,自变量的第二水平(看到过关于反对吸烟广告的组)与对照组(没有看到过任何吸烟广告组)的OR为:,OR(二水平:一水平),=expb0+b1+b4(SEX)+b5(AGE)/expb0+b4(SEX)+b5(AGE),=exp(b1)。,其他各组与对照组的OR可以仿照计算。即,,OR(三水平:一水平)=exp(b2),OR(四水平:一水平)=exp(b3)。,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数

13、比的估计,设置为哑变量后各水平之间的比数比,变量水平 一水平 二水平 三水平四水平,对照(一水平),1 exp(-b1)exp(-b2)exp(-b3),二水平,exp(b1),1,exp(b1-b2)exp(b1-b3),三水平,exp(b2),exp(b2-b1),1,exp(b2-b3),四水平,exp(b3),exp(b3-b1),exp(b3-b2),1,三、Logistic 回归中的主要统计学错误,3.用哑变量表示的自变量各个水平之间的比数比的估计,设置为哑变量后各水平之间的比数比,变量水平 一水平 二水平三水平 四水平,对照(一水平),1 1.56 3.56 0.86,二水平,0

14、.64,1,0.44 1.81,三水平,0.28,2.28 1 4.14,四水平,1.16,0.55 0.24 1,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释,某文献在研究影响妇女产前检查的可能因素时,拟合了一个Logistic回归模型。在进行分析后,认为由于量纲相同,可以由回归系数的绝对值直接判定它们与产前检查关联强弱。其结论为:孕产期卫生知识妇女文化程度妇女年龄丈夫文化程度丈夫职业家庭距卫生院距离。,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释,某文献对一些自变量的设置,变量名分组,年龄1:15-2:20-45,妇女受教育程度1:初中以下 2:初中及以上,丈夫的职业1:农业 2:非农业,三、Logistic 回归中的主要统计学错误,4.比数比及相对危险度的正确解释,设置为哑变量后各水平之间的比数比,变量水平 一水平 二水平三水平 四水平,对照(一水平),1 1.56 3.56 0.86,二水平,0.64,1,0.44 1.81,三水平,0.28,2.28 1 4.14,四水平,1.16,0.55 0.24 1,谢谢,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!