第八课 SPSS logistic回归分析

上传人:cel****303 文档编号:243728795 上传时间:2024-09-29 格式:PPT 页数:84 大小:980.50KB
收藏 版权申诉 举报 下载
第八课 SPSS logistic回归分析_第1页
第1页 / 共84页
第八课 SPSS logistic回归分析_第2页
第2页 / 共84页
第八课 SPSS logistic回归分析_第3页
第3页 / 共84页
资源描述:

《第八课 SPSS logistic回归分析》由会员分享,可在线阅读,更多相关《第八课 SPSS logistic回归分析(84页珍藏版)》请在装配图网上搜索。

1、单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,logistic,回归分析,logistic,回归为概率型非线性回归模型,是研究分类观察结果(,y),与一些影响因素(,x),之间关系的一种多变量分析方法,,问题提出:,,医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何?,,因素(,X),疾病结果(,Y),,x1,x2,x3…X,K,,发生,Y=1,,不发生,Y=0,,,例:暴露因素 冠心病结果,,高血压史(,x1):,有 或无 有 或 无

2、,,高血脂史(,x2):,有 或 无,,吸烟(,x3):,有或无,,,研究问题可否用多元线性回归方法?,1.多元线性回归方法要求,Y,的取值为计量的连续性随机变量。,,Y,与,X,间关系为线性关系。,,3.多元线性回归结果 不能回答“发生与否”,,logistic,回归方法补充多元线性回归的不足,,,Logistic回归方法,,该法研究是,,当,y,取某值(如,y=1),发生的概率(,p),与某暴露因素(,x),的关系。,,,,P(,概率)的取值波动0~1范围。,,,基本原理,:用一组观察数据拟合,Logistic,模型,揭示若干个,x,与一个因变量取值的关系,反映,y,对,x,的

3、依存关系。,,,第一节,,logistic,回归,,,,logistic,回归要求应变量(,Y),取值为分类变量(两分类或多个分类),,,,,,,自变量(,X,i,),称为危险因素或暴露因素,,,可为连续变量、等级变量、分类变量。,,可有,m,个自变量,X,1,, X,2,,… X,m,,,,,,,,,,,,,2.,,logistic,回归模型方程,一个自变量与,Y,关系的回归模型,,如:,y:,发生=1,未发生=0,x :,有=1,无=0,,,记为,p(y=1/x),表示某暴露因素状态下,结果,y=1,的概率(,P),模型。,,,,,,,,或,模型描述了应变量,p,与,x,的关系,,P,概率

4、,,1,,Z,值,0,1,2,3,-1,-2,-3,图16-1,Logistic,回归函数的几何图形,Β,为正值,,x,越大,结果,y=1,发生的可能性(,p),越大。,,几个,logistic,回归模型方程,,logistic,回归模型方程的线性表达,对,logistic,回归模型的概率(,p),做,logit,变换,,截距(常数),回归系数,,Y,~,(-∞,至+∞),线形关系,方程如下:,,,在有多个危险因素(,X,i,),时,多个变量,的,logistic,回归模型方程的线性表达:,,或,,,Β,0,(,常数项),:暴露因素,X,i,=,0时,个体发病概率与不发病概率之比的自然对数比值

5、。,,,,的含义:,某危险因素,暴露水平变化时,即,X,i,=1,与,X,i,=0,相比,发生某结果(如发病)优势比的对数值。,,,,,,,P,1,(,y=1/x=1),的概率,P,0,(,y=1/x=0),的概率,,,危险因素,,Y x= 1 x= 0,,发病=1 30(,a) 10( b),,不发病=0 70(,c) 90(d),,a+c b+d,,,,危险因素,,Y x= 1 x= 0,,发病=1,

6、p,1,p,0,,,不发病=0 1-,p,1,1-p,0,,,,有暴露因素人群中发病的比例,,,反映了在其他变量固定后,,X=1,与,x=0,相比发生,Y,事件的对数优势比。,,回归系数,β,与,OR X,与,Y,的关联,,β=0,OR=1,,无关,,β>1,OR>1 ,,有关,危险因素,,β<1,OR<1,,有关,保护因子,,,事件发生率很小,,OR≈RR。,,,,多元回归模型的的 概念,,,二、logistic回归模型的参数估计,,1.,模型中的参数(,β,i,),估计,,,,,,,,通常用最大似然函数 (,maximum likelihood

7、estimate, MLE),估计,β,,由统计软件包完成。,,,,,,,2. 优势比(,OR),及可信区间的估计,,,,,如,X=1,0,两分类,则,OR,的1-,α,可信区间估计公式,,,为回归系数的标准误,,例:,一个研究吸烟、饮酒与食道癌关系的病例-对照资料(886例),试作,logistic,回归分析。,,变量的赋值,,经,logistic,回归计算后得,,,b,0,=-0.9099, b,1,=0.8856, b,2,=0.5261,,方程表达,:,控制饮酒因素后,吸烟与不吸烟相比患食管癌的优势比为2.4倍,,OR的可信区间估计,,吸烟与不吸烟患食管癌,OR,的95%可信区间:,饮

8、酒与不饮酒,OR,的95%可信区间:,,三、,Logistic,回归模型的假设检验,1.检验一:对建立的整个模型做检验。,,说明自变量对,Y,的作用是否有统计意义。,,,,,,,检验方法(,讲义260-261页),,1),似然比检验,(,likelihood ratio test),,2),Wald,检验,,3),计分检验,(,score test),,,,,例表16-1吸烟、饮酒与食管癌资料 (,SAS,软件计算),,1.,对建立的整个模型做检验。,,,,,Testing Global Null Hypothesis: BETA=0,,Test Chi-Square DF

9、Pr,,似然比,68.5457 2 <.0001,,计分检验 67.0712 2 <.0001,,Wald,检验 64.2784 2 <.0001,,2.检验二:,检验模型中某,β,是否对,Y,有作用。,,检验假设:,,,检验统计量:主要为,Wald,检验(,SAS,软件),,,,,,例;,,,在大样本时,三方法结果一致。,ν=1,的,χ,2,,,例表16-1资料,对各,x,的,β,做检验(,wald,检验),参数,β,估计值,,标准误,Chi-Squa Pr,,常数-0.9099 0.1358 44.8699 .0001,,吸烟,,.000

10、1,,饮酒,0.5261 0.1572 11.2069 .0008,,,Odds Ratio Estimates,,Point 95% Wald,,Effect Estimate Confidence Limits,,,吸烟,,,饮酒,,似然比检验(讲义),,对某个,β,做检验,检验统计量(,G),包括,p,个自变量的对数似然函数,包括,l,个自变量的对数似然函数,,G,服从自由度(,d)=p-l,的,χ,2,分布,,似然比检验对,β,做检验,例:,X1,为吸烟,,X2,为饮酒,检验饮酒与食管癌关系,,H,0,:β,2,=0,H,1:,β,2,≠0,,G

11、>3.84,p<0.05,,说明调整吸烟因素后,饮酒与食管癌有关系。,,四、变量筛选,目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。,,变量筛选算法有:前进法、后退法和,,逐步法(,stepwise)。,,例:讲义例16-2,用逐步法,,,例:16-2讲义261-263页,,,,,,表16-4 进入方程的自变量及参数估计,变量,β S,b,Waldχ,2,P,标准,β’ OR,,,常数 -4.705 1.54 9.30 0.0023,,,,,X8 1.947 0.847 5.29 0.0215

12、 0.523 7.,01,,,标准回归系数(,b’),比较各自变量对,Y,的相对贡献,,第二节 条件Logistic回归,,概念:,,用配对设计获得病例对照研究资料,计算的,Logistic,回归模型为,条件,Logistic,回归,。,,,成组(未配对)设计的病例对照研究资料,计算的,Logistic,回归模型为,非条件,Logistic,回归。,,例:见265页,,区别:,,条件,Logistic,回归的参数估计无常数项(,β,0,),,主要用于危险因素的分析。,,第三节,logistic,回归的应用及注意事项,,一、,logistic,回归的应用,,1.,疾病(某结果)的危险

13、因素分析和筛选,,,用回归模型中的回归系数(,β,i,),和,OR,说明危险因素与疾病的关系。例:讲义例16-1,16-2,16-3,,适用的资料:,,,前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。,,,三类研究计算的,logistic,回归模型的,β,意义是一致。仅常数项不同。(证明略),,,,,Logistic,回归的应用,2.,校正混杂因素,对疗效做评价,,在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。,,,3.,预测与判别,,预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据

14、。,,,表5-4甲乙两疗法某病治愈率%比较,病型 甲疗法 乙疗法,,病人 治愈 治愈 病人 治愈 治愈,,数 数 率 数 数 率,,,,,,例:,例1,,表5-5直接法计算标准化治愈率,病型 标准 甲疗法 乙疗法,,治疗 原治 预期 原治 预期,,人数 愈率

15、 治愈数 愈率 治愈数,,普通型 400 60.0 240 65.0 260,,重型 400 35.0 140 41.7 167,,合计 800 380 427,,,调整率(标准化率):,,,,,X1,疗法(甲=0,乙=1),X2,病情(轻=1,重=0),Y,疗效(,Y=1,有效,,Y=0,无效),,LOGISTIC,回归计算,,Standard

16、 Wald Parameter Estimate Error Chi-Squa Pr,,Intercept -0.6453 0.1653 15.24 <.0001,疗法 0.2482 0.1699 2.13 0.1442 病情,0.9900 0.1699 33.93 <.0001,,Odds Ratio Estimate,,Point 95% Wald,,Effect Est

17、imate Confidence Limits,,,疗法,,,病情,,,,例2 性别、两种药物对某病疗效的研究,,,,,,,不考虑性别的影响,疗效与药物的,logistic,回归,χ,2,,,,性别,治疗方法,疗效,,,,,有效(,y=1),无效,,(,y=0),合计,女,,X1=1,新药(,x2=1),21,6,27,,对照(,x2=0),13,19,32,男,,X1=0,新药(,x2=1),7,7,14,,对照(,x2=0),1,10,11,,考虑性别、药物对疗效的作用,,Standard Wald,,Parame Estimate Error Chi-Square

18、 Pr,,,,,,,Odds Ratio Estimates,,Point 95% Wald,,Effect Estimate Confidence Limits,,,,x1,,x2,,结论:性别和药物的回归系数都均有统计意义。说明女性或用新药的疗效较优。,,,用,Logistic,模型方程对个体的疗效做预测 :,设如女性病人,,x1=1,,用新药,x2=1,,有效的概率,,如男性病人,x1=0,,用新药,x2=1,,有效的概率,,,二、,Logistic,回归应用的注意事项,,,自变量(,X),可为计量数据、分类数据和等级数据。,,计量数据常重新划为有

19、序组段,,OR,的实际意义较大。,,例:年龄(岁,,x1),,,,,,,,,,数据的几种赋值形式,1)两分类变量,赋值为:有=1,无=0,,2)有序变量,赋值;无=0,少=1,中=2,多=3,,例;年龄 <45=1 45-54=2 55-64=3 ≥65=4,,3.)多分类无序变量:,,赋值为:哑变量(,dummy variable),形式,,见例:,,注:变量取值不同,方程的系数和符号将发生变化。,,表16-2 冠心病8个可能的危险因素与赋值 (讲义262页),,,因素,变量名,赋值说明,年龄(岁),X,1,<45=1, 45,,54=2, 55,,64=3, 65,,=4

20、,高血压史,X,2,无=0, 有=1,高血压家族史,X,3,无=0, 有=1,吸烟,X,4,不吸=0, 吸=1,,,表16-9 年龄(,X),化为哑变量的赋值,年龄(岁),有序变量,哑变量(方法一),,,X,水平,D,1,D,2,D,3,<40,1,0,0,0,40~,2,1,0,0,50~,3,0,1,0,60~,,4,0,0,1,,方程1:有序变量方程,Β,含义:,x,每增加1个单位(10岁),发病的,lnOR,平均增加,β,1,,,方程2:哑变量方程(哑变量个数=分类数-1),,,,方程系数的解释:,,,表示40-岁/<40岁相比的对数优势比,,表示50-岁/<40岁相比的对数优势比

21、,,表示60-岁/<40岁相比的对数优势比,,,,,,,哑变量的赋值方法,例2:研究某结果与血型的关系,血型,,(,X),哑变量,,,,X1,X2,X3,A,0,0,0,B,1,0,0,O,0,1,0,AB,0,0,1,变量规定某个分类为对照,对照组在哑变量的赋值均为0,式中回归系数表示各对比组与对照组(,A,型)相比的变化值。,,270页分析题2,,变量,X4,的哑变量的赋值方法,,规定治疗11周=,X4-1,,是=1,否=0,,规定治疗21周=,X4-2,,是=1,否=0,,规定治疗1周为对照组。,,,哑变量的赋值,,周,X4-1 X4-2,,1~ 0

22、 0,,11~ 1 0,,21~ 0 1,,,,2.样本含量:,,,1)病例和对照组的例数可相等或不等。,,2)样本例数的估计,,原则:自变量个数越多,例数越多。各组样本例数(对照组和病例组)至少为自变量个数的5-20倍。,,(,讲义269页),,,对所建立的回归方程做拟合优度检验。检查模型估计与实际数据的符合情况。,,,检验统计量,:,,1.剩余差(,deviance,,记为,D) (16-25),,2.Pearson χ,2,(16-26),,,统计量的概率

23、值,P>0.05,,认为模型拟合较好,,例:表16-10 (讲义表16-10),,,,表16-1资料吸烟、饮酒与食管癌的关系(,SAS,软件结果),剩余差(,D),与,Pearson χ,2,拟合优度检验,,,Deviance and Pearson Goodness-of-Fit Statistics,,,,Criterion DF Value Pr > ChiSq,,,,Logistic回归,,Logistic,回归可处理:,,1),应变量(,Y),为有序的多分类资料,,如结果为:治愈、显效、好转、无效,,,2),应变量(,Y),为无序的多分类资料,,

24、例: 研究阑尾炎类型与危险因素关系,,阑尾炎类型有:卡他型、坏疽型、腹膜炎型,,,多分类,Logistic,回归方法(略),,,结果的表达,,一般,logistic,回归分析报告内容:,,1.危险因素的回归系数及标准误、,p,值,,2.标准化的回归系数。,,,,OR,和可信区间,,4.,Logistic,回归方程,讲义264页,,本节重点掌握内容和作业,,一、问答题,,1.,Logistic,回归与线性回归有什么不同?,,2.,Logistic,回归可解决哪些问题?,,3.自变量可以有哪些类型,应用时应如何赋值?,,4.,Logistic,回归中,β,的含义和方程的表达。,,二、计算分析

25、题的第2题的第(1)题,。,,,Logistic regression,,,Logistic,回归应用,,,医学研究中常碰到,应变量,的可能取值仅有两个(即,二分类变量,),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料不满足多重回归的条件,什么情况下采用,Logistic,回归,,,,Brown(1980),在术前检查了,53,例前列腺癌患者,拟用年龄,(AGE),、酸性磷酸酯酶,(ACID),两个连续型的变量,,X,射线,(X_RAY),、术前探针活检病理分级,(GRADE),、直肠指检肿瘤的大小与位置,(STAGE),三个分类变量与手术探查结果变量,N

26、ODES,(,1,、,0,分别表示癌症的淋巴结转移与未转移,,)建立淋巴结转移的预报模型。,实例,,,53,例接受手术的前列腺癌患者情况,,,26,例冠心病病人和,28,例对照者进行病例,,对照研究,,,26,例冠心病病人和,28,例对照者进行病例,,对照研究,,,一、logistic回归模型,,,,概率预报模型,,,二、模型的,参数估计,,,,,Logistic,回归参数的估计通常采用,最大似然法,(maximum likelihood,,,ML,),。最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值称为参数的最大似然估计值。,

27、,,参数估计的公式,,,三、回归,参数的假设检验,,,优势比及其可信区间,,,标准化回归,参数,,P262,表,16-3,资料计算的,SAS,程序,,The LOGISTIC Procedure,Analysis of Maximum Likelihood Estimates,,,,预报模型,,,四、回归,参数的意义,,当只有一个自变量时,以相应的预报概率为纵轴,自变量 为横轴,可绘制出一条,S,形曲线。回归参数的正负符号与绝对值大小,分别决定了,S,形曲线的形状与方向,,,,,五、整个回归模型,的假设检验,,,似然比检验(,likelihood ratio test,),,六、,logi

28、stic,逐步回归(变量筛选),MODEL,语句加入选项“,SELECTION=STEPWISE,,SLE= SLS=;”,,,常采用似然比检验:,,,,决定自变量是否引入或剔除。,,模型中有,X5,、,X6,、,X8,, 看是否引入,X1,模型含,X5,、,X6,、,X8,的模型的负二倍,,对数似然为: =,,模型含,X1,、,X5,、,X6,、,X8,的模型的负二倍,,对数似然为: =,,,,第二节,.,条件,logistic,回归,,,条件似然函数,,,1:3,配对的例子,,,1:2,配对的例子,,,表,16-7,条件,logistic,回归的,SAS,程序,,,

29、结果,,,,,,第三节 应用及其注意事项,,应变量为(二项)分类的资料,,(预测、判别、危险因素分析等等),,,,,注意事项,,分类自变量的哑变量编码,,为了便于解释,对二项分类变量一般按,0,、,1,编码,一般以,0,表示阴性或较轻情况,而,1,表示阳性或较严重情况。如果对二项分类变量按,+1,与,-1,编码,那么所得的 ,容易造成错误的解释。,,西、中西、中三种疗法哑变量化,,,,原资料,姓名,性别,年龄,疗法,张山,1,50,中西,李四,1,20,西,王五,0,18,中,刘六,0,70,中,赵七,1,35,中西,孙八,0,29,西,哑变量化,姓名,性别,年龄,X1,X

30、2,张山,1,50,0,1,李四,1,20,1,0,王五,0,18,0,0,刘六,0,70,0,0,赵七,1,35,0,1,孙八,0,29,1,0,,,,,注意事项,,2.,自变量的筛选,,不同的筛选方法有时会产生不同的模型。实际工作中可同时采用这些方法,然后根据专业的可解释性、模型的节约性和资料采集的方便性等,决定采用何种方法的计算结果。,,,,,注意事项,,3.,交互作用,,交互作用的分析十分复杂,应根据临床意义与实际情况酌情使用。,,,,,注意事项,,4.,多分类,logistic,回归,,心理疾病分为精神分裂症、抑郁症、神经官能症等(,名义变量,nominal variables),;疗效评价分为无效、好转、显效、痊愈,(,有序变量,ordinal variables),。,,参见“余松林主编。医学统计学(七年制全国规划教材,第,17,章,,2002,年,3,月 )”,,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!