第十讲定类或定序因变量回归分析课件



《第十讲定类或定序因变量回归分析课件》由会员分享,可在线阅读,更多相关《第十讲定类或定序因变量回归分析课件(31页珍藏版)》请在装配图网上搜索。
1、,*,,,,,,,,,,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,,,,,,,,,,,,,,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,,,*,第十讲 定类或定序因变量回归分析,,第十讲 定类或定序因变量回归分析,当因变量是一个定类变量而不是定距变量时,线性回归模型受到挑战。,如政治学中研究是否选举某候选人,经济学研究中涉及的是否销售或购买某种商品,社会学和人口学研究中所涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照二分类变量或多分类来测量。,,,一、问题的提出,当因变量是一个定类变量而不是定距变量时,线
2、性回归模型,在研究态度与偏好等心理现象时也经常按类型进行测量的,如“强烈反对”、“反对”、“中立”、“支持”、和“强烈支持”。,连续变量转换成类型变量的情形,如在分析升学考试的影响因素时,将考生分为录取线以上和录取线以下。,,在研究态度与偏好等心理现象时也经常按类型进行测,,从统计理论上看,最小二乘法关注正态分布,然而社会经济现象往往有不同于正态分布的其他分布,例如:,,(,1,)二项分布(,binomial distribution,),,,,,(,2,)泊松分布(,Poisson,),,,从统计理论上看,最小二乘法关注正态分布,然而社,,二、线性概率模型,1,、模型建立,以最小二乘法为基础
3、的线性回归方程是估测因变量的平均值,而二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估测概率,就是所谓的线性概率回归。用公式表示为:,P = a + ∑,β,i,X,i,+ ε,,对二项分布线性概率模型的结果解释: 在其他变量不变的情形下,,x,每增加一个单位,事件发生概率的期望将变动,β,个单位。,,二、线性概率模型1、模型建立,例如,林楠和谢文(,1988,)曾用线性概率模型估测入党(政治资本)的概率,模型为:,P = -0.39 +0.01A +0.04E +0.03U,,其中:,P—,党员概率,,A—,年龄,,E—,受教育年限,,U—,单位身份,例如,林楠和谢文(1988)
4、曾用线性概率模型估测入党(政治,1,)无意义的解释,从解释力上看,由于概率的值是有边界的,在,0,与,1,之间。但林楠方程很有可能要超过该限制,因变量的估计值可能是负数,也可能大于,1,,因此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为,100,岁,受教育程度超过,10,年,则入党的概率约等于,1,。,2,)非线性关系,,2,、线性概率模型存在的问题,1)无意义的解释 2、线性概率模型存在的问题,,三、简单对数比率回归,1,、模型建立,既然用线性概率回归存在局限性,能否用比率做因变量呢?比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做因变量存在的问题是,比率
5、是非对称的,.,三、简单对数比率回归 1、模型建立,表,1,概率、比率和对数比率,概率,0.01,0.10,0.20,0.30,0.40,0.50,0.60,0.70,0.80,0.90,0.99,比率,0.01,0.11,0.25,0.43,0.67,1.00,1.50,2.33,4.00,9.00,99,对数比率,-4.60,-2.20,-1.39,-0.85,-0.41,0.00,0.41,0.85,1.39,2.20,4.60,表1 概率、比率和对数比率概率0.010.100.200.3,,一个简单的解决办法就是取对数,结果就是所谓对数比率(,logit),。若用,P,代表
6、某事件的概率,则对数比率函数的定义为,g,(,P,),= log,(,P/1-P,),以对数比率为因变量对自变量,X1,,,X2,,,X3……,做回归称为对数比率回归(,logistic regression,),其方程式为:,,,一个简单的解决办法就是取对数,结果就是所谓,,该模型即为,logit,回归模型。,logit,回归模型是普通多元线性回归模型的推广,但它的误差项服从二项分布,因此需要采用极大似然估计方法进行参数估计,参数,,称为,logit,回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起的发生比自然对数值的变化量。,该模型即为logit回归模型。logit
7、回归模,2,、,发生比,,发生比是事件的发生频数与不发生频数之间的比,即:,Odds=(,事件发生频数,)/,(事件不发生频数),,,,当比值大于,1,时,表明事件更有可能发生。比如一个事件发生的概率为,0.6,,事件不发生的概率为,0.4,,发生比等于,0.6/0.4=1.5,。事件发生的可能性是不发生的,1.5,倍。,,,2、发生比 发生比是事件的发生频数与不发生频数之间的,四、,logistic,回归模型的检验与评价,1,、,Logistic,回归模型估计的假设前提,第一、数据来自于随机样本。,第二、因变量,Y,i,被假设为,K,个自变量,X,k,(,k=1,,,2,,,…,,,K
8、,)的函数。,第三、正如,OLS,回归,,logistic,回归也对多重共线性有所限制,自变量之间存在多重共线性会导致标准误的膨胀。,,Logistic,回归模型还有一些与,OLS,回归不同的假设前提:第一,因变量是二分变量;第二,因变量和各自变量之间的关系是非线性的。,四、logistic回归模型的检验与评价1、Logistic,2,、拟合优度检验,,,如果模型的预测值能够与对应的观测值有较高的一致性,就认为这一模型能够拟合数据。否则需要对模型重新设置。,因此,模型的拟合优度是指预测值与观测值的匹配程度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比卡方检验等。,2、拟合优度检验,1,)皮尔
9、逊卡方检验,皮尔逊卡方检验主要用于检验残差项的大小。计算公式:,,,,其中,yi,是观察值(,0,或,1,),,pi,是估算值的概率,,i=1,,,2…n,,分母是估算值的标准差,自由度为,n-J-1,,其中,J,为自变量数目。,,1)皮尔逊卡方检验,2,),Hosmer-Lemeshow,拟合优度检验,该方法通常适用于自变量很多,或自变量为连续变量的情形。,HL,方法根据预测概率的大小将所有观察单位十等分,然后根据每一组中因变量的实际值与理论值计算,Peason,卡方,其统计量为:,,,,其中,G,代表分组数,且,G,,10,;,n,g,为第,g,组中的观测值数;,y,g,第,g,组事件的
10、观测数量;,p,g,为第,g,组的预测事件概率;,n,g,p,g,为事件的预测值,实际上它等于第,g,组的观测概率和。,,,,2)Hosmer-Lemeshow 拟合优度检验,3,)对数似然比卡方检验,对数似然比是用较复杂模型与基本模型进行比较。通常将似然取对数并乘以,-2,,即,-2logL,,简称对数似然。,基本模型以独立模型表示:,,,用,L0,表示独立模型的似然,,L1,表示非独立模型的似然,那么对数似然比定义为:,,,遵循卡方分布,其自由度为非独立模型的自变量数目,可用于检验复杂模型中自变量对似然率的增加是否显著,越大越好。,,3)对数似然比卡方检验,3,、,logit,模型回归系数
11、的假设检验,设原假设,H0,为:,β,k,=0,,表示自变量对事件发生的可能性无影响;如果原假设被拒绝,说明自变量对事件发生的可能性有影响。,,Wald,检验,在,logit,模型中,对回归系数进行显著性检验,通常使用,Wald,检验,其计算公式为:,,,,Wald,统计量实际上就是正态分布,Z,统计量的平方。在零假设条件下,每一个回归系数都等于,0,。,Wald,统计量服从卡方分布,其自由度为,n-k-1,。,3、logit模型回归系数的假设检验设原假设H0为:βk=0,五、模型解释,,由于,logit,模型是非线性的,因此不能以传统回归模型中自变量与因变量之间的关系解释之。通常以发生比率来
12、解释,logit,回归系数。,,五、模型解释 由于logit模型是非线性的,因此,六、多项对数比率回归,,我们研究的现象常是多分类的,如职业的选择等,这时需要用多项对数比率回归处理。,多项对数比率回归是简单对数比率回归的扩展,由一组对数比率方程组成。,常用的做法是基准类比法,即先选出基准类,然后将它的概率与其它各类的概率进行对比。,假如要研究一个或一组自变量,X,如何影响人们对,J,类职业选择,用,P,1,,,P,2,……P,j,表示各类职业的概率,那么多项对数比率回归就可表示为,:,,,,六、多项对数比率回归 我们研究的现象常是多分类,,需要注意的是:,1),就系数
13、解释和检验而言,多项对数比率回归和简单对数比率回归相同。,2),方程组在统计上不独立,必须同时估算,不可一一求解。,需要注意的是:1)就系数解释和检验而言,多项对,SPSS,上的应用,:,1,),Analyze—Regression—Multinomial Logistic,2,),Dependent——,用于选入无序多分类的因变量,3,),Factor ——,用于选入分类自变量,可以是有序或无序多分类,系统会自动生成虚拟变量。,4,),Covariates——,用于选入连续型的自变量。,选择系统默认值,点击,OK,钮,运行所选命令,5,)结果解释,数据汇总与模型的似然比检验。,拟合优度检验(
14、,Pearson,,,Deviance,检验)。,参数估计结果。,,SPSS上的应用:,七、定序变量对数比率,,,当因变量是定序变量,变量值之间具有高低之分时,在设计,logit,模型时,就应考虑到其中所包含的信息。,通常有三种处理方法:邻类比、升级比和累进比。,1,、邻类比,邻类比是将所有相邻两类的概率两两相比,如果变量含有,J,个有序类别,就可得到,J-1,个不重复对数比率方程。假如用,P1,,,P2……Pj,表示一个定序变量由低到高各级类别的概率,设,X,是一个或一组自变量,那么对数邻类比回归就是:,,七、定序变量对数比率 当因变量是定序变量,变量值,,,,对于定序变量,常常
15、假设升级的作用是一样的,即在方程组中,各个方程的斜率项是相同的,,β,1,=,β,2,=……=,β,j-1,,,上式可表示为:,,,第十讲定类或定序因变量回归分析课件,2,、升级比,,用,P1,,,P2,,,……Pj,表示一定序变量由低到高各级类别的概率,那么对数升级比回归就是:,,2、升级比 用P1,P2,……Pj表示一定序变,,例如升学率的研究。将学校依等级高低分为小学、初中、高中和大学四类。初中升高中的比率不仅是初中毕业生和高中毕业生的比率,还应包括大学毕业生,因为他们也完成了初中到高中的升级过程。,升级比在统计上是各自独立的,因而可以对照简单对数比率回归一一估算。加总各独
16、立升级比率回归的对数似然比和自由度,即总模型的对数似然比和自由度。,,,例如升学率的研究。将学校依等级高低分为小学、,对数升级比回归的编码示例,教育程度,升小学,升初中,升高中,升大学,小学以下,0,-,-,-,小学以下,0,-,-,-,小学以下,0,-,-,-,小学,1,0,-,-,小学,1,0,-,-,小学,1,0,-,-,初中,1,1,0,-,初中,1,1,0,-,初中,1,1,0,-,高中,1,1,1,0,高中,1,1,1,0,高中,1,1,1,0,大学,1,1,1,1,大学,1,1,1,1,对数升级比回归的编码示例教育程度升小学升初中升高中升大学小学,3,、累进比,3、累进比,对数累
17、进比率回归示例,——,收入等级分析(,Nee 1991,),自变量,模型(,1,),模型(,2,),,进顶层,P,1,/(p,2,+p,3,),避免底层,(,p1+p2)/p3,进顶层,P,1,/(p,2,+p,3,),避免底层,(,p1+p2)/p3,截距,-.525**,.865***,-8.244***,-3.500**,教育,-,-,.238***,.155***,户首年龄,-,-,.207*,.127*,户首年龄平方,-,-,-.002*,-.001*,成年劳动力,-,-,.613***,.242**,子女数目,-,-,.214,.204*,现任干部,1.515*,1.470*,1.
18、263,1.192,前任大队干部,1.205,-.128,.810,-.554,前任小队干部,1.339**,.930*,1.302*,.965*,企业家,1.697***,.905*,1.346***,.776*,样本数,576,576,521,521,-2logL,1053.7,869.2,自由度,8,18,对数累进比率回归示例——收入等级分析(Nee 1991)自,若假设,β,1,=,β,2,=…,β,j-1,,,则对数升级方程组可简化方程如下:,,,,,,SPSS,中的(,ordinal logistic regression),就是截矩项都相等的累进比对数回归模型。,,,若假设β1=β2=…βj-1, 则对数升级方程组可简化方程如,SPSS,操作程序,1,、选择,logistic,回归程序:,——,点击主菜单中的,Analyze,——,然后点击,Regression,——,再点击,Ordinal,,屏幕上出现对话窗口,2,、选定模型,Dependent——,选择一个有序分类因变量。,Factor——,选择若干分类自变量。,Covariates——,用于选入连续型的自变量。,择系统默认值,点击,OK,钮,运行所选命令,结果解释,数据汇总与模型的似然比检验。,拟合优度检验(,Pearson,,,Deviance,检验)。,参数估计结果。,SPSS操作程序,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 36个关键词详解2025政府工作报告
- 学习2025年政府工作报告中的八大科技关键词
- 2025年政府工作报告要点速览接续奋斗共谱新篇
- 学习2025政府工作报告里的加减乘除
- 深化农村改革党课ppt课件(20250305)
- 弘扬雷锋精神凝聚奋进力量学习雷锋精神的丰富内涵和时代价值
- 深化农村改革推进乡村全面振兴心得体会范文(三篇)
- 2025年民营企业座谈会深度解读PPT课件
- 领导干部2024年述职述廉述责述学述法个人报告范文(四篇)
- 读懂2025中央一号党课ppt课件
- 2025年道路运输企业主要负责人安全考试练习题[含答案]
- 2024四川省雅安市中考英语真题[含答案]
- 2024湖南省中考英语真题[含答案]
- 2024宁夏中考英语真题[含答案]
- 2024四川省内江市中考英语真题[含答案]