主成分分析原理及详解

上传人:jun****875 文档编号:17805351 上传时间:2020-12-06 格式:DOC 页数:8 大小:347.91KB
收藏 版权申诉 举报 下载
主成分分析原理及详解_第1页
第1页 / 共8页
主成分分析原理及详解_第2页
第2页 / 共8页
主成分分析原理及详解_第3页
第3页 / 共8页
资源描述:

《主成分分析原理及详解》由会员分享,可在线阅读,更多相关《主成分分析原理及详解(8页珍藏版)》请在装配图网上搜索。

1、第14章 主成分分析 1 概述 1.1 基本概念 1.1.1 定义 主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。 1.1.2 举例 为什么叫主成分,下面通过一个例子来说明。 假定有N 个儿童的两个指标x1与x2,如身高和体重。x1与x2有显著的相关性。当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2,于是这N个点在新坐标轴

2、上的坐标位置发生了改变;同时这N个点的性质也发生了改变,他们之间的关系不再是相关的。很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z1反映了原始数据信息的80%,则Z2只反映总信息的20%。这样新指标Z1称为原指标的第一主成分,Z2称为原指标的第二主成分。所以如果要研究N个对象的变异,可以只考虑Z1这一个指标代替原来的两个指标(x1与x2),这种做法符合PCA提出的基本要求,即减少指标的个数,又不损失或少损失原来指标提供的信息。 1.1.3 函数公式 通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。 Z1=l11x1+ l12x2 Z

3、2=l21x1+ l22x2 即新指标Z1和Z2是原指标x1与x2的线性函数。在统计学上称为第一主成分和第二主成分。 若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。 通过旋转和改变原点(坐标0点),就可以得到第一主成分、第二主成分和第三主成分。如果第二主成分和第三主成分与第一主成高度相关,或者说第二主成分和第三主成分相对于第一主成分来说变异很小,即N个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中3个变量的基本特征。 1.2 PCA满足条件 1.2.1 一般条件 一般来说,N个对象观察p个指标,可以得到N*

4、p个数据(矩阵)。 只要p个指标之间存在有相关关系,就可以通过数学的方法找到一组新的指标,它们需要满足的条件如下。 (1) Z i是原指标的线性函数,且它们相互垂直; (2) 各个Z i互不相关; (3) 各个Z i加起来提供原指标所含的全部的信息,且Z1提供信息最多,Z2次之,依次类推。 1.2.2 PCA的一般步骤 (1) 输入或打开数据文件; (2) 数据进行标准化处理; (3) 计算矩阵的相关系数; (4) 求相关矩阵的特征根λ1、λ2、λ3,并将它们按大小排序。 (5) 求特征向量和各主成分; (6) 计算各主成分的贡献率; (7) 解释各主成分的含义 上

5、述的步骤大部分由SPSS执行,用户需要选择观测对象、选择变量,收集数据,将数据输入SPSS程序,最后选择需要多少个主成分,解释各主成分的实际意义。 1.3 SPSS运行主要选择项 1.3.1 操作步骤 Analyzes/data reduction/factor/open factor analyzes/对话框,主要有5个对话框,下面简要介绍。 因子分析主对话框。主要用来选择变量、选择输出结果内容和多少、选择PCA有关数学处理如是否旋转,提取多少个因子数,是否保存各个因子得分等。 l Factor Analysis:因子分析; l Descriptive:描述性统计选项;

6、l Extraction:提取因子选项; l Rotation:旋转选择; l Scores:因子得分选项; l Option:其它选项。 1.3.2 主对话框 1.3.3 Descriptive对话框 l Statistics:统计数据 u Univariate descriptive:单变量描述性统计; u Initial solution:初始解的统计量。 l Correlation matrix:相关矩阵 u Coeffcients:相关系数矩阵。 u Inverse:相关系数矩阵逆矩阵。 u Significance levels:相关系数显著性水平。

7、 u Reproduced:再生相关矩阵。给出因子分析后的相关矩阵。 1.3.4 Extraction method 提取公因子方法 l Method:方法 u Principal components analyze:主成分分析 u Unweight least squares:未加权最小二乘法 u Generalized least squares:广义最小二乘法 l Analysis:分析 u Coeffcients matrix:相关系数矩阵。 u Covariance matrix:协方差矩阵。 l Display:显示 u Unrot

8、ated factor solution:非旋转因子解。 u Screen plot of the eigenvalues:特征值碎石图。 l Extract:提取。 u Eigenvalues over 1:系统默认值是1,表示提取特征值大于1的因子。 u Number of factor 2:提取公因子的个数。理论上有多少个因子 1.3.5 Rotation method 旋转方法对话框 l Method:方法 u None:不进行旋转 u Quartimax:四分位最大正交旋转 u Varimax:方差最大正交旋转。 u Equamax:相等最大正交旋转。

9、 l Display:显示 u Rotation solution:旋转解。 u Loading plots:旋转因子空间的载荷图。 1.3.6 Scores 因子得分对话框 l Save as variables:将因子得分数据存入为新变量。 u Regression:用回归法计算因子得分。 u Bartlett:巴特尼特法计算因子得分。 u Anderso-rubin,Anderso-rubin:法计算因子得分。 l Dispaly factor score coefficient matrx,显示因子得分系数矩阵。 1.3.7 Option对话框 l M

10、issing Values:缺失值处理 l Exclude cases list wise:删除全部缺省值的个案。 l Exclude cases pair wise:成对删除含有缺省值的个案。 l Replace with mean:用均值替代缺省值。 l Coefficient display format 因子得分系数矩阵的显示格式。 l Sorted by size:按大小排列。 l 回到主对话框上。Variables:选择左边变量栏中的变量,用箭头键将要分析的变量移入右边的变量栏。准备分析。例如移入身高、体重。 Selection Variable:选择变量窗口。在该窗口输入变量名(case),则因子分析只对有关case对应的变量进行分析。单击右边Value窗口打开Set Value对话框。输入数值作为指定值。单击continue,返回主对话框。见下图

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!