巴特利特球度检验(Bartlett’s Test of Sphericity)将观察到的相关矩阵与单位矩阵进行比较。本质上,它检查变量之间是否存在某种冗余,我们可以用更少的因子来表征这些冗余的信息,说的再直接点就是数据还能继续降维不。

巴特利特球度检验(Bartlett’s Test of Sphericity)的零假设是变量是正交的,即不相关的。另一种假设是,变量不是正交的,即变量这件具有相关性而且相对于单位矩阵具有明显的偏离。

巴特利特球度检验(Bartlett’s Test of Sphericity)通常在我们使用数据降维、压缩(如主成分分析或因子分析)之前进行,以验证数据的压缩或者降维是否具有实际意义。

Bartlett 的球形检验将观察到的相关矩阵与单位矩阵进行比较。本质上,它检查变量之间是否存在某种冗余,我们可以用一些因素来总结这些冗余。

检验的原假设是变量是正交的,即不相关。另一种假设是变量不是正交的,即它们足够相关到相关矩阵与单位矩阵显着不同的地方。

此测试通常在我们使用数据缩减技术(如主成分分析或因子分析)之前执行,以验证数据缩减技术是否可以以有意义的方式实际压缩数据。

注意: Bartlett 的球形检验与Bartlett 的方差相等检验不同。这是一个常见的混淆,因为两者具有相似的名称。

相关矩阵只是一个值矩阵,显示变量之间的相关系数。例如,下面的相关矩阵显示了职业篮球队不同变量之间的相关系数。

相关系数可以在 -1 到 1 之间变化。值离 0 越远,两个变量之间的相关性越高。

在这种情况下,如果该矩阵中的数字代表相关系数,则意味着每个变量与其他变量完全正交(即“不相关”),因此像 PCA 或因子分析这样的数据缩减技术将无法“压缩”以任何有意义的方式获取数据。

因此,我们进行 Bartlett 球形检验的原因是确保我们数据集中变量的相关矩阵与单位矩阵显着不同,以便我们知道适合使用数据缩减技术。

因子分析前,首先进行KMO检验和巴特利球体检验,KMO检验系数0.5,(巴特利特球体检验的x2统计值的显著性概率)P值0.05时,问卷才有结构效度,才能进行因子分析,因子分析主要是你自己做了一份调查问卷,你要考量这份问卷调查来的数据信度和效度如何,能不能对你想要调查的东西起代表性作用啊,说得很通俗呵呵不知道能不能理解呢,在SPSS里面,Analyze—Factor就是因子分子,在左下角第一个框框description里面勾选最下面的那个KMO and Bartlett’s test of sphericity,就会出来结果哈,看表格的第一行为KMO值,最后一行Sig为球星检验的P值,小于0.05即可,我不能上传图片,就只能这样描述了。

球形检验主要是用于检验数据的分布,以及各个变量间的独立情况。详细的计算原理我就不介绍了,简单一点说吧。按照理想情况,如果我们有一个变量,那么所有的数据都在一条线上。如果有两个完全独立的变量,则所有的数据在两条垂直的线上。如果有三条完全独立的变量,则所有的数据在三条相互垂直的线上。如果有n个变量,那所有的数据就会在n条相互垂直的线上,在每个变量取值范围大致相等的情况下(常见于各种调查问卷的题目),所有的数据分布就像在一个球形体里面。想象一下万剑穿心的情形,大抵就是那个样子。如果不对数据分布进行球形检验,在做因素分析的时候就会违背因素分析的假设——各个变量在一定程度上相互独立。在spss中的因素分析时有关于bartlet 球形检验的选项,如果sig值小于0.05,则数据呈球形分布。

主成分分析是多元统计分析的一种常用的降维方法它以尽量少的信息损失最大程度将变量个数减少且彼此间互不相关。提取出来的新变量成为主成分主成分是原始变量的线 KMO检验和Bartlett球形检验

在进行主成分分析和因子分析之前需要进行KMO和Bartlett球形检验。当KMO检验系数0.5Bartlett球形检验的P值0.05时数据才比较适合进行主成分分析或因子分析。这两个检验是用于检查变量的信息重叠度当检验通过时说明多变量相关性较大有信息重叠才会适合做主成分分析降低维度。

说明这个数据的变量信息重叠较多适合进行主成分分析和因子分析

rotate参数指定主成分旋转方法默认为最大方差法其他的方法还有

简单的主成分分析的旋转方法除了”none”和”varimax”使用较多外其他都较少使用

n.obs是原始数据的样本量也就是观测的个数。当r是相关阵时需要指定n.obs但如果r是原始数据则不用指定

principal()与 princomp() 不同它只返回最佳主成分个数的子集。特征向量按特征值的开方重新缩放以产生在因子分析中更典型的分量载荷。principal()需要提前确定最佳主成分个数而princomp()是直接把所有主成分提取出来再通过方差累计贡献率确定主成分个数。所以在使用principal()进行主成分分析之前我们需要通过一些方法确定主成分的个数

提前确定主成分个数的方法无外乎画碎石图我们可以用同样来自于psych包内的fa.parallel()函数来确定。fa.parallel()不仅可以用于确定主成分个数也可以用于确定因子分析时因子的个数这个函数在下文的因子分析也有用到

fm指定提取因子的方法默认为”minres”极小残差法。此外还可以选择

“wls”——加权最小二乘法”gls”——广义最小二乘法

提取因子的方法用极大似然法计算会比较快但是在某些情况可能不收敛选用主轴迭代法会比较稳妥。这个主要在因子分析时会用到。

碎石图评估主成分个数的具体方法时查看高度为1的横线或两条红色虚线上方的散点个数。横线c;红色虚线是随机数据矩阵的平均特征值。在主成分或因子个数增加的时候如果真实数据特征值低于随机数据的平均特征值这时候说明之后的因子或主成分没有保留的价值。

在随机数据平均特征值以上的只有第一特征值函数推荐保留一个主成分。但是第二个特征值离随机数据的平均特征值也不远而且到第三特征值的下降程度还比较大只保留一个主成分的建议还比较存疑。到底需不需要只保留一个主成分可以在主成分分析完后查看方差累计贡献率确定。

而principal()的主成分分析结果查看储存结果的变量可以获取大部分信息只查看载荷阵和方差累计贡献率也可以通过principal对象的loadings组件获取。

npcs是需要绘制的主成分个数默认取10和x全部主成分个数之间的最小值

这个函数绘制的碎石图没有随机数据的平均特征值作为参考。我们可以通过下降程度或绘制特征值为1的水平线的水平线上的散点个数或者下降到一个较低水平的主成分之前的个数。

主成分的得分就是各个样品主成分的值主成分是标准化后的原始变量的线c;将每个样品标准化原始变量的值代入主成分的表达式里也可以获得主成分得分。

princomp对象会返回所有主成分的得分我们只提取需要的前几个主成分得分即可

principal对象只返回m个主成分的得分m记为我们确定的主成分个数

每个样品的综合评价得分是主成分得分的加权和每个主成分的权重等于所属特征值除以m个特征根的和这里m指所选主成分个数。

对princomp()和principal()两个函数主成分分析结果进行综合评价的函数实现为如下该函数同时对每个样品的综合评价得分进行了排序

R中进行因子分析的函数是psych包内的fa()函数。psych包内的部分函数在上文的主成分分析中也有介绍。这个函数进行的为R型因子分析Q型因子分析此处不做介绍。

由上文进行主成分分析之前的kmo和Bartlett球形检验结果可知该数据适合做因子分析

函数建议的因子个数为1个从碎石图看也是1个比较合适。暂且先以1个因子进行因子分析

fm指定提取公共因子的方法默认为”minres”极小残差法。此外还可以选择

“wls”——加权最小二乘法”gls”——广义最小二乘法

例如以高中各个学科成绩为原始变量的指标体系提取两个公共因子第一公共因子对数学、物理、化学的载荷较大第二公共因子对语文、英语、历史、政治的载荷较大那么我们可以将第一公共因子定义为理科能力第二公共因子定义为文科能力并将原始的指标体系简化为由理科能力和文科能力两个新指标组成

由于公共因子也是标准化原始数据的线c;根据载荷可以计算出每个样品的因子得分。对fa()函数返回的因子分析结果我们也可以通过查看scores组件获得因子得分

以列联表出发进行简单相应分析的步骤很简单只需三步。一是对列联表进行独立性检验二是用相应分析的函数进行相应分析三是用画图函数画出相应分析图将各个水平在相应分析图中表示出来离得近的就是不同因素的比较类似的水平

y是因子(factor)当x是列联表时可以忽略这个参数。当x和y都是因子时会对x和y的独立性进行检验。

nf指定提取公共因子数量也就是绘图时的维度只有当nf大于或等于2时才能绘制相应分析图通常都会取nf2

这个函数会算出相关矩阵的所有特征值也就是提取出所有公共因子我们可以根据特征值来看累计贡献率以此确定公共因子数。但是这对我们画图没有影响画图默认使用前两个公共因子

红色的数字是幸福程度的水平黑色或蓝色的数字表示不同的人种两个相应分析图有些许不同但是都相似1号人种的幸福程度与1、2很近2号人种的幸福程度与3比较接近。左图的3号人种与幸福程度与9很接近而右图的3号人种与幸福程度3和9的距离差不多而且距离相对比较远3号人种的幸福程度既较多是3也较多是9

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注