kendall 和spearman三种相关分析方法的区别
在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。
Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;
计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关
Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析
Kendall 复选项 等级相关 计算分类变量间的秩相关,适用于合并等级资料
Spearman 复选项 等级相关计算斯皮尔曼相关,适用于连续等级资料
注:
1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关
2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。
3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。
在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项:
Pearson
Kendall's tau-b
Spearman:Spearman
spearman(斯伯曼/斯皮尔曼)相关系数
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”
斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
Kendall's相关系数
肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是15,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,25,25,5,5,5,这里25是2,3的平均,5是4,5,6的平均。
肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记05。一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij。
正态分布的相关检验
对来自正态总体的两个样本进行均值比较常使用T检验的方法。T检验要求两个被比较的样本来自正态总体。两个样本方差相等与不等时用的计算T值的公式不同。
进行方差齐次性检验使用F检验。对应的零假设是:两组样本方差相等。P值小于005说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。
U检验时用服从正态分布的检验量去检验总体均值差异情况的方法。在这种情况下总体方差通常是已知的。
虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了。
均值检验时不同的数据使用不同的统计量
使用MEANS过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这是与Descriptives过程不同之处。
检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample T Test 单样本T检验过程。
检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples T test 独立样本t检验过程。
如果分组样本不独立,用Paired Sample T test 配对t检验。
如果分组不止两个,应使用One-Way ANOVO一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析。
如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric test
如果用户相比较的变量是分类变量,应该使用Crosstabs功能。
当样本值不能为负值时用右侧单边检验。
你截图好歹把表截下来,数字都对不上了。
三个表中因变量: VAR00001表示你的Y。
预测变量: (常量), VAR00004, VAR00003, VAR00002 分别表示X1,X2,X3
第二个表是方差分析表,
第一列有回归平方和108139393(SSR),残差平方和3828431 (SSE),总平方和111967824 (SST),
第二列是自由度,分别为自变量个数(p=3),样本个数-自变量个数-1(n-p-1=6),样本个数-1(n-1=9)。
第三列为MSR=SSR/p=36046464 ,MSE=SSE/(n-p-1)=638072
第四列为F值,F=MSR/MSE=56493
第五列为F值对应的实际显著性统计量,俗称p值,是这张表中最易得出结论的,此处为000a
,即近似为零的意思。当p值小于005时,拒绝原假设。此处的原假设是:X1,X2,X3的系数全为零。拒绝原假设,即得出结论X1,X2,X3的系数不全为零,模型有存在的意义。
第一张表中,
第二列为R方,即决定系数,又称拟合优度,为SSR/SST,可以理解为原数据中已经利用的信息量的多少。第三列调整R方是经过修正的R方。这两个数据都很重要,一般来说越接近1越好,信息利用率越高。此处0966和0949,很高,说明模型的数据利用率挺高。
第四列为回归的标准误差,为表二中的MSE开平方根。标准误差不是测量值的实际误差,也不是误差范围。一般来说越小估计越好。
第三张表是主要结论所在表。(完全看不清表头,只能凭记忆说明)
重要的是第一列和最后两列。
第一列是估计的自变量系数,即X1的系数为0013 ,以此类推得X2、X3系数,第一行为常数项,即可以得出这次回归估计的结论是
y= -47284 + 0013 x1 + 7875 x2 - 0057x3
最后两列是每一自变量的t值和p值,主要看p值。举个例x1的p值为0181,大于005,不拒绝原假设,这里的原假设是:X1的系数为0。不拒绝原假设就是不能拒绝 X1的系数为0,就是X1的系数可能为0。说明X1的系数估计不准确。同理三个系数的p值没有一个小于005的,说明自变量的选择不正确,模型需要调整。
要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:
Pearson相关系数公式如下:
由公式可知,Pearson相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,例如,现在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的,如下图:
为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差,容易得出,pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。《数据挖掘导论》给出了一个很好的图来说明:
从泛函分析的角度看,相关系数就是两个n维随机向量夹角的余弦值,取值都为-1~1,越接近1,向量夹角越小,两个向量的正相关性就越大。相关系数的公式其实也是向量夹角的余弦公式:cos(a,b)=a·b/(|a||b|)
为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。
Spearman秩相关系数是一个非参数性质(与分布无关)的秩统计参数,通常被认为是排列后的变量之间的Pearson线性相关系数,在实际计算中,有更简单的计算 的方法。假设原始的数据 , 已经按从大到小的顺序排列,记 是 在 中的大小排名名次, 是 在 中的大小排名名次, 是x名次均值, 是y名次均值,n为数据对个数。则Spearman秩相关系数为:
假设两个随机变量分别为 (也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第 i(1<=i<=N)个值分别用 、 表示。x与y中的对应元素组成一个元素对集合 ,其包含的元素为( , )(1<=i<=N)。当集合xy中任意两个元素( , )与( , )的排行相同时(也就是说当出现情况1或2时;情况1: > 且 > ,情况2: < 且 < ),这两个元素就被认为是一致的。当出现情况3或4时(情况3: > 且 < j,情况4: < 且 > ),这两个元素被认为是不一致的。当出现情况5或6时(情况5: = ,情况6: = ),这两个元素既不是一致的也不是不一致的。
公式一:
其中C表示xy中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。
注意:这一公式仅适用于集合x与y中均不存在相同元素的情况(集合中各个元素唯一)。
公式二:
注意:这一公式适用于集合x或y中存在相同元素的情况(当然,如果x或y中均不存在相同的元素时,公式二便等同于公式一)。
其中C、D与公式一中相同;
N1、N2分别是针对集合x、y计算的,现在以计算N1为例,给出N1的由来(N2的计算可以类推):
将x中的相同元素分别组合成小集合,s表示集合x中拥有的小集合数(例如x包含元素:1 2 3 4 3 3 2,那么这里得到的s则为2,因为只有2、3有相同元素),Ui表示第i个小集合所包含的元素数。N2在集合y的基础上计算而得。
公式三:
注意:这一公式中没有再考虑集合X、或Y中存在相同元素给最后的统计值带来的影响。公式三的这一计算形式仅适用于用表格表示的随机变量X、Y之间相关系数的计算(下面将会介绍)。
参考: https://blogcsdnnet/u011089523/article/details/53056829
非参数相关(指 spearman和hendall)的表达能力相对较弱,因为它们在计算中使用的信息较少。在Pearson的情况下,相关性使用有关均值和均值偏差的信息,而非参数相关性仅使用序数信息和成对分数。
在非参数相关的情况下,X和Y值可能是连续的或有序的,并且不需要X和Y的近似正态分布。但在皮尔逊相关的情况下,它假定X和Y的分布应该是正态分布,并且也应该是连续的(因此做spearman之前要做一些对数变换之类的尽量接近正态分布)。
在正常情况下,Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关。
相关系数是测量 线性 (皮尔逊)或 单调 (Spearman和Kendall)关系。
在线性关系中,所有相关系数均为1。
在指数关系中,只有两个非参数相关系数为1或-1。 在对数关系中,结果与指数关系相同。
在对称的U形关系中,所有相关系数均为零
在所有情况下,Kendall相关系数的绝对值均小于其他绝对值。 可以看出,肯德尔相关性比其他相关性更为保守。
在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。
Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;
计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关
Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析
Kendall 复选项 等级相关 计算分类变量间的秩相关,适用于合并等级资料
Spearman 复选项 等级相关计算斯皮尔曼相关,适用于连续等级资料
注:
1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关
2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。
3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。
在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项:
Pearson
Kendall's tau-b
Spearman:Spearman
spearman(斯伯曼/斯皮尔曼)相关系数
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”
斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
Kendall's相关系数
肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是15,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,25,25,5,5,5,这里25是2,3的平均,5是4,5,6的平均。
肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记05。一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij。
正态分布的相关检验
对来自正态总体的两个样本进行均值比较常使用T检验的方法。T检验要求两个被比较的样本来自正态总体。两个样本方差相等与不等时用的计算T值的公式不同。
进行方差齐次性检验使用F检验。对应的零假设是:两组样本方差相等。P值小于005说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。
U检验时用服从正态分布的检验量去检验总体均值差异情况的方法。在这种情况下总体方差通常是已知的。
虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了。
均值检验时不同的数据使用不同的统计量
使用MEANS过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这是与Descriptives过程不同之处。
检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample T Test 单样本T检验过程。
检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples T test 独立样本t检验过程。
如果分组样本不独立,用Paired Sample T test 配对t检验。
如果分组不止两个,应使用One-Way ANOVO一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析。
如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric test
如果用户相比较的变量是分类变量,应该使用Crosstabs功能。
当样本值不能为负值时用右侧单边检验。
Mann-Kendall检验 是一种非参数检验(无分布检验),其优点是不要求样本遵从一定的分布,也不受少数异常值的干扰。常用于对降水、径流、气温和水质等要素时间序列 变化趋势 和 突变点 分析。
在双边趋势检验中,对于给定的置信水平(显著性水平)α,若|Z|≥Z 1-α/2 ,则原假设H 0 是不可接受的,即在置信水平α(显著性检验水平)上,时间序列数据存在明显的上升或下降趋势。Z为正值表示上升趋势,负值表示减少趋势,Z的绝对值在大于等于1645,196,2576时表示分别通过了置信度90%,95%,99%的显著性检验。计算过程:以α=01为例,Z 1-α/2 =Z 095 ,查询标准正态分布表Z 095 =1645,故Z≥1645时通过90%的显著性检验,H 0 假设不成立,Z>0,序列存在上升趋势。
其中UB 1 =0。UB k 不是简单的等于UF k 负值,而是进行了倒置再取负,此处UF k 是根据反序列算出来的。
给定显著性水平,若α=005,那么临界值为±196,绘制UFk和UBk曲线图和±196俩条直线再一张图上,若UFk得值大于0,则表明序列呈现上升趋势,小于0则表明呈现下降趋势,当它们超过临界直线时,表明上升或下降趋势显著。超过临界线的范围确定为出现突变的时间区域。如果UFk和UBk两条曲线出现交点,且交点在临界线内,那么交点对应的时刻便是突变开始的时间。
利用经典数据:用Mann-Kendall法检测1900-1990年上海年平均气温序列,给出趋势及突变点分析,给定的显著性水平α=005,即U 005 =±196。
kendall 和spearman三种相关分析方法的区别
本文2023-10-01 05:58:00发表“资讯”栏目。
本文链接:https://www.lezaizhuan.com/article/147284.html