简单相关系数又称皮尔逊相关系数或“皮尔逊积矩相关系数”或叫线性相关系数,是指两个定距变量间联系的紧密程度。相关系数可以看作是两个随机变量中得到的样本集向量之间夹角的cosine函数。
简介
样本的简单相关系数一般用r表示,计算公式为:
其中n为样本量,和分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在1与1之间,若r0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。
利用样本相关系数推断总体中两个变量是否相关,可以用t统计量对总体相关系数为0的原假设进行检验。若t检验显著,则拒绝原假设,即两个变量是线性相关的;若t检验不显著,则不能拒绝原假设,即两个变量不是线性相关的。
几何特征
对于居中的数据来说(何谓居中?也就是每个数据减去样本均值,居中后它们的平均值就为0),一些实际工作者更喜欢用非居中的相关系数(与Pearson系数不相兼容)。看下面的例子中有一个比较。例如,假设五个国家的国民生产总值分别是1、2、3、5、8(单位10亿美元),又假设这五个国家的贫困比例分别是11、12、13、15、18。则我们有两个有序的包含5个元素的向量x、y:x(1,2,3,5,8)、y(0。11,0。12,0。13,0。15,0。18)使用一般的方法来计算向量间夹角(参考数量积),未居中的相关性系数如下:
上面的数据实际上是故意选择了一个完美的线性关系:y0。100。01x。因此皮尔逊相关系数应该就是1。把数据居中(x中数据减去E(x)3。8...
(全文)