仙一网 - 文献资料 - 医学书籍 - 预防医学

第二十二章 相关回归分析

  提要 相关回归的意义,原理;小样本的直线相关和回归分析;相关系数和回归系数的意义及假设检验;应用直线相关和回归分析时的注意事项。

  在医学上,许多现象之间都存在着相互联系,例如身高与体重,体温与脉搏,年龄与血压,钉螺与血吸虫感染等。而有些事物的关系是互为因果的,如上述钉螺是因,感染血吸虫是果;但有时回果不清,只是伴随关系。例如父母的兄弟,兄高,弟也可能高,但不能说兄是因、弟是果,这里不是因果关系,而可能与社会条件、家庭经济、营养、遗传等因素有关。

  相关是解决客观事物或现象相互关系密切程度的问题,而回归则是用函数的形式表示出因果关系。有相关不一定因果关系;反之,有因果关系的,一定有相关。我们称“因”的变量叫,习惯上用Y表示。以横轴代表自变量X,纵轴代表依变量Y,可以将一群观察事物的两种关系在坐标图上以P(X,Y)的方法定位,作出一群点图,便可在体上看出两者的关系,例如图22-1。

  图22-1(A)表示血压(依变量)随年龄(自变量)增长而增高,其图像性质与(B)一样称正相关(positive correlation);图(C)的依变量随自变量的增加而减少,称为负相关(negative correlation);若二者没有关系,则称无相关(如图D、E、F)。

图22-1 年龄与血压相关(A)和五种有代表性点图(B~F)

  根据实际资料,用数学的方法求出一条曲线(或直线),使我们能够从一个自变数推算出相关的依变量的值,这条线就叫回归线。回归线有直线和曲线两种。本章仅介绍直线相关与回归分析。

  例22.1 某产科医师发现产妇尿液中雌三醇含量与初生儿体重有相关现象,因此检查了31例待产妇24小时的尿雌三醇含量,并记录下各产儿初生体重,统计如表22-1。作者意欲通过测定尿中雌三醇含量以间接预测初生儿体重,以便对低出生体重儿采取预防性措施。

  表22-1 待产妇尿雌三醇含量与初生儿体重统计

编号(1) 尿雌三醇mg/24h(2) 初生儿体重kg(3) 编号(1) 尿雌三醇mg/24h(2) 初生儿体重kg(3)
1 7 2.5 17 17 3.2
2 9 2.5 18 25 3.2
3 9 2.5 19 27 3.4
4 12 2.7 20 15 3.4
5 14 2.7 21 15 3.4
6 16 2.7 22 15 3.5
7 16 2.4 23 16 3.5
8 14 3.0 24 19 3.4
9 16 3.0 25 18 3.5
10 16 3.1 26 17 3.6
11 17 3.0 27 18 3.7
12 19 3.1 28 20 3.8
13 21 3.0 29 22 4.0
14 24 2.8 30 25 3.9
15 15 3.2 31 24 4.3
16 16 3.2      

  资料来源:Rosner B:Fundamentals of Biostatistics P.346,Duxbury Press,1982

  一、相关分析(correlation analysis)

  先将上表数据按直角坐标作出图22-2。从该图的点子分布可以看出,尿中雌三醇浓度愈高,新生儿体重愈大;这群点子的分布基本上呈直线趋势。

图22-2 待产妇尿雌三醇含量与产儿出生体重相关图

  (一)相关系数(correlation coefficient)

  相关系数是表示两个变量(X,Y)之间线性关系密切程度的指标,用r表示,其值在-1至+1间。如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。计算相关系数的公式为:

  为了获得公式22.2中各数据,先将表22-1资料进行计算如表22-2。

  从表22-2的计算获得

  ΣX=534 ΣX2=9876 ΣY=99.2 ΣY2=324.18 ΣXY=1750

  N=31

  按这些数据进一步以下演算求r。

  (二)相关系数的假设检验

  本例题31例,只是总体中一个样本,由此求得的相关系数,必然存在抽样误差。总体相关系数为零(ρ=0)时,从这总体中抽出31例,因为抽样误差,r也可能不等于0。氙以要判断该样本r是否有意义,需与总体相关系数,ρ=0比较,看两者的差别有无统计不学意义。

  相关系数的假设检验,可用t检验,公式如下:

    公式(22.2)

  自由度v=n-2

  H0:ρ=0

  H1:ρ≠0

  α=0.05

  本例r=0.6097,n=31,代入公式(22.2)

  表22-2 相关系数计算表

尿雌三醇X(mg/24h)(1) X2(2) 初生儿体重Y(kg)(3) Y2(4) XY(5)
7 49 2.5 6.25 17.5
9 81 2.5 6.25 22.5
9 81 2.5 6.25 22.5
12 144 2.7 7.29 32.4
14 196 2.7 7.29 37.8
16 256 2.7 7.29 43.2
16 256 2.4 5.76 38.4
14 196 3.0 9.00 42.0
16 256 3.0 9.00 48.0
16 256 3.1 9.61 49.6
17 289 3.0 9.00 51.0
19 361 3.1 9.61 58.9
21 441 3.0 9.00 63.0
24 576 2.8 7.84 67.2
15 225 3.2 10.24 48.0
16 256 3.2 10.24 51.2
17 289 3.2 10.24 54.4
25 625 3.2 10.24 80.0
27 729 3.4 11.56 91.8
15 225 3.4 11.56 51.0
15 225 3.4 11.56 51.0
15 225 3.5 12.25 52.5
16 256 3.5 12.25 56.0
19 361 3.4 11.56 64.6
18 324 3.5 12.25 63.0
17 289 3.6 12.96 61.2
18 324 3.7 13.69 66.6
20 400 3.8 14.44 76.0
22 484 4.0 16.02 88.0
25 625 3.9 15.21 97.5
24 576 4.3 18.49 103.2
534 9876 99.2 324.18 1750.0

  V=31-2=29

  查t值表,t0.01(29)=2.756,本例tr=4.1423>t0.01(29),P<0.01,按α=0.05水准拒绝H0,接受H1,可以认为临产妇24小时尿中雌三醇浓度与初生儿体重有正相关关系。

  如果不用t检验,可以根据v查相关系数r界值表(附表22-1)。本例v=29,查表得知r0.01(29)值为0.456,而本例r=0.6097>r0.01(29),故P<0.01,与上述t检验的结果一致。

  二、回归分析(regression analysis)

  医学上,不少娈量间虽存在一定关系,但这种关系不象函数关系那样十分确定。例如正常人的血压随年龄而增高,但这只是总的趋势,有些高龄人的血压却不一定偏高;一群正常人按年龄和血压两个变量在坐标上的方位点,并非集中在一条上升直线上,而是围绕着一条有代表性的直线上升。

  直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。

  (一)直线回归方程式(linear regression equation)的计算

  直线回归方程的通式为:

  =a+bX 公式(22.3)

  式中Y为自由变量X推算因变量Y的估计值,a为回归直线在Y轴上的截距,即X=0时的Y值;b为样本回归系数(regression coefficient),即回归直线的斜率(slope或称坡度),表示当X变动一个单位时,Y平均变动b个单位。如果已知a与b,用以代入公式(22.3),即可求得直线回归方程。求a和b的公式分别为:

  公式(22.4)

  公式(22.5)

  对样本中两个变量分析,不但可作相关分析,还可进一步作直线回归分析。仍以表22-1为示范,该例经过直线相关分析,r=0.6097,两变量间有直线关系,从相关系数计算时,已求得:

  Σ(X-x)(Y-Y)=41.2000

  Σ(X-x)2=677.4194

  而 Y=ΣY/n=99.2/31=3.2000

  x=ΣY/n=534/31=17.2258

  代入公式(22.4)

  b=41.2000/677.4194=0.0608

  代入公式(22.5)

  a=3.2000-0.0608×17.2258=2.1527

  代入公式(22.3)

  =2.1527+0.0608X

  (二)样本回归系数的假设检验

  样本回归系数也有抽样误差问题,故需对b作假设检验,以评估b是否可能从回归系数为零(即β=0)的总体中随机抽得的。

  检验步骤:

  H0:β=0 即b是由β=0的总体中随机抽样的样本回归系数。

  H1:β≠0

  α=0.05

  t检验:检验公式为

   tb=|b|/sb  公式(22.6)

  式中sb是回归系数的标准误,计算公式为

  公式(22.7)

  式中sy.x为各观察值Y距回归直线(Y)的标准差,是当X的影响被扣除后Y方面的变异指标。可用以下公式计算:

   公式(22.8)

   公式(22.9)

  本例上述已算得

   Σ(X-x)2=677.4194

   Σ(Y-Y)2=6.7400

   Σ(X-x)(Y-Y)=41.2000

  分别代入公式(22.9),(22.8),(22.7)和(22.6)得

  Σ(Y-Y)=6.7400-41.20002/677.4194=4.2343

  tb=0.0608/0.01468=4.1417

  分析评价 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05检验水准,拒绝无效假设,可以认为待产妇24小时尿中雌三醇含量与初生儿体重之间存在直线回归关系。

  (三)描绘回归直线

  根据以上求得回归方程Y=2.1527+0.0608x,可以在自变量X的实测范围内(本例为7~27)任取X1和X2两值代入上式求得在图22-2中的P1(X1,Y1)和P2(X2,Y2)两坐标点,将两点连结为一直线,就属该方程的回归直线。作图要注意的是P1、P2两点最好距离远些,绘出的直线在坐标上误差就小些。

  三、应用直线相关与回归分析时的注意事项

  1.作相关与回归分析要有实际意义,不要把毫无关联的两个事物或两种现象作相关、回归分析。

  2.两事物或现象间有相关,不一定有回果关系,也可能仅是伴随关系。但是,如果两事物或现象间存在因果关系,则两者必然是相关的。

  3.相关与回归分析所说明的问题是不同的,但又是有联系的。相关表示相互关系,回归表示从属关系。可以证明,同一批资料所算得的r与b的检验统计量(tr,tb)是相同的,如本章的案例前后算得的tr=tb=4.14。由于相关系数的计算及假设检验比较方便,故可用相关系数的显著性检验取代回归系数的显著性检验。事实上在作回归分析之前,一般先作相关分析,而只有在确定了两变量间有直线关系的前提下,求回归方程及回归线才有意义。

  4.相关与回归的应用,仅限于原实测数据的范围内,而不能随意外推。因为不知道在此范围之外,两变量间是否仍存在同样的直线关系。如果确有进行外推的充分根据和需要,亦应十分慎重。

  5.在X与Y均呈正态变量时的加归分析中,由X 推算Y与由Y推算X的回归系数及回归方程是不同的,切勿混淆。

附表22-1 相关系数显著性界值表

v R0.05(v´) R0.01(v´) R0.05(v´) R0.01(v´)
1 0.997 1.000 24 0.388 0.496
2 0.950 0.990 25 0.381 0.487
3 0.872 0.959 26 0.375 0.478
4 0.811 0.917 27 0.367 0.470
5 0.754 0.874 28 0.361 0.463
6 0.707 0.834 29 0.355 0.456
7 0.666 0.798 30 0.349 0.449
8 0.632 0.765 35 0.325 0.418
9 0.602 0.735 40 0.304 0.393
10 0.576 0.708 45 0.288 0.372
11 0.553 0.684 50 0.273 0.354
12 0.532 0.661 60 0.250 0.325
13 0.514 0.641 70 0.232 0.302
14 0.497 0.623 80 0.217 0.283
15 0.482 0.606 90 0.205 0.267
16 0.468 0.590 100 0.195 0.254
17 0.456 0.575 125 0.174 0.228
18 0.444 0.561 150 0.159 0.208
19 0.433 0.549 200 0.138 0.181
20 0.423 0.537 300 0.113 0.148
21 0.413 0.526 400 9.098 0.128
22 0.404 0.515 500 0.088 0.115
23 0.396 0.505 1000 0.062 0.081