1 평균 (mean), 상관 (correlation) 그리고 선형회귀분석 (linear regression) 하나의 변수에 대한 단순 평균값을 구하는 것에 비해,
만일 두 변수간의 관계가 확인되었을때 회귀분석은 보다 큰 검정력을 갖는다.
예를 들어 아래의 표에서 두 변수 X, Y가 있을때,
연구자가 단지 Y에 대한 값만을 알고 있다고 하면
그 평균에 대한 편차와 분산, 그리고 분산의 합은 108이 된다.
표 변수 X와 Y의 평균과 분산 [217]
X
|
Y
| Deviate from mean Squared deviate |
1 | 2 | 8 |
64 | 3 | 9 |
1 | 1 | 5 |
9 | 1 | 1 |
6 | 11 | 1 |
1 | 7 | 14 |
4 | 16 | 9 |
15 | 5 | 25 |
Sum of square | 108 |
|
하지만 연구자가 X의 값을 구할 수 있었고,
X가 Y에 영향을 준다는 인과관계를 알게 되었다면,
Y=1.5429×X+2.0286 라는 1차 방정식을 구할 수 있다.
이러한 선형회귀분석은 그래프 상에서 데이터점들에
가장 잘 맞는 선의 방정식 (기울기와 절편)을 찾는 것인데
이 선은 두 변수들간의 관계를 보여준다.
단순 선형회귀분석에서 최적선 (best fit)이라는 것은
선과 점들 사이의 거리의 제곱이 최소화되는 선을 의미한다.
대개 방정식은 변수Y=절편 + 기울기 X 변수X로 나타낸다.
회귀분석에서 귀무가설 (null hypothesis)은 두 선사이에 그어진 최적선 (best-fit line)의 기울기가 0이라는 것이다.
예를 들어, X변수가 커질때 Y변수는 커지거나 작아지지 않는다.
그리고 X의 각 값들에 대해 Y값들을 구할 수 있다.
Figure. Deviations from the mean Y and from the regression line [217].
Table1 . 회귀선에 의해 예측된 Y값과 그 차이값들
X
|
Y
|
Predicted Y-value Deviate From predicted Y-value Squared deviate |
1 |
2 |
3.57 |
1.57 |
2.47 |
3 |
9 |
6.66 |
-2.34 |
5.49 |
5 |
9 |
9.74 |
0.74 |
0.55 |
6 |
11 |
11.29 |
0.29 |
0.08 |
7 |
14 |
12.83 |
-1.17 |
1.37 |
9 |
15 |
15.91 | 0.91 | 0.84 |
total sum of square가 108에 비해 regression sum of squrare는 10.8로 90% 작아졌다. 그리고 total sum of squre에 대한 이들 두 값의 차이의 비율을 결정계수라고 한다. 즉, (108-10.8)/108 =0.9 가 결정계수 (coefficient of determination) r2가 된다.
즉, X변수는 Y변수의 분산 중 90%를 설명해줄 수 있으며,
이 값이 클수록 두 변수의 관계는 강하다고 할 수 있다.
만일 동일한 두 변수들의 회귀선이 다른 두 그룹간에 만들어졌다면,
단순히 한 변수 Y의 평균비교보다 오차가 적기에 검정력이 증가할 것이다.
그러나 단순회귀분석으로는 그룹간의 회귀선의 차이에 대해 유의성을 검정할 수 없고 경로분석을 포함한 구조방정식으로는 가능하다.
즉, Wald test를 이용하여 두 그룹간의 경로를 분석할수 있다.
여기서 우리는 하나의 질문을 가져볼 수 있다.
만약, 하나의 변수 Y에 대한 그룹간 비교보다 두 변수간의 회귀선의 비교가 검정력이 증가하듯,설정된 경로들과 구조들이 정확하다면,
경로모형과 구조방정식 모형에서 분석하는 변수가 증가하면서
보다 검정력이 증가할 수 있을 것인가?