상관계수와 결정계수의 관계 > 통계용어

본문 바로가기
서울논문컨설팅 / 무료상담 010-2556-8816
신뢰할수 있는 서울대 박사님들이 함께합니다. seoulpaper@daum.net, 02-715-6259


Home > 통계 > 통계용어
통계용어

상관계수와 결정계수의 관계


http://zip365.com/zb41pl4/bbs/view.php?id=bussiness&page=8&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=hit&desc=asc&no=91&PHPSESSID=bdf2ca143fa5f4a5b3c7714c8a7229fb 

 

회귀분석은 독립변수를을 가지고 종속변수를 설명하는게 목적이고, 상관분석은 두 변수의 직선관계 정도를 보는겁니다.


상관분석에 경우  둘중 어떤 하나가 종속변수(설명 당하는)이고 독립변수(설명하는)인지는 별로 관심의 대상이 아닙니다.  결정계수는 회귀분석에서 나오는 개념으로 모형(즉 독립변수들)이 종속변수를 얼마나 설명하냐를 보여주고 R^2로 표기합니다. 

"상관계수의 제곱 = 결정계수의 제곱" 인경우는 단순회귀인경우 즉 독립변수가 하나인 경우만 성립됩니다.  독립변수가 하나인 경우의 회귀분석 y= a + b*x 에서 나오는 결정계수는 x, y의 상관계수의 제곱입니다.  그러나 다중회귀분석 y = a + b1*x1 + b2*x2 에서 나오는 결정계수는 독립변수들(x1, x2)이 y를 얼마나 설명하냐를 보여줍니다.  이경우의 상관분석은 (y, x1)의 상관계수와 (y, x2)의 상관계수를 각각 구할수밖에 없습니다.  필요하시면 (x1,x2)도 볼수있고요.

=======================================================

질문) 결정계수와 상관계수의 차이에 대해서 설명해 주세요.

답변)
상관계수(r)
- 두 변수의 상관성을 나타내는 척도임.
- 항상 -1과 1 사이에 있음 ( -1 ≤ r ≤ +1)
- 상관 계수 값이 -1 또는 1일 경우 이는 두 변수가 완전한 직선 관계임을 뜻함.
- 점들이 직선에 얼마나 모여 있는가를 나타냄. 
- 이상점이 있을 경우, 이에 영향을 받음
- │r│ ≥ 0.65 일때 의미가 있음

결정계수(Coefficient of Determination,R2)
- 총변동중에서 회귀선에 의해 설명이 되는 변동이 차지하는 비율
-  R2(R-Sq)의 범위는 0≤ R2 ≤ 1
- X와 Y간의 상관관계가 클수록  R2(R-Sq)의 값은 1에 가까와짐
-  R2(R-Sq)의 값이 0에 가까워 질수록 회귀선은 쓸모가 없고,  R2(R-Sq)의 값이 
   클수록 (R2≥0.65) 쓸모있는 회귀식이 된다

인자가 하나일때는 상관계수의 제곱값과 결정계수값이 같습니다.

수정결정계수
- 결정계수는 상향편의 된 추정치 이므로 표본 결정계수의 값은 항상 모집단의 
   결정계수보다 클 수 밖에 없음. 따라서, 보다 정확한 추정치를 얻기 위해서는 
   수정결정계수를 사용해야 함.
- 수정결정계수의 값은 결정계수보다는 작고 때에 따라서는 음의 값도 나타날 수 있음
- 표본의 크기가 200개 이상일 때는 두 결정계수의 차이가 미미함.
- 표본이 200개 미만일 때는 반드시 수정결정계수를 보고서에 포함해야 함
    (독립변수가 2개 이상이면 수정결정계수를 본다)

------------------------------------------------------------------------------------
http://image3.happycampus.com/Production/preview/2000/09/27/data1011112-0001.jpg
http://adnoctum.tistory.com/188
------------------------------------------------------------------------------------

회귀분석
--------
회귀분석(回歸分析, regression analysis)은 통계학에서 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 인과관계에 따른 수학적 모델인 선형적 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수를 예측한다. 또한 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석 방법이다.

1개의 종속변수와 1개의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(Simple Regression Analysis), 1개의 종속변수와 여러 개의 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(Multiple Regression Analysis)이라고 한다.

회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과관계의 모델링등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 적절한 분석방법의 선택이였는지 또한 정확한 정보분석인지 판단하는 것은 연구자에 달려 있다.

역사
----
회귀(Regress)의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다. 영국의 유전학자 프란시스 갈톤(Francis Galton)은 부모의 키와 아이들의 키사이의 연관관계를 연구하면서 부모와 자녀의 키사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다. 이러한 경험적 연구후에 칼 피어슨(Karl Pearson)은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 수학적 전개를 정립하였다.


회귀분석의 표준 가정
--------------------
회귀분석은 다음의 가정을 바탕으로 한다.

잔차(Residuals)는 모든 독립변수 값에 대하여 동일한 분산을 갖는다.
잔차의 평균은 0이다.
수집된 데이터의 분산은 정규분포를 이루고 있다.
독립변수 상호간에는 상관관계가 없어야 한다.
시간에 따라 수집한 데이터들은 잡음의 영향을 받지 않아야 한다.
독립변수들간에 상관관계가 나타나는 경우 다중공선성문제라고 한다.

 

번호 제목 글쓴이 날짜 조회 수
15 다익스트라(Dijkstra) 알고리즘의 재발견 서울논문 03-15 2077
열람중 상관계수와 결정계수의 관계 서울논문 03-15 12985
13 그리스어/라틴어 알파벳 발음 서울논문 03-22 13054
12 통계유의도 서울논문 08-07 2180
11 Truncated mean 서울논문 12-27 2303
10 부트스트랩법 서울논문 07-06 2838
9 모수위의 모자(hat)-모수의 추정치 서울논문 10-06 4181
8 회귀분석의 다양한 종류들 서울논문 10-06 3694
7 모형적합(model fitting) 또는 모수추정(parameter estimation) 서울논문 10-06 2858
6 최대우도법(maximum likelihood) 서울논문 10-06 6108
5 표본 (sample) 서울논문 08-07 1328
4 추출틀 (frame) 서울논문 08-07 1674
3 추출단위 (sampling unit) 서울논문 08-07 2206
2 모집단 (population) 서울논문 08-07 1435
1 조사단위 (element) 서울논문 08-07 1829

대표:이광조ㅣ사업자등록번호: 643-09-02202ㅣ대표전화: 02-715-6259ㅣ서울시 용산구 효창원로 188