통계용어

통계유의도

p-value는 절대적 기준이 아니다.

유의도문제와 베이지안 통계법

전통적인 통계에서는 유의도의 기준을 0.05로 설정하고 있다.

그러나 이 기준이 비록 통계학에서 보편적으로 쓰이고 있기는 하지만

그 기준에 대한 이론적인 명확한 근거는 없다.

p-value 의 창시자로 알려져 있는 Ronald Fisher 조차도

표준화된 가설검정에서 고정된 기준으로 사용하는 것을 반대했다고 알려진다.

귀무가설 유의성검증에 대해 제기되는 문제점들은 표본크기에 대한 민감도,

제 2종 오차비율이 받아들여지지 않는것, 귀무가설의 오용등이다.

생물학적 현상의 이해에서도 가설검정테스트는 파라미터의 값들이 0이 아닌지에 대한 유의미성을

단지 p=0.05에 의존한다는 것은 타당하지 않은 경우도 있을 수 있다.

예를 들어 경로분석이나 구조방정식에서 변수나 경로의 변화에 따라

동일한 경로의 유의도가 p=0.05를 근방으로 하여 미세하게 달라지는 경우들 있다.

그리고 다중그룹 경로분석을 할 때 동일한 경로임에도

한 그룹에서는 유의하게 나오지만 다른 그룹에서는 유의하지 않게 나올 수 있다. 이런 경우에 그 경로의 유의미성은 어떻게 해석해야 한 것인가?

다양한 변수에 의해 조절이 되며,

특히나 샘플간의 변이가 다양하게 상당한 비율로 존재하는 경우에

유의미한 통계수치가 아니라는 이유만으로 의미가 없다고 할수는 없는 것이다.

또한 연구자가 실험을 잘못 설계하였을때 분산이 증가하고

따라서 유의도가 낮아지게 된다.

예를 들어서 폐경기 여성만으로 한정하였을때 유의하게 나오는 값들이

남녀를 섞고, 어린아이부터 노인까지 샘플을 모집하여 함께 분석을 하게 되면

분산이 매우 커지고, 따라서 유의미한 유의도가 나타나지 않을 가능성이 높다.

따라서 연구설계자체에 대한 의문을 가지고 문헌을 읽어나가고,

샘플의 수나 통계방법등에 대해 관심을 가지고 고려하여 그 결과를

해석해야 한다.

분석결과의 유의도가 낮다고 하였을때,

제대로 한 실험에서 나온 결과인지

제대로 설계하지 않은 실험에서 나온 결과인지를

구별할 수 없다면, 혼란스러운 상황이 될 수 있다.

Figure 1-21. Number of articles appearing in journals that have defended the utility of null hypothesis significance testing (NHST) [247].

베이지안 통계

귀무가설 유의성검정에 대한 다양한 시도들 중 하나는

추정된 파라미터들과 확률에 대한 베이지안이론 (Baysian theorem)이다.

베이지안 통계는 전통적인 빈도통계에서 '사전확률'의 가정을 포함한다.

예를 들어 한개의 동전에서 앞면과 뒷면이 있을때, 정상적인 경우라면

앞면과 뒷면이 50%: 50%가 나온다.

하지만 만약 조작을 하여 앞면이 80%가 나오도록 한 동전이라고 누군가가 주장한다고 가정하자 [248].

아직 그 진위를 모를때, 10번을 던져서 10번이 모두 앞면이 나왔다면,

빈도통계에서는 나머지 90번을 더 던져야 진위의 유의도를 알 수 있다.

하지만 베이지안 통계라면 90번을 더 던질 필요가 없다.

즉, 베이지안 분석에서는 먼저 정상적인 경우와 조작된 경우

모두에서, 사전확률 (1)과 조건부확률 (2)을 각각 구한후 이 둘을 곱한다 (3).

두 경우에서 나온 곱한값들을 합한 후 이 값으로 각 경우에서 원래 곱했던 값을 나누면 사후확률이 나오게 된다 (4) [248].

따라서 빈도통계와 같이 100번을 모두 던지지 던지지 않더라도,

베이지안 분석을 이용하면 10번의 동전던지기로도 정상적인 동전인지 조작된 동전인지를 알 수 있게 된다.

표 베이지안 계산의 예 [248]

앞면

뒷면

합계

(1) 사전확률

50%

100%

(2) 조건부확률

0.10% (0.510)

10.74 (0.810)

(3) 사전확률 X 조건부확률

0.05%

5.37%

5.42%

(4) 사후확률

0.9% (0.05/5.42)

99.10%(5.37/5.42)

구조방정식 프로그램인 Mplus에서는

다중대체법을 베이지안분석 (Bayesian analysis) 방법을 이용할수 있다.

그 과정은 3단계로 다음과 같다.[249].

(1) Bayes를 이용하여 모델을 측정한다.

(2) 사후분포로부터 paramter값 세트 (sets)의 선들을 그린다.

(3) 모델에 따라 missing data를 산출해내서 완전한 데이타값들을 만들어 낸다

Considerations about P-value

비록 선행연구들의 결과를 근거로 하여 경로들이 설정되지만,

같은 시스템 내에서도 연구자의 판단에 따라 여러 가지 모형이 나올 수 있다.

그러함에도 대부분의 모형들에서 경로들은 거의 비슷한 경향성을 보이면서

경로계수의 값들이 약간씩 변화한다.

따라서 경로모형을 통한 결과들은 그 값들에 대해

절대적 의미를 부여하기보다는,

다양한 원인변수들간의 상대적 비교가 가능하다라는 의미가 보다 크다.

P-value의 0.05에 대한 절대적 기준의 의미를 부여하기보다는

보다 다양한 가능성 속에서 P-value에 대한 해석의 접근이 필요하다.

실험실에서 동일한 리간드임에도 농도에 따라 효능제와 길항제의 상반된 효과가 나타나는 것을 흔히 볼수 있다.

그리고 농도가 일정 수치이상 올라갈 때

그 효과가 오히려 반대로 나타나기도 한다.

이러한 현상들은 조직특이적인 그리고

다양한 핵수용체들간의 redundancy적 특성이 관여했을 가능성이 있다.

따라서 일정 수준의 in vitro실험후에는 실제 임상에서 혈액을 채취하여

그 변수들로 다변량분석을 해 보는 것이 필요하다

[이 게시물은 서울논문님에 의해 2017-03-20 01:09:26 통계유의도에서 이동 됨]

번호	제목	글쓴이	날짜	조회 수
15	다익스트라(Dijkstra) 알고리즘의 재발견	서울논문	03-15	2077
14	상관계수와 결정계수의 관계	서울논문	03-15	12989
13	그리스어/라틴어 알파벳 발음	서울논문	03-22	13054
열람중	통계유의도	서울논문	08-07	2181
11	Truncated mean	서울논문	12-27	2303
10	부트스트랩법	서울논문	07-06	2838
9	모수위의 모자(hat)-모수의 추정치	서울논문	10-06	4181
8	회귀분석의 다양한 종류들	서울논문	10-06	3694
7	모형적합(model fitting) 또는 모수추정(parameter estimation)	서울논문	10-06	2858
6	최대우도법(maximum likelihood)	서울논문	10-06	6108
5	표본 (sample)	서울논문	08-07	1328
4	추출틀 (frame)	서울논문	08-07	1674
3	추출단위 (sampling unit)	서울논문	08-07	2206
2	모집단 (population)	서울논문	08-07	1435
1	조사단위 (element)	서울논문	08-07	1829

통계유의도 > 통계용어

통계유의도