다중대체법 (Multiple Imputation: M.I.) > 결측치,다중대체법

본문 바로가기
서울논문컨설팅 / 무료상담 010-2556-8816
신뢰할수 있는 서울대 박사님들이 함께합니다. seoulpaper@daum.net, 02-715-6259


Home > 통계 > 결측치,다중대체법
결측치,다중대체법

다중대체법 (Multiple Imputation: M.I.)


다중대체법 (Multiple Imputation: M.I.) 에서 경로모델의 적합도는 대체된 자료를 바탕으로 계산하는 것으로 대체에 문제가 없다면 모델설정에서 결측치의 수가 문제가 되지 않는다 [230].

 

결측치 (missing data)는 설문조사 (survey)와 종단연구 (longitudinal research)에서 보편적으로 발생하게 되는 문제이다.

 

설문조사에서 참가자 중 어떤 이들은 특정한 질문에 의도적으로 응답을 하지 않을 수 있고 또는 비의도적으로 (inadvertently)로 응답하지 않고 넘어갈 수 있다 (skip).  

 

결측치를 해결하는 방법에는 전통적으로 몇 가지 방법이 있다. 

그 대부분은 결측치와 관련된 데이터를 버림으로써 정보의 수준을 희생시킨다.

하지만 최근의 이론과 컴퓨터의 발달에 의해 결측치의 데이터를 활용하는 

가장 현저하게 (notably) 이용되는 결측치 해결방법 중 하나는 다중대체법이다 [230]. 

 

이 방법은 결측값의 불확실성을 보존하면서, 기존의 데이터를 사용하여 

결측값을 실제값 (real value)으로 추정된 몇 개의 값 (approximating)으로 만들어 (또는 대체) 내어 분석하는 방법이다 [231]. 

 

M.I.의 첫번째 과정은 기존의 데이터를 근거로 하여 몇 개의 데이터 셋을 만들어내고 그것들을 각각 분석하는 것이다.

 

그런 다음 그 결과의 추정치 (estimates)와 표준오차 (standard errors)를 평균공식을 통해 결측치가 채워진 모수세트 (parameter set)를 만든다.

 

 8d4c7d1218cb46d4c4a285aa0b0734e1_1440551

Figure 1-18. Flowchart depicting the process of multiple imputation and subsequent analyses [232].

 

 

변수데이타의 범위는 대체될 데이터세트의 수치를 결정하며 

대략적으로 3-5개의 데이터 세트면 충분하다 [233, 234]고 알려져 있다. 

John 등은 단순회귀분석과정에서 다중대체법을 하고 대체횟수의 영향을 분석하였다. 

이들의 분석에 의하면 결측치의 비율이 증가할 경우 다중대체횟수를 증가시키는 것이 검정력 (power)이 증가하고, 

표준편차 (standard deviation)의 범위가 감소하였다 [235]. 

 

Mplus 프로그램에서는 대체된 데이터 셋을 생성한 후, 

자동으로 10개의 데이터를 합쳐서 결과치를 내어놓기에 

생성된 데이터셋들을 합산하는 과정에서 계산상의 오류는 거의 없다.

 

M.I.의 장점은 결측치를 버리지 않고 완전한 데이터를 사용할 수 있으며, 

대체하는 값들에 대한 불확실성에 대한 정보를 사용할 수 있다는 점에 있다.

 

그리고 단일대체법에 비해 M.I.는 대체를 데이터의 분포에 기반하여 대체를 무작위로 반복한 후 합계를 내므로 추정의 효율성을 높일 수 있다 [236]. 

 

아래 그림은 다변량분석법에서, 다중대체법과 완전케이스분석법을 비교한 것이다분석법 (complete case analysis)은 불완전한 데이터, missing value를 가진 케이스들을 제거하고 결측치가 없는 완전한 케이스들만으로 분석하는 방법이다. 완전케이스분석법의 경우, 변수의 수가 증가할수록 제거되는 케이스가 많아져서 변수가 7개만 되어도 분석할수 있는 케이스는 원래의 20%이하가 된다변수가 7개가 되었을 때 원래의 (truth) 결과치와 완전케이스분석법의 결과는 비슷하지만 95% 신뢰구간은 급격히 증가한다. 

그리고 변수가 13개가 되면 결과들도 달라진다.

  

하지만 다중대체법을 시행하게 되면 변수가 13개가 되어도 원래의 결과치와 95%신뢰구간도 거의 차이가 없는 것을 알 수 있다.

 

 

8d4c7d1218cb46d4c4a285aa0b0734e1_1440551

 

Figure 1-19. The effect of increasing the number of variables in a multivariable logistic regression model on results for restraint use in motor vehicle crashes (n=38,167).In this example, the proportion of cases with censored restraint data remains fixed at 30%, with a missing at random mechanism of censoring. Restraint use was included i all nmodels 

(outcome = Injury Severity Score R16).Additional variables included factors known to be associated with serious injury (e.g., passenger space intrusion, DV, steering wheel deformity, and so on).Results for the ‘‘truth’’ represent identical analyses in an otherwise identical data set with no censored values. Vertical bars are 95% confidence intervals. CC = complete case [237].

 

  

이상과 같은 장점들로 인해 M.I.는 널리 사용되고 있지만 두가지 단점이 있을 수 있다.

 

첫째, M.I.는 시뮬레이션을 사용하고 데이터에 불규칙 잡음 (random noises)들을 더하기 때문에 초기에 M.I.가 받아들여지지 않게 될 수 (unacceptable) 있다 [238, 239].

 

둘째, M.I. 분석과정 중에 무작위성 (randomness)이 보존되므로 생성 imputed)되는 각 데이터 셋의 추정값 (estimate)이 계산할 때 마다 약간 다를 수 있고 

이로 인해 완벽히 동일한 답을 내지는 않는다는 것이다 [239]. 

 

통계분석과정에서 발생할 수 있는 문제는 M.I.의 단점 이외에 최대우도법의 수렴과정에서 있을 수 있다.

 

본 연구의 통계분석에서 이용된 최대우도법은 모형내의 모든 모수를 동시에 추정하는 M.L. 동시추정법 (stimultaneous estimation)이며그 방법이 매우 복잡하기에 반복추정 (iterative estimation)을 한다., 초기해를 얻은 후에 다시 보다 정확하고 개선된 추정치를 얻는 과정을 반복하는 것이다. 

 

반복추정 과정 중에 모형적합도의 개선이 일정 최소기준 이하가 될 때 반복추정은 정지되며 이때 모형의 적합도는 완벽해진다그러나 초기추정치가 지나치게 부정확하면 반복추정이 안정된 해로 수렴되지 않을 수 있다. 

 

대표적인 예로 관찰변수들의 분산이 서로 너무 큰 차이가 나서 

공분산행렬의 변수척도가 매우 달라지게 되면 반복추정결과가 수렴되지 않을 수 있다 [222]. 

 

하지만 모형이 제대로 만들어진 경우에 이러한 수렴불가는 거의 일어나지 않는다따라서 관찰변수들의 분산에 근거한 수렴의 여부는 모형적합도에 대한 또다른 정보가 될 수 있다.

 

 

 

  

번호 제목 글쓴이 날짜 조회 수
열람중 다중대체법 (Multiple Imputation: M.I.) 서울논문 08-07 13580
1 결측치의 비율과 다중대체법 서울논문 08-07 2424

대표:이광조ㅣ사업자등록번호: 643-09-02202ㅣ대표전화: 02-715-6259ㅣ서울시 용산구 효창원로 188