데이터분석/[ 이론 ]

[빅데이터분석기사] 결측값의 종류 및 해결

씩씩한 IT블로그 2021. 4. 14. 18:00
반응형

종류

1. 완전무작위(MCAR : Missing Completly At Random) : 결측값이 결과값 혹은 다른 변수와 상관이 없음 

(ex 관측치가 완전 랜덤함)

 

2. 무작위(MAR : Missing At Random) : 결측값이 결과엔 상관 없으나 다른 변수와는 상관있음

(ex 보수진영 투표자들의 응답률(결측치)이 낮으나 그렇다고 보수의 득표율(결과)이 낮은것은 아니다)

 

2. 비무작위(NMAR : Not Missing At Random) : 결측값이 결과에 상관이 있음

(ex 소득이 낮은 사람들의 응답률이 낮다)

 

처리

1. 삭제

 (1) 특정 단일값 삭제

 (2) 목록 삭제 : 무작위 결측에 적절

 

2. 대체(보완)

 (1) 평균대체법 : 평균, 중앙, 최빈값 등으로 대체. 빠른속도로 처리할 수 있으나 모든 값 동일

 (2) 보삽법 : 시계열데이터에서 나머지 데이터로 평균을 계산

 (3) 다중대치법 : 여러번의 결측치 추정을 통해 데이터 완성

 (4) 완전정보 최대우도법 : 최대우도를 바탕으로 결측치가 없는 케이스로 부터 추정되는 모형모수를 가지고 가중평균 구성

 (5) 단순확률 대치법 : 평균값으로 대체시 발생할 수 있는 추정량 표준오차의 과소추정문제 보완을 위한 방법

 (6) 평가치 추정 : 맥락적, 행렬식 이용 약간의 오차 감수

 

반응형