데이터분석/전처리

missingno 라이브러리를 통한 결측치 확인

씩씩한 IT블로그 2020. 10. 6. 15:53
반응형

* 타이타닉 데이터를 이용

import missingno
# data는 dataFrame type
missingno.matrix(data, figsize = (15,8))

위에서부터 첫번째행, 맨아래가 마지막 1309행으로서 각 att의 결손을 보여줌. (하얀색이 결측치)

- age와 cabin이 중간중간 결측치가 많음.

- train+test된 데이터이기 때문에 survived의 아래쪽은 모두 비어있음

맨오른쪽은 파스크행 이라고 하여 데이터의 완전성을 나타낸다고 함 (정확히 뭔지 잘모르겠음..)

반응형