데이터분석/[ 이론 ]

[빅데이터분석기사, adsp] KDD , crisp-dm, 빅데이터 분석방법론

씩씩한 IT블로그 2020. 6. 25. 16:38
반응형

KDD

1. 데이터셋 선택(selection) : 도메인 이해, 목표설정

2. 데이터 전처리(preprocessing) : 잡음, 이상치, 결측치 처리

3. 데이터 변환(transformation) : 변수선택 차원축소

4. 데이터마이닝(data mining) : 분석목적에 맞는 데이터마이닝기법 선택, 적절한 알고리즘 적용

5. 해석과 평가(interpretation, evaluation) : 일치성확인 및 평가

 

CRISP-DM

1. 업무이해 : 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해, 데이터 분석을 위한 문제정의

- 업무목적 파악, 상황파악, 목표설정, 계획수립

2. 데이터 이해 : 분석을 위한 데이터를 수집하고 데이터 속성을 이해, 인사이트 발견

- 초기데이터 수집, 데이터 기술 분석, 데이터 탐색, 품질확인

3. 데이터 준비 : 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계

- 데이터 셋 선택, 데이터 정제

4. 모델링 : 모델링 기법과 알고리즘을 선택, 최적화

- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

5. 평가 : 프로젝트 목적에 부합하는지 평가

- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

6. 전개 : 실업무에 적용, 유지보수 계획

- 프로젝트 리뷰, 전개 계획수립, 종료 보고서 작성

빅데이터 분석 방법론

1. 계층적 프로세스

(1) 단계(phase) : 프로세스 그룹을 통하여 완성된 단계별 산출물 생성

(2) 태스크(task) : 단계를 구성하는 단위활동

(3) 스텝(step) : WBS워크페이지

2. 5단계 방법론

(1) 분석기획 : 비즈니스 도메인과 문제점인식, 분석계획 및 프로젝트 수행계획수립

- 비즈니스 이해, 프로젝트 범위설정, 데이터 분석 프로젝트 정의, 수행 계획 수립, 위험식별, 위험 대응 계획 수립

(2) 데이터 준비 : 원천데이터 정의 준비

- 데이터 정의, 데이터 획듭방안 수립, 정형 데이터 스토어 설계, 비정형 데이터 스토어 설계, 데이터 수집 및 저장

(3) 데이터 분석 : 원천데이터를 분석용 데이터 셋으로 편성, 분석기법 및 알고리즘 이용

- 비즈니스 룰 확인, 분석용 데이터 셋 준비, 데이터 분석, 시각화, 모델링, 분할, 확인 및 추출

(4) 시스템 구현

- 시스템 분석 및 설계, 시스템 구현

(5) 평가 및 전개

- 모델 발전 계획, 프로젝트 성과발표

반응형