KDD
1. 데이터셋 선택(selection) : 도메인 이해, 목표설정
2. 데이터 전처리(preprocessing) : 잡음, 이상치, 결측치 처리
3. 데이터 변환(transformation) : 변수선택 차원축소
4. 데이터마이닝(data mining) : 분석목적에 맞는 데이터마이닝기법 선택, 적절한 알고리즘 적용
5. 해석과 평가(interpretation, evaluation) : 일치성확인 및 평가
CRISP-DM
1. 업무이해 : 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해, 데이터 분석을 위한 문제정의
- 업무목적 파악, 상황파악, 목표설정, 계획수립
2. 데이터 이해 : 분석을 위한 데이터를 수집하고 데이터 속성을 이해, 인사이트 발견
- 초기데이터 수집, 데이터 기술 분석, 데이터 탐색, 품질확인
3. 데이터 준비 : 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계
- 데이터 셋 선택, 데이터 정제
4. 모델링 : 모델링 기법과 알고리즘을 선택, 최적화
- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
5. 평가 : 프로젝트 목적에 부합하는지 평가
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
6. 전개 : 실업무에 적용, 유지보수 계획
- 프로젝트 리뷰, 전개 계획수립, 종료 보고서 작성
빅데이터 분석 방법론
1. 계층적 프로세스
(1) 단계(phase) : 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
(2) 태스크(task) : 단계를 구성하는 단위활동
(3) 스텝(step) : WBS워크페이지
2. 5단계 방법론
(1) 분석기획 : 비즈니스 도메인과 문제점인식, 분석계획 및 프로젝트 수행계획수립
- 비즈니스 이해, 프로젝트 범위설정, 데이터 분석 프로젝트 정의, 수행 계획 수립, 위험식별, 위험 대응 계획 수립
(2) 데이터 준비 : 원천데이터 정의 준비
- 데이터 정의, 데이터 획듭방안 수립, 정형 데이터 스토어 설계, 비정형 데이터 스토어 설계, 데이터 수집 및 저장
(3) 데이터 분석 : 원천데이터를 분석용 데이터 셋으로 편성, 분석기법 및 알고리즘 이용
- 비즈니스 룰 확인, 분석용 데이터 셋 준비, 데이터 분석, 시각화, 모델링, 분할, 확인 및 추출
(4) 시스템 구현
- 시스템 분석 및 설계, 시스템 구현
(5) 평가 및 전개
- 모델 발전 계획, 프로젝트 성과발표