반응형
ETL
1. 단어뜻
ETL : extraction, Transformation, Loading (데이터의 이동 및 변환)
2. 과정
Operational Data Store(ODS) => Data WareHouse(DW) => Data Mart
3. 정의
데이터에 대한 추가 작업을 위해 다양한 데이터 원천(source)들로 부터 데이터를 추출, 통합한 데이터베이스. 실시간, 실시간 근접, 원자성을 지닌 하위수준 데이터 저장을 위해 설계
4. 단계
(1) 인터페이스 : 다양한 데이터 원천들로부터 데이터를 획득하는 단계. 실시간 근접실시간, OLAP질의를 지원하기 위해 실시간 데이터 복제 기술 사용
(2) 데이터 스태이징 : 트래잭션 데이터들이 추출되어 하나 이상의 스태이징 테이블에 저장되는 단계
(3) 데이터 프로파일링 : 범위,도메인,유일성 확보 등의 규칙을 기준으로 데이터 품질 점검.
(4) 데이터 클랜징 : 오류 데이터들을 수정
(5) 데이터 인티그레이션 : 수정 완료한 데이터를 ods내의 단일 통합 테이블에 적재
(6) 익스포트 단계 : 데이터 웨어하우스, 마트에 익스포트 테이블 적재
ODS, DW 비교
비교 | ODS | DW |
데이터내용 | 현재 또는 최신데이터 | 다양한 구조 |
양 | 소규모 | 대규모 |
갱신 | 지속적 갱신 | 축적 보관 |
기술 | DW처리, 모든기능 사용 | 단순 적재, 접근 |
데이터레이크, DW비교
비교 | 데이터레이크 | DW |
스키마 | schema-on-read | schema-on-write |
엑세스 방법 | sql과 유사한시스템, 개발자가 만든시스템 (NoSQL,HBASE,saprk) |
표준화된 sql, bi도구로 엑세스 |
데이터 | raw 데이터 | 정제된 데이터 |
비용 | 저렴한 비용으로 가동 | 저장, 처리에 높은 비용 |
특징 | 데이터 접근성 좋음 | 데이터접근성 제한적, 정제되고 안전한 데이터, 높은 동시성, 통합성 |
반응형