DB/[이론]

ETL (Operational Data Store, Data WareHouse, Data Mart)

씩씩한 IT블로그 2022. 3. 11. 13:04
반응형

ETL

1. 단어뜻

ETL : extraction, Transformation, Loading (데이터의 이동 및 변환)

2. 과정

Operational Data Store(ODS) => Data WareHouse(DW) => Data Mart

3. 정의

데이터에 대한 추가 작업을 위해 다양한 데이터 원천(source)들로 부터 데이터를 추출, 통합한 데이터베이스. 실시간, 실시간 근접, 원자성을 지닌 하위수준 데이터 저장을 위해 설계

4. 단계

(1) 인터페이스 : 다양한 데이터 원천들로부터 데이터를 획득하는 단계. 실시간 근접실시간, OLAP질의를 지원하기 위해 실시간 데이터 복제 기술 사용

(2) 데이터 스태이징 : 트래잭션 데이터들이 추출되어 하나 이상의 스태이징 테이블에 저장되는 단계

(3) 데이터 프로파일링 : 범위,도메인,유일성 확보 등의 규칙을 기준으로 데이터 품질 점검.

(4) 데이터 클랜징 : 오류 데이터들을 수정

(5) 데이터 인티그레이션 : 수정 완료한 데이터를 ods내의 단일 통합 테이블에 적재

(6) 익스포트 단계 : 데이터 웨어하우스, 마트에 익스포트 테이블 적재

 

ODS, DW 비교

비교 ODS DW
데이터내용 현재 또는 최신데이터 다양한 구조
소규모 대규모
갱신 지속적 갱신 축적 보관
기술 DW처리, 모든기능 사용 단순 적재, 접근

 

데이터레이크, DW비교

비교 데이터레이크 DW
스키마 schema-on-read schema-on-write
엑세스 방법 sql과 유사한시스템, 개발자가 만든시스템
(NoSQL,HBASE,saprk)
표준화된 sql, bi도구로 엑세스
데이터 raw 데이터 정제된 데이터
비용 저렴한 비용으로 가동 저장, 처리에 높은 비용
특징 데이터 접근성 좋음 데이터접근성 제한적, 정제되고 안전한 데이터, 높은 동시성, 통합성
반응형