DB 96

맵리듀스(MapReduce)

1. 개념 - 구글에서 분산 병렬 컴퓨팅을 이용해 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프래임워크 - map mask 하나가 1개의 블록을 대상으로 연산을 수행 - 사용자가 지정한 개수에 해당되는 reduce task들이 받아와서 정렬 및 필터링 작업 후 최종 결과물 만들어냄 ​ 2. 폴트톨러런스 - 각 프로세스에서는 master에게 task진행 상태를 주기적으로 보낸다

DB/[이론] 2020.06.26

분석 프로젝트 관리 5가지 주요영역

1. datasize 분서하고자 하는 데이터 양 ​ 2. data complexity 데이터에 잘 적용될 수 있는 분석모델 선정 ​ 3. speed 분석결과 도출 시 이를 활용하는 시나리오 측면에서 속도 고려, 분석 모델의 성능 및 속도 고려한 개발 ​ 4. analytic complextiy 복잡도와 정확도는 트레이드오프관계, 해석이 가능하면서도 정확도 올릴 수 있는 최적 모델 찾기 ​ 5. accuracy&precision accuracy : 정확도, precision : 일관성(탄착군)

DB/[이론] 2020.06.25

분산데이터 저장기술 (구글파일시스템, 하둡분산파일시스템, 러스터)

구글파일시스템(GFS) 1. 정의: 파일을 고정된 크기의 청크들로 나누고 각 chunk에 대한 여러개의 복사본과 chunk를 청크서버에 분산 저장 2. 해시테이블 주로 사용, 효율적 메타데이터 처리 3. 마스터에 의해 생성, 삭제가능, 식별자로 유일하게 구분 4. 서버고장 빈번(저가형 서버) 5. 낮은 응답지연시간 보다 높은처리율이 중요 6. 구성요소 (1) 클라이언트 : 파일 읽기쓰기 동작 요청 어플리케이션 (2) 마스터 : 단일마스터구조, 모든메타데이터를 메모리에서 관리 (3) 청크서버 : 청크를 저장, 관리하며 클라이언트로 부터 chunk 입출력 요청 7. 동작 : 클라이언트는 마스터로 부터 chunk서버의 위치와 핸들을 받아온 뒤 직접 파일데이터에 요청 ​ 하둡 분산파일 시스템(HDFS) 1. 아..

DB/[이론] 2020.06.25

[ADP] 하둡(Hadoop)

하둡이란 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일시스템인 HDFS를 핵심 구성요소로 가지는 플랫폼 기술. 여러 대의 컴퓨터를 마치 하나의 시스템인 것처럼 묶어 분산환경에서 빅데이터를 저장 및 처리 할 수 있도록 하는 자바 기반의 오픈소스 프레임워크 특징1. 비공유분산아키텍처 - 여러대의 서버(제한이 없음)로 클러스터를 만듦- 서버를 추가하면 연산기능과 저장 기능이 서버의 대수에 비례하여 증가2. 고장감내성- 저장되는 데이터가 3중복제, 데이터의 유실을 방지할 수 있음- 장애 발생시 특정 태스크만 다른 서버에서 재실행 가능3. 루씬의 서브프로젝트로 시작. 각종 개발자 커뮤니티에서 활발히 참여하며 크게 개선4. 맵+리듀스 2개의 함수만 구현하며 동작 에코시스템1. 워크플로관리- Zo..

DB/[이론] 2020.06.25