하둡이란 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일시스템인 HDFS를 핵심 구성요소로 가지는 플랫폼 기술. 여러 대의 컴퓨터를 마치 하나의 시스템인 것처럼 묶어 분산환경에서 빅데이터를 저장 및 처리 할 수 있도록 하는 자바 기반의 오픈소스 프레임워크 특징1. 비공유분산아키텍처 - 여러대의 서버(제한이 없음)로 클러스터를 만듦- 서버를 추가하면 연산기능과 저장 기능이 서버의 대수에 비례하여 증가2. 고장감내성- 저장되는 데이터가 3중복제, 데이터의 유실을 방지할 수 있음- 장애 발생시 특정 태스크만 다른 서버에서 재실행 가능3. 루씬의 서브프로젝트로 시작. 각종 개발자 커뮤니티에서 활발히 참여하며 크게 개선4. 맵+리듀스 2개의 함수만 구현하며 동작 에코시스템1. 워크플로관리- Zo..