DB 102

키,식별자(key) #기본키#대체키#외래키#슈퍼키

후보키 유일성과 최소성을 만족하는 키 * 유일성 : 하나의 키값으로 하나의 튜플만을 식별하는 것 * 최소성 : 유일성을 만족시키는 꼭 필요한 속성만으로 구성될것 ex) 학반+번호, 주민번호+이름은 모두 유일성을 만족한다. 하지만 (주민번호+이름)는 이름 속성을 제외하더라도(주민번호만으로) 유일성을 만족하기 때문에 최소성에 위배된다고 볼 수 있다. 1. 주키,기본키(primary key) : 후보키중 선택한 키 * 개체 무결성 : 주키는 NULL값이나 중복된 값을 가질 수 없다 2. 대체키(alternate key) : 후보키중 주키를 제외한 나머지 키 ​ 슈퍼키 - 유일성만 만족하는 키(최소성은 만족하지 않는다) ​ 외래키 관계를 맺고잇는 두 릴레이션 A,B에 대하여 A 릴레이션의 주키를 참조하는 B 릴..

DB/[이론] 2020.07.07

분산 데이터베이스

분산데이터 베이스란? 물리적으로 떨어진 DB에 네트워크연결. 단일이미지를 모두에게 보여주고 분산작업 수행가능 투명성 : 사용자가 데이터베이스가 분산되어있는지 여부 인식 못함 1. 분할투명성 : 분할됨을 알지못함 2. 위치투명성 : 저장장소 알지못함 3. 지역 사상 투명성 : 지역 사상 보장, 무관한 이름 사용가능 4. 중복 투명성 : 중복되어 존재해도 일관성 유지 5. 장애 투명성 : 각 지역의 통신망 이상발생시에도 일관성 유지 6. 병행 투명성 : 여러 고객의 응용 프로그램이 동시에 분산 데이터 베이스에 대한 트랜잭션 수행하여도 이상x 장단점 1. 장점 : 신뢰성 가용성 높음(한 곳에서 접근이 불가능해도 다른 곳에서 가능), 빠른응답, 용량확장 용이 2. 단점 : 관리,통제 어려움, 보안관리 어려움, ..

DB/[이론] 2020.06.26

[ERD] 엔티티

엔티티란 - 실 세계에 존재하는 의미있는 하나의 정보 단위 - ex) 회원(이름, 성별, 아이디, 주소, 전화번호) 특징 (1) 식별자 : 유일한 식별자가 있어야 한다 (2) 인스턴스 집합 : 2개 이상의 인스턴스가 있어야 한다 (3) 속성 : 반드시 속성을 가지고 있어야 한다 (4) 관계 : 다른 엔티티와 최소한 한개 이상의 관계가 있어야 한다 (5) 업무 : 업무에서 관리되어야 하는 집합이다. ​ 종류 1. 유무형에 따라 - 유형 엔티티 : 업무에서 도출되며 지속적으로 사용되는 엔티티 (EX: 고객, 강사, 사원...) - 개념 엔티티 : 물리적 형태가 없는 엔티티 (EX: 거래소 종목, 코스닥 종목, 보험상품) - 사건 엔티티 : 비즈니스 프로세스를 실행하면 생성되는 엔티티 (EX: 주문,체결,취소..

DB/[이론] 2020.06.26

맵리듀스(MapReduce)

1. 개념 - 구글에서 분산 병렬 컴퓨팅을 이용해 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프래임워크 - map mask 하나가 1개의 블록을 대상으로 연산을 수행 - 사용자가 지정한 개수에 해당되는 reduce task들이 받아와서 정렬 및 필터링 작업 후 최종 결과물 만들어냄 ​ 2. 폴트톨러런스 - 각 프로세스에서는 master에게 task진행 상태를 주기적으로 보낸다

DB/[이론] 2020.06.26

분석 프로젝트 관리 5가지 주요영역

1. datasize 분서하고자 하는 데이터 양 ​ 2. data complexity 데이터에 잘 적용될 수 있는 분석모델 선정 ​ 3. speed 분석결과 도출 시 이를 활용하는 시나리오 측면에서 속도 고려, 분석 모델의 성능 및 속도 고려한 개발 ​ 4. analytic complextiy 복잡도와 정확도는 트레이드오프관계, 해석이 가능하면서도 정확도 올릴 수 있는 최적 모델 찾기 ​ 5. accuracy&precision accuracy : 정확도, precision : 일관성(탄착군)

DB/[이론] 2020.06.25

분산데이터 저장기술 (구글파일시스템, 하둡분산파일시스템, 러스터)

구글파일시스템(GFS) 1. 정의: 파일을 고정된 크기의 청크들로 나누고 각 chunk에 대한 여러개의 복사본과 chunk를 청크서버에 분산 저장 2. 해시테이블 주로 사용, 효율적 메타데이터 처리 3. 마스터에 의해 생성, 삭제가능, 식별자로 유일하게 구분 4. 서버고장 빈번(저가형 서버) 5. 낮은 응답지연시간 보다 높은처리율이 중요 6. 구성요소 (1) 클라이언트 : 파일 읽기쓰기 동작 요청 어플리케이션 (2) 마스터 : 단일마스터구조, 모든메타데이터를 메모리에서 관리 (3) 청크서버 : 청크를 저장, 관리하며 클라이언트로 부터 chunk 입출력 요청 7. 동작 : 클라이언트는 마스터로 부터 chunk서버의 위치와 핸들을 받아온 뒤 직접 파일데이터에 요청 ​ 하둡 분산파일 시스템(HDFS) 1. 아..

DB/[이론] 2020.06.25

[ADP] 하둡(Hadoop)

하둡이란 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일시스템인 HDFS를 핵심 구성요소로 가지는 플랫폼 기술. 여러 대의 컴퓨터를 마치 하나의 시스템인 것처럼 묶어 분산환경에서 빅데이터를 저장 및 처리 할 수 있도록 하는 자바 기반의 오픈소스 프레임워크 특징1. 비공유분산아키텍처 - 여러대의 서버(제한이 없음)로 클러스터를 만듦- 서버를 추가하면 연산기능과 저장 기능이 서버의 대수에 비례하여 증가2. 고장감내성- 저장되는 데이터가 3중복제, 데이터의 유실을 방지할 수 있음- 장애 발생시 특정 태스크만 다른 서버에서 재실행 가능3. 루씬의 서브프로젝트로 시작. 각종 개발자 커뮤니티에서 활발히 참여하며 크게 개선4. 맵+리듀스 2개의 함수만 구현하며 동작 에코시스템1. 워크플로관리- Zo..

DB/[이론] 2020.06.25