DB/[이론] 34

데이터 모델링의 의미 및 주요특징

데이터 모델링의 의미 복잡한 현실세계에 존재하는 데이터(사람 사물 현상)들을 단순화하여 일정한 표기법으로 컴퓨터 세계의 데이터베이스로 옮기는 작업 데이터 모델링의 특징 - 추상화 : 현실세계를 간략하게 표현 - 단순화 : 누구나 쉽게 이해할 수 있도록 표현 - 명확성 : 명확하게 의미해석 필요 데이터 모델링의 단계 1. 개념적 모델링 (1) 현실세계에서 나타나는 정보 구조를 추상적으로 개념화 하는것 (2) 업무 전체에 대해서 데이터 모델링 수행 (3) 복잡하게 표현하지 않고 중요한 부분을 위주로 (4) 추상화 수준이 높고 포괄적인 수준 2. 논리적 모델링 (1) 사람의 이해를 위한 개념적 설계의결과를 데이터베이스 저장에 용이한 논리적 구조로 변환하는것 (2) 식별자 도출, 모든 릴레이션 정의, 속성과 키..

DB/[이론] 2022.02.14

[빅데이터분석기사] 부문별 데이터베이스 발전과정

1. 제조부문 (1) 실시간 기업(RTE)이 대표적 화두 (2) 제조부문 ERP(전사자원관리, Enterprise Resource Planning) 시스템 도입과 dw, crm, bi등 기술 적용 2. 유통부문 (1) KMS(Knowledge Management System)를 위한 별도의 백업시스템 3. 물류부문 (1) CALS(commerce at light speed) : 제품생산, 설계, 개발, 유통에 이르기 까지 제품라이프사이클 전반의 데이터를 통합 (2) port-MIS : 항만운영정보시스템 (3) KROIS : 철도운영정보시스템 4. 지리부문 (1) GIS(Geograpic Information System) : 지리정보시스템 (2) LBS(Location-Based System) : 위치정..

DB/[이론] 2021.04.14

데이터베이스 클러스터

정의 하나의 DB를 여러개의 서버상 구축(데이터 파티셔닝 : DB를 여러부분으로 분할) 데이터 통합시 성능, 가용성위해 DB차원의 파티셔닝 클러스터링 사용 장점 1. 병렬처리 : 빠른 데이터처리 검색 2. 고가용성 : 파티션에 장애생겨도 중단안됨 3. 선응향상 : 선형적 성능향상 리스크 공유 관점에서 구분 1. 무공유 (1) 완전히 분리된 데이터의 서브집합에 대한 소유권 갖음 (2) 각 데이터는 소유권 갖는 인스턴스가 처리 (3) 대부분 DB클러스터가 무공유 방식 (4) 장점 : 노드확장 제한없음 (5) 단점 : 별도의 폴트톨로런스 필요 2. 공유 (1) 각인스턴스는 모든 데이터에 접근 가능 (2) 데이터공유시 sah네트워크 필요 (3) 장점 : 폴트톨로런스 제공 (4) 단점 : 클러스터 커지면 병목현상..

DB/[이론] 2021.03.28

[ADP] CDC(Change Data Capture)

개념 1. DB내 데이터에 대한 변경 식별, 후속처리 자동화 2. 실시간 또는 근접 실시간 데이터 통합을 기반으로 DW구축 3. 스토리지 ~ 어플리케이션 등 다양한 계층, 다양한 기술로 구현 구현방법 1. time stamp on row : 변경이 반드시 인지되어야 하는 테이블 내 마지막 변경 시점을 기록하는 타임스템프 칼럼두고 변경 식별 2. version number on row : 변경이 인지되어야 하는 테이블 해당 레코드의 버전기록 칼럼을 두고 식별 3. status on rows : 1, 2의 보안용도. 데이터변경여부를 T/F로 저장 4. Time/version/status on rows : 1, 2, 3 모두 사용 5. triggers on tables : 트리거 이용하여 변경, 배포 6. e..

DB/[이론] 2021.03.22

[ADP] 분야별 데이터베이스

1. ERP : 전사적 자원관리. 인사, 재무 생산 등의 경영자원을 하나의 통합 시스템으로 구축 2. BI : 기업의 데이터를 정리해서 의사결정에 활용하는 프로세스 3. RTE : 실시간 기업의 새로운 경영시스템, 회사 전부분의 정보를 하나로 통합 4. EAI : 기업내 상호 연관된 모든 어플리케이션 연동 (중앙집중관리) 5. EAW : DW를 전사적 차원으로 확장 6. KMS : 지식관리시스템(기업경영을 지식이라는 관점에서 조명) 7. RFID : 주파수를 이용해 식별

DB/[이론] 2021.03.19

[ADP] OLTP와 OLAP

OLTP - 호스트 컴퓨터와 온라인으로 접속된 여러 단말기 간의 처리 형태. - 호스트 컴퓨터가 데이터베이스를 엑세스하고 바로 처리결과 돌려줌. - 트랜젝션 중심 OLAP - 비즈니스 관점에서 쉽고 빠르게 데이터에 접근해서 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술 - 중간 매개자나 매개체 없이 대화식으로 정보를 분석하고 의사결정에 활용. 다차원 데이터 대화식 분석 - OLAP의 탐색기법

DB/[이론] 2021.03.16

키,식별자(key) #기본키#대체키#외래키#슈퍼키

후보키 유일성과 최소성을 만족하는 키 * 유일성 : 하나의 키값으로 하나의 튜플만을 식별하는 것 * 최소성 : 유일성을 만족시키는 꼭 필요한 속성만으로 구성될것 ex) 학반+번호, 주민번호+이름은 모두 유일성을 만족한다. 하지만 (주민번호+이름)는 이름 속성을 제외하더라도(주민번호만으로) 유일성을 만족하기 때문에 최소성에 위배된다고 볼 수 있다. 1. 주키,기본키(primary key) : 후보키중 선택한 키 * 개체 무결성 : 주키는 NULL값이나 중복된 값을 가질 수 없다 2. 대체키(alternate key) : 후보키중 주키를 제외한 나머지 키 ​ 슈퍼키 - 유일성만 만족하는 키(최소성은 만족하지 않는다) ​ 외래키 관계를 맺고잇는 두 릴레이션 A,B에 대하여 A 릴레이션의 주키를 참조하는 B 릴..

DB/[이론] 2020.07.07

분산 데이터베이스

분산데이터 베이스란? 물리적으로 떨어진 DB에 네트워크연결. 단일이미지를 모두에게 보여주고 분산작업 수행가능 투명성 : 사용자가 데이터베이스가 분산되어있는지 여부 인식 못함 1. 분할투명성 : 분할됨을 알지못함 2. 위치투명성 : 저장장소 알지못함 3. 지역 사상 투명성 : 지역 사상 보장, 무관한 이름 사용가능 4. 중복 투명성 : 중복되어 존재해도 일관성 유지 5. 장애 투명성 : 각 지역의 통신망 이상발생시에도 일관성 유지 6. 병행 투명성 : 여러 고객의 응용 프로그램이 동시에 분산 데이터 베이스에 대한 트랜잭션 수행하여도 이상x 장단점 1. 장점 : 신뢰성 가용성 높음(한 곳에서 접근이 불가능해도 다른 곳에서 가능), 빠른응답, 용량확장 용이 2. 단점 : 관리,통제 어려움, 보안관리 어려움, ..

DB/[이론] 2020.06.26

[ERD] 엔티티

엔티티란 - 실 세계에 존재하는 의미있는 하나의 정보 단위 - ex) 회원(이름, 성별, 아이디, 주소, 전화번호) 특징 (1) 식별자 : 유일한 식별자가 있어야 한다 (2) 인스턴스 집합 : 2개 이상의 인스턴스가 있어야 한다 (3) 속성 : 반드시 속성을 가지고 있어야 한다 (4) 관계 : 다른 엔티티와 최소한 한개 이상의 관계가 있어야 한다 (5) 업무 : 업무에서 관리되어야 하는 집합이다. ​ 종류 1. 유무형에 따라 - 유형 엔티티 : 업무에서 도출되며 지속적으로 사용되는 엔티티 (EX: 고객, 강사, 사원...) - 개념 엔티티 : 물리적 형태가 없는 엔티티 (EX: 거래소 종목, 코스닥 종목, 보험상품) - 사건 엔티티 : 비즈니스 프로세스를 실행하면 생성되는 엔티티 (EX: 주문,체결,취소..

DB/[이론] 2020.06.26

맵리듀스(MapReduce)

1. 개념 - 구글에서 분산 병렬 컴퓨팅을 이용해 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프래임워크 - map mask 하나가 1개의 블록을 대상으로 연산을 수행 - 사용자가 지정한 개수에 해당되는 reduce task들이 받아와서 정렬 및 필터링 작업 후 최종 결과물 만들어냄 ​ 2. 폴트톨러런스 - 각 프로세스에서는 master에게 task진행 상태를 주기적으로 보낸다

DB/[이론] 2020.06.26

분석 프로젝트 관리 5가지 주요영역

1. datasize 분서하고자 하는 데이터 양 ​ 2. data complexity 데이터에 잘 적용될 수 있는 분석모델 선정 ​ 3. speed 분석결과 도출 시 이를 활용하는 시나리오 측면에서 속도 고려, 분석 모델의 성능 및 속도 고려한 개발 ​ 4. analytic complextiy 복잡도와 정확도는 트레이드오프관계, 해석이 가능하면서도 정확도 올릴 수 있는 최적 모델 찾기 ​ 5. accuracy&precision accuracy : 정확도, precision : 일관성(탄착군)

DB/[이론] 2020.06.25

분산데이터 저장기술 (구글파일시스템, 하둡분산파일시스템, 러스터)

구글파일시스템(GFS) 1. 정의: 파일을 고정된 크기의 청크들로 나누고 각 chunk에 대한 여러개의 복사본과 chunk를 청크서버에 분산 저장 2. 해시테이블 주로 사용, 효율적 메타데이터 처리 3. 마스터에 의해 생성, 삭제가능, 식별자로 유일하게 구분 4. 서버고장 빈번(저가형 서버) 5. 낮은 응답지연시간 보다 높은처리율이 중요 6. 구성요소 (1) 클라이언트 : 파일 읽기쓰기 동작 요청 어플리케이션 (2) 마스터 : 단일마스터구조, 모든메타데이터를 메모리에서 관리 (3) 청크서버 : 청크를 저장, 관리하며 클라이언트로 부터 chunk 입출력 요청 7. 동작 : 클라이언트는 마스터로 부터 chunk서버의 위치와 핸들을 받아온 뒤 직접 파일데이터에 요청 ​ 하둡 분산파일 시스템(HDFS) 1. 아..

DB/[이론] 2020.06.25

[ADP] 하둡(Hadoop)

하둡이란 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일시스템인 HDFS를 핵심 구성요소로 가지는 플랫폼 기술. 여러 대의 컴퓨터를 마치 하나의 시스템인 것처럼 묶어 분산환경에서 빅데이터를 저장 및 처리 할 수 있도록 하는 자바 기반의 오픈소스 프레임워크 특징1. 비공유분산아키텍처 - 여러대의 서버(제한이 없음)로 클러스터를 만듦- 서버를 추가하면 연산기능과 저장 기능이 서버의 대수에 비례하여 증가2. 고장감내성- 저장되는 데이터가 3중복제, 데이터의 유실을 방지할 수 있음- 장애 발생시 특정 태스크만 다른 서버에서 재실행 가능3. 루씬의 서브프로젝트로 시작. 각종 개발자 커뮤니티에서 활발히 참여하며 크게 개선4. 맵+리듀스 2개의 함수만 구현하며 동작 에코시스템1. 워크플로관리- Zo..

DB/[이론] 2020.06.25