데이터분석/[ 이론 ] 34

[빅데이터분석기사,adsp] 데이터분석 거버넌스

개요 전사차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는것. 거버넌스 3대 구성요소 1. 원칙 : 데이터를 유지, 관리하기위한 지침, 가이드 2. 조직 : 데이터를 관리할 조직의 역할, 책임 3. 운영 : 데이터관리를 위한 활동과 체계 거버넌스 체계 1. 데이터 표준화 : 명명규칙, 메타데이터, 데이터사전 2. 데이터관리체계 : 데이터관리원칙 수립 3. 데이터저장소관리 : 메타 및 표준데이터 관리를 위한 전사차원의 저장소 구성 4. 표준화활동 : 거버넌스 체계 구축 후 표준준수여부 점검 분석준비도,성숙도, 결과진단 1. 분석준비도 (1) 분석인력 및 조직 (2) 분석문화 (3) 분석업무파악 (4) it인프..

[빅데이터분석기사,adsp] 빅데이터의 비유 4가지

1. 산업혁명의 석탄과 철 : 제조업, 서비스 분야 생산성 급증 2. 21세기 원유 : 필요한 정보를 제공 3. 생물학의 현미경 : 현미경이 생물학 발전에 끼쳤던 영향만큼 다양한 영항 끼치고 새로운 것을 발견하게함 (ex : 구글 ngram viewer) 4. 플렛폼 : 공동활용의 목적으로 구축된 유무형의 구조물 (ex: 페이스북, 카카오)

[ADP] 빅데이터 시대 위기 요인과 해결 방안

1. 사생활침해 : 데이터로 인해 사생활 침해당함 => '사용자'가 동의하는 것이 아니라 '데이터 이용자'가 책임지는 형태로 변화해야함. 2. 책임원칙훼손 : 아직 저지르지 않은 범죄를 예측하여 처벌하면 안된다(영화 마이너리티 리포트). => 결과기반 책임원칙을 고수 해야한다. 3. 데이터 오용 : 데이터의 오용이 일어난다 => 알고리즘 접근을 허용해야 한다. (알고리즈미스트 : 알고리즘으로 부터 부당한 피해를 받지 않도록 사람들을 구제해 주는 직업)

[ADP] EAI(ESB)

개념 및 특징 1. EAI : Enterprise Application Integration 2. 비지니스 프로세스를 중심으로 기업 내 각종 어플리케이션간 상호연동이 가능하도록 통합하는 솔루션, 실시간 , 근십실시간 처리 3. 프로세스를 매세지 차원에서 통합관리 4. 실시간, 근접 실시간 5. 허브 앤 스포크 방식 : hub (다수 정보 시스템의 데이터를 중앙의 hub가 연계), spoke (각 연결의 대상이 되는 노드들)​ point to point : 기존의 연계방식, 시스템의 데이터를 중앙의 복잡성발생, 관리비용상승, 유지 보수성 감소 구성 요소 1. 어뎁터 : 각 정보 eai허브간 연결성 확보 2. 버스 : 어댑터를 매개로 연결된 각 정보 시스템들 간의 데이터 연동 경로 3. 브로커 : 데이터 연..

[빅데이터분석기사, adsp] KDD , crisp-dm, 빅데이터 분석방법론

KDD 1. 데이터셋 선택(selection) : 도메인 이해, 목표설정 2. 데이터 전처리(preprocessing) : 잡음, 이상치, 결측치 처리 3. 데이터 변환(transformation) : 변수선택 차원축소 4. 데이터마이닝(data mining) : 분석목적에 맞는 데이터마이닝기법 선택, 적절한 알고리즘 적용 5. 해석과 평가(interpretation, evaluation) : 일치성확인 및 평가 CRISP-DM 1. 업무이해 : 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해, 데이터 분석을 위한 문제정의 - 업무목적 파악, 상황파악, 목표설정, 계획수립 2. 데이터 이해 : 분석을 위한 데이터를 수집하고 데이터 속성을 이해, 인사이트 발견 - 초기데이터 수집, 데이터 기술 분석, ..

Data WareHouse

정의 ods를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소 특징 1. 주제중심성 : end user도 이해쉬운 형태 2. 통합성 : 여러데이터 통합본 3. 영속성, 비휘발성 : 읽기전용, 삭제되지 않음 4. 시계열성 모델링 기법 1. 스타 스키마 - 조인스키마라고도 하며 가장 단순 - 사실 테이블 : 제 3정규형으로 모델링, 차원테이블 : 제 2정규형 - 장점 : 이해쉽고 쿼리작성 용이 - 단점 : 비정규화로 인한 중복 2. 스노우 플레이크 스키마 - 스타 스키마에서 차원테이블도 제 3 정규형으로 정규화한 형태 - 중복제거되어 적재시 시간 단축되나 복잡성 증가로 쿼리 난이도 상승 - 장점 : 중복제거, 적재시 시간 단축 - 단점 : 복잡성 증가, 조인 테이블 개..

분석종류

1. 분류분석 (1) 나이브베이즈 (2) K-NN(최근접 이웃알고리즘) : 범주화된 데이터set에 새로운 데이터를 추가한 후 가장 근접한 k개의 데이터셋의 다수범주에 새로운 데이터도 편입시키기는것 - 데이터 내에 이상치가 존재하면 성능에 큰 영향을 받는다 (3) svm : 어떠한 분류기를 이용하여 마진이 가장 크게 데이터를 분류하는 방법 - 모델에 대한 해석이 어렵다 - 속도가 느리며 메모리할당 크다 ​ 2. 군집분석 (1) 재표본 추출 - k-fold : 데이터를 k개 집단으로 나눈 뒤 (k-1:1=학습:검증) 씩 총 k번에 걸쳐서 학습을 진행 - 붓스트랩 : 모집단에서 추출한 표본샘플에 대해사 다시 재표본을 여러번 추출하여 모델을 평가(랜덤 복원추출) (2) 군집화 기법 - 밀도기반 군집분석 : 어느..