전체 702

군집분석

1. 계층적군집 : 가까운 개체끼리 묶거냐 멀리 떨어진 개체를 분리 (1) 합병(병합형)형 : 가장 가까운 두개를 하나의 그룹으로 묶는것을 반복하여 하나의 군집만듦 - 최단연결법 : 묶인것들중 가장 짧은것을 해당그룹의 길이로 - 평균연결법 - 와드연결법 - 중심연결법 - 완전연결법 (2) 분할군집(partitonal clustering) : 전체를 두개의 군집으로 분할하는 것을 시작으로 계속 나누어감 - 다이아나 2. 분할적(최적분화, partitional clustering) : 다변량 자료의 산포를 나타내는 여러 측도를 이용하여 최적화하여 군집 (1) k 클러스터링 - k-means - k-median... (2) 밀도기반 - DBSCAN - OPTICS - DENCLUE (3) 격자기반 - STIN..

[ERD] 엔티티

엔티티란 - 실 세계에 존재하는 의미있는 하나의 정보 단위 - ex) 회원(이름, 성별, 아이디, 주소, 전화번호) 특징 (1) 식별자 : 유일한 식별자가 있어야 한다 (2) 인스턴스 집합 : 2개 이상의 인스턴스가 있어야 한다 (3) 속성 : 반드시 속성을 가지고 있어야 한다 (4) 관계 : 다른 엔티티와 최소한 한개 이상의 관계가 있어야 한다 (5) 업무 : 업무에서 관리되어야 하는 집합이다. ​ 종류 1. 유무형에 따라 - 유형 엔티티 : 업무에서 도출되며 지속적으로 사용되는 엔티티 (EX: 고객, 강사, 사원...) - 개념 엔티티 : 물리적 형태가 없는 엔티티 (EX: 거래소 종목, 코스닥 종목, 보험상품) - 사건 엔티티 : 비즈니스 프로세스를 실행하면 생성되는 엔티티 (EX: 주문,체결,취소..

DB/[이론] 2020.06.26

모수검정과 비모수검정

1. 비모수검정 (1) 정의 : 자료가 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정을 실시하는 방법 (2) 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정 실시 (3) 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우. (4) 비모수 검정의 예 - 부호검정 - 윌콕슨의 순위합 검정 - 만 위트니의 u검정 - 런 검정 - 스피어만의 순위상관계수 스피어만 - 서열척도 피어슨 - 등간척도 ​ 2. 모수적 검정 (1) 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에 검정 통계량과 분포를 유도해 검정 실시 ​

맵리듀스(MapReduce)

1. 개념 - 구글에서 분산 병렬 컴퓨팅을 이용해 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프래임워크 - map mask 하나가 1개의 블록을 대상으로 연산을 수행 - 사용자가 지정한 개수에 해당되는 reduce task들이 받아와서 정렬 및 필터링 작업 후 최종 결과물 만들어냄 ​ 2. 폴트톨러런스 - 각 프로세스에서는 master에게 task진행 상태를 주기적으로 보낸다

DB/[이론] 2020.06.26

시각화 플랫폼, 시각화 라이브러리, 인포그래픽스

1. 시각화 플랫폼 : 다차원적인 데이터 분석 결과를 시각화하고 그 결과를 보고서로 생성하는 기능 지원 (1) 종류 : tableau, Gephi, visual insight, visual intelligence (2) 플렛폼 설치 구축 필요, 플렛폼에서 제공하능 기능, 명령어를 실행해 시각화. (3) 지식 시각화 관점에서 데이터 시가화 기능 지원 (다양한 관점에서 인사이트 얻을 수 있도록) ​ 2. 시각화 라이브러리 (1) 종류 : tangle, google Cahrt, jQuery Visualize (2) 라이브러리 설치 후 라이브러리가 제공하는 api로 코드 작성, 시각화 ​ 3. 인포그래픽스 (1) 종류 : icharts, visualize free, visual.ly (2) 웹서비스 형태로 제공..

[ADP] EAI(ESB)

개념 및 특징 1. EAI : Enterprise Application Integration 2. 비지니스 프로세스를 중심으로 기업 내 각종 어플리케이션간 상호연동이 가능하도록 통합하는 솔루션, 실시간 , 근십실시간 처리 3. 프로세스를 매세지 차원에서 통합관리 4. 실시간, 근접 실시간 5. 허브 앤 스포크 방식 : hub (다수 정보 시스템의 데이터를 중앙의 hub가 연계), spoke (각 연결의 대상이 되는 노드들)​ point to point : 기존의 연계방식, 시스템의 데이터를 중앙의 복잡성발생, 관리비용상승, 유지 보수성 감소 구성 요소 1. 어뎁터 : 각 정보 eai허브간 연결성 확보 2. 버스 : 어댑터를 매개로 연결된 각 정보 시스템들 간의 데이터 연동 경로 3. 브로커 : 데이터 연..

분석 프로젝트 관리 5가지 주요영역

1. datasize 분서하고자 하는 데이터 양 ​ 2. data complexity 데이터에 잘 적용될 수 있는 분석모델 선정 ​ 3. speed 분석결과 도출 시 이를 활용하는 시나리오 측면에서 속도 고려, 분석 모델의 성능 및 속도 고려한 개발 ​ 4. analytic complextiy 복잡도와 정확도는 트레이드오프관계, 해석이 가능하면서도 정확도 올릴 수 있는 최적 모델 찾기 ​ 5. accuracy&precision accuracy : 정확도, precision : 일관성(탄착군)

DB/[이론] 2020.06.25

분산데이터 저장기술 (구글파일시스템, 하둡분산파일시스템, 러스터)

구글파일시스템(GFS) 1. 정의: 파일을 고정된 크기의 청크들로 나누고 각 chunk에 대한 여러개의 복사본과 chunk를 청크서버에 분산 저장 2. 해시테이블 주로 사용, 효율적 메타데이터 처리 3. 마스터에 의해 생성, 삭제가능, 식별자로 유일하게 구분 4. 서버고장 빈번(저가형 서버) 5. 낮은 응답지연시간 보다 높은처리율이 중요 6. 구성요소 (1) 클라이언트 : 파일 읽기쓰기 동작 요청 어플리케이션 (2) 마스터 : 단일마스터구조, 모든메타데이터를 메모리에서 관리 (3) 청크서버 : 청크를 저장, 관리하며 클라이언트로 부터 chunk 입출력 요청 7. 동작 : 클라이언트는 마스터로 부터 chunk서버의 위치와 핸들을 받아온 뒤 직접 파일데이터에 요청 ​ 하둡 분산파일 시스템(HDFS) 1. 아..

DB/[이론] 2020.06.25

[ADP] 하둡(Hadoop)

하둡이란 대규모 분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일시스템인 HDFS를 핵심 구성요소로 가지는 플랫폼 기술. 여러 대의 컴퓨터를 마치 하나의 시스템인 것처럼 묶어 분산환경에서 빅데이터를 저장 및 처리 할 수 있도록 하는 자바 기반의 오픈소스 프레임워크 특징1. 비공유분산아키텍처 - 여러대의 서버(제한이 없음)로 클러스터를 만듦- 서버를 추가하면 연산기능과 저장 기능이 서버의 대수에 비례하여 증가2. 고장감내성- 저장되는 데이터가 3중복제, 데이터의 유실을 방지할 수 있음- 장애 발생시 특정 태스크만 다른 서버에서 재실행 가능3. 루씬의 서브프로젝트로 시작. 각종 개발자 커뮤니티에서 활발히 참여하며 크게 개선4. 맵+리듀스 2개의 함수만 구현하며 동작 에코시스템1. 워크플로관리- Zo..

DB/[이론] 2020.06.25

[빅데이터분석기사, adsp] KDD , crisp-dm, 빅데이터 분석방법론

KDD 1. 데이터셋 선택(selection) : 도메인 이해, 목표설정 2. 데이터 전처리(preprocessing) : 잡음, 이상치, 결측치 처리 3. 데이터 변환(transformation) : 변수선택 차원축소 4. 데이터마이닝(data mining) : 분석목적에 맞는 데이터마이닝기법 선택, 적절한 알고리즘 적용 5. 해석과 평가(interpretation, evaluation) : 일치성확인 및 평가 CRISP-DM 1. 업무이해 : 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해, 데이터 분석을 위한 문제정의 - 업무목적 파악, 상황파악, 목표설정, 계획수립 2. 데이터 이해 : 분석을 위한 데이터를 수집하고 데이터 속성을 이해, 인사이트 발견 - 초기데이터 수집, 데이터 기술 분석, ..

Data WareHouse

정의 ods를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소 특징 1. 주제중심성 : end user도 이해쉬운 형태 2. 통합성 : 여러데이터 통합본 3. 영속성, 비휘발성 : 읽기전용, 삭제되지 않음 4. 시계열성 모델링 기법 1. 스타 스키마 - 조인스키마라고도 하며 가장 단순 - 사실 테이블 : 제 3정규형으로 모델링, 차원테이블 : 제 2정규형 - 장점 : 이해쉽고 쿼리작성 용이 - 단점 : 비정규화로 인한 중복 2. 스노우 플레이크 스키마 - 스타 스키마에서 차원테이블도 제 3 정규형으로 정규화한 형태 - 중복제거되어 적재시 시간 단축되나 복잡성 증가로 쿼리 난이도 상승 - 장점 : 중복제거, 적재시 시간 단축 - 단점 : 복잡성 증가, 조인 테이블 개..

검정 종류

1. t-검정 (1) 일표본 t-검정 정의 : 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할 때 사용 ex) 과수원에서 생산되는 사과의 평균 무게가 200g이라고 할 때, 실제로 과수원에서 생산되는 전체 사과의 평균 무게가 200g인지 알고 싶은 경우 수행 - 정규분포를 따라야함 ​ (2) 대응표본 t-검정 정의: 단일모집단에 대해 두번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때. ex) 수면영양제 복용효과를 조사하기 위해 영양제 복용 전과 후의 평균 수면시간에 차이가 있는지 비교. - 정규분포를 따라야함 ​ (3) 독립표본 t-검정 정의 : 두개의 독립된 모집단의 평균을 비교 ex) 성별에 따른 출근시간에 차이를 확인. (독립변수:성별, ..

분석종류

1. 분류분석 (1) 나이브베이즈 (2) K-NN(최근접 이웃알고리즘) : 범주화된 데이터set에 새로운 데이터를 추가한 후 가장 근접한 k개의 데이터셋의 다수범주에 새로운 데이터도 편입시키기는것 - 데이터 내에 이상치가 존재하면 성능에 큰 영향을 받는다 (3) svm : 어떠한 분류기를 이용하여 마진이 가장 크게 데이터를 분류하는 방법 - 모델에 대한 해석이 어렵다 - 속도가 느리며 메모리할당 크다 ​ 2. 군집분석 (1) 재표본 추출 - k-fold : 데이터를 k개 집단으로 나눈 뒤 (k-1:1=학습:검증) 씩 총 k번에 걸쳐서 학습을 진행 - 붓스트랩 : 모집단에서 추출한 표본샘플에 대해사 다시 재표본을 여러번 추출하여 모델을 평가(랜덤 복원추출) (2) 군집화 기법 - 밀도기반 군집분석 : 어느..

판다스(pandas) 데이터프레임(dataframe) 관련함수

여기에 아래 링크에 다시 정리했습니다! sosoeasy.tistory.com/464 데이터 전처리 관련 함수 * 넘파이는 np, 판다스는 pd import numpy as np import pandas as pd 결측치 함수 설명 리턴값 비고 np.isnan(data) data값이 nana값이면 True를 반환 True or False sosoeasy.tistory.com/188 데이터변환 (data.. sosoeasy.tistory.com 0. 파일 불러오기 csv=pd.read_csv("NYPD_Complaint_Data_Current_YTD.csv") 1. 데이터 추가하기 df=pd.DataFrame(columns=["season","time","crime_code","street"]) # igno..