분석의 종류 1. Descriptive Analytics : 무엇인지? - clustering, association rule 2. Diagnostic Analytics : 왜그런지? 3. Predictive Analytics : 어떻게 될것인지? - classification, regression, anomaly detection 4. Prescriptive Analytics : 어떻게 할것인지? 데이터분석/[ 이론 ] 2020.06.26
군집분석 1. 계층적군집 : 가까운 개체끼리 묶거냐 멀리 떨어진 개체를 분리 (1) 합병(병합형)형 : 가장 가까운 두개를 하나의 그룹으로 묶는것을 반복하여 하나의 군집만듦 - 최단연결법 : 묶인것들중 가장 짧은것을 해당그룹의 길이로 - 평균연결법 - 와드연결법 - 중심연결법 - 완전연결법 (2) 분할군집(partitonal clustering) : 전체를 두개의 군집으로 분할하는 것을 시작으로 계속 나누어감 - 다이아나 2. 분할적(최적분화, partitional clustering) : 다변량 자료의 산포를 나타내는 여러 측도를 이용하여 최적화하여 군집 (1) k 클러스터링 - k-means - k-median... (2) 밀도기반 - DBSCAN - OPTICS - DENCLUE (3) 격자기반 - STIN.. 데이터분석/분석-비지도학습 2020.06.26
모수검정과 비모수검정 1. 비모수검정 (1) 정의 : 자료가 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정을 실시하는 방법 (2) 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정 실시 (3) 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우. (4) 비모수 검정의 예 - 부호검정 - 윌콕슨의 순위합 검정 - 만 위트니의 u검정 - 런 검정 - 스피어만의 순위상관계수 스피어만 - 서열척도 피어슨 - 등간척도 2. 모수적 검정 (1) 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에 검정 통계량과 분포를 유도해 검정 실시 데이터분석/통계 2020.06.26
오류의 종류 1. 제 1종 오류 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류 => 맞는데 틀렸다고 하는 경우! 2. 제 2종 오류 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류 => 틀렸는데 맞다고 하는 경우! 데이터분석/통계 2020.06.26
시각화 플랫폼, 시각화 라이브러리, 인포그래픽스 1. 시각화 플랫폼 : 다차원적인 데이터 분석 결과를 시각화하고 그 결과를 보고서로 생성하는 기능 지원 (1) 종류 : tableau, Gephi, visual insight, visual intelligence (2) 플렛폼 설치 구축 필요, 플렛폼에서 제공하능 기능, 명령어를 실행해 시각화. (3) 지식 시각화 관점에서 데이터 시가화 기능 지원 (다양한 관점에서 인사이트 얻을 수 있도록) 2. 시각화 라이브러리 (1) 종류 : tangle, google Cahrt, jQuery Visualize (2) 라이브러리 설치 후 라이브러리가 제공하는 api로 코드 작성, 시각화 3. 인포그래픽스 (1) 종류 : icharts, visualize free, visual.ly (2) 웹서비스 형태로 제공.. 데이터분석/시각화 2020.06.26
[ADP] EAI(ESB) 개념 및 특징 1. EAI : Enterprise Application Integration 2. 비지니스 프로세스를 중심으로 기업 내 각종 어플리케이션간 상호연동이 가능하도록 통합하는 솔루션, 실시간 , 근십실시간 처리 3. 프로세스를 매세지 차원에서 통합관리 4. 실시간, 근접 실시간 5. 허브 앤 스포크 방식 : hub (다수 정보 시스템의 데이터를 중앙의 hub가 연계), spoke (각 연결의 대상이 되는 노드들) point to point : 기존의 연계방식, 시스템의 데이터를 중앙의 복잡성발생, 관리비용상승, 유지 보수성 감소 구성 요소 1. 어뎁터 : 각 정보 eai허브간 연결성 확보 2. 버스 : 어댑터를 매개로 연결된 각 정보 시스템들 간의 데이터 연동 경로 3. 브로커 : 데이터 연.. 데이터분석/[ 이론 ] 2020.06.26
[빅데이터분석기사, adsp] KDD , crisp-dm, 빅데이터 분석방법론 KDD 1. 데이터셋 선택(selection) : 도메인 이해, 목표설정 2. 데이터 전처리(preprocessing) : 잡음, 이상치, 결측치 처리 3. 데이터 변환(transformation) : 변수선택 차원축소 4. 데이터마이닝(data mining) : 분석목적에 맞는 데이터마이닝기법 선택, 적절한 알고리즘 적용 5. 해석과 평가(interpretation, evaluation) : 일치성확인 및 평가 CRISP-DM 1. 업무이해 : 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해, 데이터 분석을 위한 문제정의 - 업무목적 파악, 상황파악, 목표설정, 계획수립 2. 데이터 이해 : 분석을 위한 데이터를 수집하고 데이터 속성을 이해, 인사이트 발견 - 초기데이터 수집, 데이터 기술 분석, .. 데이터분석/[ 이론 ] 2020.06.25
Data WareHouse 정의 ods를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소 특징 1. 주제중심성 : end user도 이해쉬운 형태 2. 통합성 : 여러데이터 통합본 3. 영속성, 비휘발성 : 읽기전용, 삭제되지 않음 4. 시계열성 모델링 기법 1. 스타 스키마 - 조인스키마라고도 하며 가장 단순 - 사실 테이블 : 제 3정규형으로 모델링, 차원테이블 : 제 2정규형 - 장점 : 이해쉽고 쿼리작성 용이 - 단점 : 비정규화로 인한 중복 2. 스노우 플레이크 스키마 - 스타 스키마에서 차원테이블도 제 3 정규형으로 정규화한 형태 - 중복제거되어 적재시 시간 단축되나 복잡성 증가로 쿼리 난이도 상승 - 장점 : 중복제거, 적재시 시간 단축 - 단점 : 복잡성 증가, 조인 테이블 개.. 데이터분석/[ 이론 ] 2020.06.25
검정 종류 1. t-검정 (1) 일표본 t-검정 정의 : 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할 때 사용 ex) 과수원에서 생산되는 사과의 평균 무게가 200g이라고 할 때, 실제로 과수원에서 생산되는 전체 사과의 평균 무게가 200g인지 알고 싶은 경우 수행 - 정규분포를 따라야함 (2) 대응표본 t-검정 정의: 단일모집단에 대해 두번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때. ex) 수면영양제 복용효과를 조사하기 위해 영양제 복용 전과 후의 평균 수면시간에 차이가 있는지 비교. - 정규분포를 따라야함 (3) 독립표본 t-검정 정의 : 두개의 독립된 모집단의 평균을 비교 ex) 성별에 따른 출근시간에 차이를 확인. (독립변수:성별, .. 데이터분석/통계 2020.06.25
분석종류 1. 분류분석 (1) 나이브베이즈 (2) K-NN(최근접 이웃알고리즘) : 범주화된 데이터set에 새로운 데이터를 추가한 후 가장 근접한 k개의 데이터셋의 다수범주에 새로운 데이터도 편입시키기는것 - 데이터 내에 이상치가 존재하면 성능에 큰 영향을 받는다 (3) svm : 어떠한 분류기를 이용하여 마진이 가장 크게 데이터를 분류하는 방법 - 모델에 대한 해석이 어렵다 - 속도가 느리며 메모리할당 크다 2. 군집분석 (1) 재표본 추출 - k-fold : 데이터를 k개 집단으로 나눈 뒤 (k-1:1=학습:검증) 씩 총 k번에 걸쳐서 학습을 진행 - 붓스트랩 : 모집단에서 추출한 표본샘플에 대해사 다시 재표본을 여러번 추출하여 모델을 평가(랜덤 복원추출) (2) 군집화 기법 - 밀도기반 군집분석 : 어느.. 데이터분석/[ 이론 ] 2020.06.25
판다스(pandas) 데이터프레임(dataframe) 관련함수 여기에 아래 링크에 다시 정리했습니다! sosoeasy.tistory.com/464 데이터 전처리 관련 함수 * 넘파이는 np, 판다스는 pd import numpy as np import pandas as pd 결측치 함수 설명 리턴값 비고 np.isnan(data) data값이 nana값이면 True를 반환 True or False sosoeasy.tistory.com/188 데이터변환 (data.. sosoeasy.tistory.com 0. 파일 불러오기 csv=pd.read_csv("NYPD_Complaint_Data_Current_YTD.csv") 1. 데이터 추가하기 df=pd.DataFrame(columns=["season","time","crime_code","street"]) # igno.. 데이터분석/전처리 2020.06.25
pandas dataFrame에서 nan값 찾기 * 2,3번 방법은 nan이아니면 오류가 나기 때문에 예외처리를 해주어야 한다. 따라서 1번방법을 사용하도록 한다. # 변수nan은 nan값. nan=csvTrain["Province_State"][0] 1. 자기자신과 비교하기 # nan이면 자기자신과 비교해도 False가 나온다 print(nan==nan) 더보기 False 2. numpy모듈의 .isnan()함수 import numpy as np print(np.isnan(nan)) 더보기 True 3. math모듈의 .isnan()함수 import math print(math.isnan(nan)) 더보기 True 데이터분석/전처리 2020.06.25
[파이썬] numpy array 다루기 import numpy as np ''' --------------------------------------------------------------------- 1. 모양확인 (numpy.ndarray.shape) - 1차원부터 차례대로 개수를 확인 - 공통된 부분까지만 출력된다. --------------------------------------------------------------------- ''' x=np.array([[[1,4],[5,6]],[[1,2],[7,8]],[[4,1],[66,4]]]) print(x.shape) # (3,2,2) x=np.array([[[1,4],[5,6]],[[1,2],[7,8]],[[4,1],[66,4]],[2,7]]) print(x.shape) # (.. 데이터분석/전처리 2020.06.22