데이터분석 203

데이터프레임, 넘파이 함수정리

* 넘파이는 np, 판다스는 pd import numpy as np import pandas as pd 결측치 함수 설명 리턴값 비고 np.isnan(data) data값이 nana값이면 True를 반환 True or False sosoeasy.tistory.com/188 df.fillna({"col":df["col"].mean()}) "col"컬럼의 결측치를 평균으로 대체 df - 데이터변환 (data transformation) 함수 설명 리턴값 비고 array.shape 데이터의 모양을 확인 튜플형태로 sosoeasy.tistory.com/187?category=891523 array.reshape(n,m) 데이터 차원을 n,m으로 변환 있음 sosoeasy.tistory.com/187?catego..

callback을 이용하여 tensorflow 모델을 학습중에 저장하기

용도 모델을 학습할 때 학습 중간에 프로그램이 오류가 난다면 지금까지 학습했던 가중치를 모두 잃게되는 일이 발생한다. 모델을 학습 중간중간마다 저장하면 프로그램이 끊기더라도 체크포인트부터 다시 시작할 수 있다. 텐소플로우의 콜백을 이용하여 모델을 중간중간마다 저장하고 다시 로드해서 학습하는 법을 알아본다. 모델 저장 # 1. 저장할 폴더와 형식을 선택 folder_directory = "체크포인트를 저장할 폴더" checkPoint_path = folder_directory+"/model_{epoch}.ckpt" # 저장할 당시 epoch가 파일이름이 된다. # 2. 콜백 변수를 생성 my_period = 몇번의 학습마다 저장할 것인가? cp_callback = tf.keras.callbacks.Mode..

[빅데이터분석기사] 적합도검정

적합도검정 실험에서 얻은 결과가 이론 분포와 일치하는 정도를 의미한다. 즉, 적합도검정은 데이터가 특정 이론분포를 따르는지 검정하는것 종류 1. 카이제곱 검정 : 범주형데이터를 대상으로 관측된 값들의 빈도수와 기대 빈도수가 의미있게 다른지를 비교 2. 콜모고르프 스미르노프 검정 : 데이터의 누적분포함수와 임의 분포의 누적분포함수 간의 최대차이 D를 검정통계량으로 하는 비모수 검정 => 정규성검정, 표본개수 2000개 이상 3. 샤피로 윌크 검정 : 데이터가 정규분포로부터 추출된 표본인지 검정 => 정규성검정, 표본개수 2000개 이하 4. Q-Q플롯 : 그래픽적으로 데이터의 정규성을 확인하는 가장 간단한 방법. 대각선 참조선을 따라 값들이 분포하면 정규성 만족 => 정규성검정, 그림으로

[빅데이터분석기사] 다변량 데이터탐색(차원축소)

1. PCA : 분산은 최대한 보존하며 차원축소 2. 선형판별분석(LDA:Linear Discriminant Analysis) : 다변량데이터에 판별함수를 적용하여 클래스를 최적으로 분석할 수 있게 축소=>결정경계를 만들어 데이터를 분류. 클래스별 분산은 작게 클래스간 평균은 멀리 만듦3. T-SNE : PCA로 차원이 줄어들 때 군집화된 데이터가 합쳐지면서 어느 군집에 포함되는지 구분이 어려워지는 단점을 보완하기 위해 생김. 기준점을 t분포 가운데 두고 거리의 차이만큼 t분포에 찍는다.4. SVD : 특잇값 분해 (정방행렬 -> 고유값 분해, 직사각행렬 -> 특이값 분해)5. 다차원척도법(MDS) : 객체사이의 유사성 수준을 2차원 or 3차원 공간에 점으로 시각화(ex. 계량형 MDS: 데이터간의 실..

최적화 기법

1. 확률적 경사하강법(Stochastic Gradient Descent) 무작위 샘플링된 하나의 샘플로 그레디언트를 계산하고 매개변수를 업데이트. 배치의 크기가 1인 경사하강법 2. 미니배치 확률적 경사하강법(Batch Gradient Descent) 한번 매개변수를 업데이트 할 때마다 전체 데이터셋을 사용 3. 모멘텀(Momentum) SGD가 가는 방향에 가속도를 부여, 진동을 줄이고 더 빠르게 학습 4. Adagrad 매개변수별 적응 학습률 사용. 업데이트가 빈번히 수행된 매개변수들은 낮은 학습률, 그렇지 않은 매개변수들은 높은 학습률 5. Adam 오래된 기울기의 영향력을 지수적으로 줄여 adagrad + 모멘텀 더한것.

군집분석의 종류

계층적군집 1. 합병형 2. 분리형 : 합쳐진걸 하나씩 분리 - 다이에나 방법 분할적 군집 1. 프로토타입 (1) k평균군집 (2) k중심군집 (3) k중앙값군집 (4) k메도이도 군집 (5) 퍼지군집 2. 밀도기반 (1) 중심밀도군집 (2) OPTICS : 부가적 순생성 (3) DBSCAN : 밀도한계점 따라 (4) DENCLUE : 밀도분포함수 기초 군집방법 3. 격자기반 (1) STING : 격자셀에 저장되어 있는 통계정보탐색 (2) Wavecluster : warelet 변환기법사용 (3) CLIQUE : 고차원데이터 군집화 4. 분포기반(모형기반) 혼합분포군집 : k개의 모수적 모형가중치 합으로 표현

회귀분석의 가정

1. 선형성 독립변수가 변화할 때 종속변수가 일정한 크기로 변화=> 선형성을 만족한다고 볼 수 있다. 2. 독립성 잔차와 독립변수의 값이 서로 독립해야함 3. 등분산성 잔차의 분산이 독립변수와 무관하게 일정 4. 정규성 잔차항이 정규분포를 띠어야 한다 (Q-Q플랏에서 우상향 하는 직선의 형태 띠어야함) 5. 비상관성 잔차끼리 독립이면 비상관성 (durbin-watson 통계량으로 확인)

비모수 통계

1. 부호검정 중앙값을 통해 가설을 검정하는 방법. 표본의 값이 중앙값과 동일한 경우에는 0을 부여해 전체 표본에서 제외시킨다. 2. 만-위트니 검정(=윌콕슨의 순위 합 검정) 독립된 두 집단의 중심위치를 비교 3. 크루스칼 왈리스 검정 세 개 이상 집단의 중앙값을 비교하기 위해 사용하는 검정. 순위합 검정 4. 런검정 각 표본이 서로 독립적이라는 가설 검정

[빅데이터분석기사,adp] 서포트벡터머신

용어 1. 서포트벡터 : 결정경계와가장 가까운 데이터 2 마진 : 결정경계와 군집별 서포트벡터 사이의 거리의 합(각 군집의 서포트벡터와 결정경계사이의 거리는 모두 같다) 3. 여유변수 E(입실론) : 1보다 크면 결정경계 넘어감, 0~1이면 결정경계와 서포터벡터사이, 0이면 서포터벡터 4. c : 엄격한 정도 => c가 클수록 하드마진 커널기법 선형적으로 구분할 수 없는 데이터를 고차원으로 보내서 구분할 수 있게 하는것 장단점 1. 장점 (1) 데이터가 희소할 때 효과적 (2) 연산량 적음 (3) 비선형도 커널기법을 이용하여 분류 2. 단점 (1) 해석어려움 (2) 파라미터 조절위해 많은 테스트 필요 (3) 전처리가 매우 중요

[빅데이터분석기사, adp] 테스트마이닝 주요기능, TDM,DTM,TF-IDF

주요기능 1. 문서분류 2. 문서군집 3. 특징추출 4. 문서요약 TDM, DTM 1. TDM : 단어문서행렬 (단어가 행, 문서가 열) 2. DTM : 문서단어행렬 (문서가 행, 단어가 열) TF-IDF TF-IDF = (특정단어 t가 특정문서에서 등장한 횟수) / (특정단어 t가 등장한 문서의 수) => 전체문서에서는 많이 나오지 않지만 특정문서에서 많이 나올수록 TF-IDF값 상승 => 해당 단어가 특정문서에서 핵심단어일 가능성 상승 * 참조 : sosoeasy.tistory.com/309 DTM, TF-IDF * 출처 : 딥러닝을 이용한 자연어처리 입문 https://wikidocs.net/31698 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net sosoeasy.tist..