[판다스 데이터프레임] 결측치 확인 비어있는 값 확인 # 결측치이면 True, 그렇지않으면 False df.isnull() 비어있는 값의 합 data.isnull().sum() #비어 있는 값들을 체크해 본다. #모든특성에서 결측치가 몇개인지 셀때는 .sum()을 뒤에 떠 붙여준다 df.isnull().sum().sum() 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 특정 att에서 도메인별 개수를 카운트하는 함수(values_counts) 특정 att에서 도메인별 개수 카운트 df['Survived'].value_counts() 막대그래프로 그리면? fig = plt.figure(figsize=(10,2)) #그림판의 크기 정함 sns.countplot(y='Survived', data=train) #seaborn의 카운트플룻을 그리라는것 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 데이터 타입 확인 및 수정 데이터타입 확인 df.dtypes 데이터타입 바꾸기 df=df.astype({"colName":"type"}) 특정 타입의 컬럼 찾기 df.select_dtypes(bool).columns 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 데이터 요약, 통계 head,tail,info,describe 상위, 하위 n개보기 1. 상위 n개(n을 안적으면 기본 5개) df.head(n) 2. 하위 n개(n을 안적으면 기본 5개) df.tail(n) 데이터타입 + 빈칸이 아닌것의 개수 확인 df.info() 통계적인 부분 확인 # all이 있으면 이산형 att도 다 보여줌(all 파라미터가 없으면 연속형만 보여줌) df.describe(include='all') 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] append 이용하여 데이터 추가하기 df=pd.DataFrame(columns=["season","time","crime_code","street"]) # 반드시 ignore_index=True를 사용해야함 df=df.append({"season":1,"time":2,"crime_code":3,"street":4},ignore_index=True) print(df) 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 데이터프레임 생성 행단위 입력 행단위로 입력을 할때는 data라는 파라미터를 사용한다. df=pd.DataFrame(data=[[1,2],[3,4]] , columns=["a","b"]) df 열단위 입력 열단위로 입력하고 싶을 땐 dictionary형을 DataFrame으로 바꾸는 식으로 만든다. df2=pd.DataFrame({"a":[1,2],"b":[3,4]}) df2 데이터분석/전처리 2021.05.06
데이터프레임, 넘파이 함수정리 * 넘파이는 np, 판다스는 pd import numpy as np import pandas as pd 결측치 함수 설명 리턴값 비고 np.isnan(data) data값이 nana값이면 True를 반환 True or False sosoeasy.tistory.com/188 df.fillna({"col":df["col"].mean()}) "col"컬럼의 결측치를 평균으로 대체 df - 데이터변환 (data transformation) 함수 설명 리턴값 비고 array.shape 데이터의 모양을 확인 튜플형태로 sosoeasy.tistory.com/187?category=891523 array.reshape(n,m) 데이터 차원을 n,m으로 변환 있음 sosoeasy.tistory.com/187?catego.. 데이터분석/전처리 2021.05.04
callback을 이용하여 tensorflow 모델을 학습중에 저장하기 용도 모델을 학습할 때 학습 중간에 프로그램이 오류가 난다면 지금까지 학습했던 가중치를 모두 잃게되는 일이 발생한다. 모델을 학습 중간중간마다 저장하면 프로그램이 끊기더라도 체크포인트부터 다시 시작할 수 있다. 텐소플로우의 콜백을 이용하여 모델을 중간중간마다 저장하고 다시 로드해서 학습하는 법을 알아본다. 모델 저장 # 1. 저장할 폴더와 형식을 선택 folder_directory = "체크포인트를 저장할 폴더" checkPoint_path = folder_directory+"/model_{epoch}.ckpt" # 저장할 당시 epoch가 파일이름이 된다. # 2. 콜백 변수를 생성 my_period = 몇번의 학습마다 저장할 것인가? cp_callback = tf.keras.callbacks.Mode.. 데이터분석/분석-지도학습 2021.04.29
[빅데이터분석기사] 적합도검정 적합도검정 실험에서 얻은 결과가 이론 분포와 일치하는 정도를 의미한다. 즉, 적합도검정은 데이터가 특정 이론분포를 따르는지 검정하는것 종류 1. 카이제곱 검정 : 범주형데이터를 대상으로 관측된 값들의 빈도수와 기대 빈도수가 의미있게 다른지를 비교 2. 콜모고르프 스미르노프 검정 : 데이터의 누적분포함수와 임의 분포의 누적분포함수 간의 최대차이 D를 검정통계량으로 하는 비모수 검정 => 정규성검정, 표본개수 2000개 이상 3. 샤피로 윌크 검정 : 데이터가 정규분포로부터 추출된 표본인지 검정 => 정규성검정, 표본개수 2000개 이하 4. Q-Q플롯 : 그래픽적으로 데이터의 정규성을 확인하는 가장 간단한 방법. 대각선 참조선을 따라 값들이 분포하면 정규성 만족 => 정규성검정, 그림으로 데이터분석/[ 이론 ] 2021.04.17
[빅데이터분석기사] 다변량 데이터탐색(차원축소) 1. PCA : 분산은 최대한 보존하며 차원축소 2. 선형판별분석(LDA:Linear Discriminant Analysis) : 다변량데이터에 판별함수를 적용하여 클래스를 최적으로 분석할 수 있게 축소=>결정경계를 만들어 데이터를 분류. 클래스별 분산은 작게 클래스간 평균은 멀리 만듦3. T-SNE : PCA로 차원이 줄어들 때 군집화된 데이터가 합쳐지면서 어느 군집에 포함되는지 구분이 어려워지는 단점을 보완하기 위해 생김. 기준점을 t분포 가운데 두고 거리의 차이만큼 t분포에 찍는다.4. SVD : 특잇값 분해 (정방행렬 -> 고유값 분해, 직사각행렬 -> 특이값 분해)5. 다차원척도법(MDS) : 객체사이의 유사성 수준을 2차원 or 3차원 공간에 점으로 시각화(ex. 계량형 MDS: 데이터간의 실.. 데이터분석/[ 이론 ] 2021.04.16
최적화 기법 1. 확률적 경사하강법(Stochastic Gradient Descent) 무작위 샘플링된 하나의 샘플로 그레디언트를 계산하고 매개변수를 업데이트. 배치의 크기가 1인 경사하강법 2. 미니배치 확률적 경사하강법(Batch Gradient Descent) 한번 매개변수를 업데이트 할 때마다 전체 데이터셋을 사용 3. 모멘텀(Momentum) SGD가 가는 방향에 가속도를 부여, 진동을 줄이고 더 빠르게 학습 4. Adagrad 매개변수별 적응 학습률 사용. 업데이트가 빈번히 수행된 매개변수들은 낮은 학습률, 그렇지 않은 매개변수들은 높은 학습률 5. Adam 오래된 기울기의 영향력을 지수적으로 줄여 adagrad + 모멘텀 더한것. 데이터분석/[ 이론 ] 2021.04.16
추정량의 결정기준 1. 불편성 모수를 구체적으로 추정한 값. 모든 가능한 통계량 값의 평균이 모수와 같아지는것 => 불편추정량 2. 효율성 분산이 가장 작은것 3. 일치성 표본의 크기가 클수록 추정량의 값과 모수에 근접하는 것 데이터분석/[ 이론 ] 2021.04.16
군집분석의 종류 계층적군집 1. 합병형 2. 분리형 : 합쳐진걸 하나씩 분리 - 다이에나 방법 분할적 군집 1. 프로토타입 (1) k평균군집 (2) k중심군집 (3) k중앙값군집 (4) k메도이도 군집 (5) 퍼지군집 2. 밀도기반 (1) 중심밀도군집 (2) OPTICS : 부가적 순생성 (3) DBSCAN : 밀도한계점 따라 (4) DENCLUE : 밀도분포함수 기초 군집방법 3. 격자기반 (1) STING : 격자셀에 저장되어 있는 통계정보탐색 (2) Wavecluster : warelet 변환기법사용 (3) CLIQUE : 고차원데이터 군집화 4. 분포기반(모형기반) 혼합분포군집 : k개의 모수적 모형가중치 합으로 표현 데이터분석/분석-비지도학습 2021.04.16
회귀분석의 가정 1. 선형성 독립변수가 변화할 때 종속변수가 일정한 크기로 변화=> 선형성을 만족한다고 볼 수 있다. 2. 독립성 잔차와 독립변수의 값이 서로 독립해야함 3. 등분산성 잔차의 분산이 독립변수와 무관하게 일정 4. 정규성 잔차항이 정규분포를 띠어야 한다 (Q-Q플랏에서 우상향 하는 직선의 형태 띠어야함) 5. 비상관성 잔차끼리 독립이면 비상관성 (durbin-watson 통계량으로 확인) 데이터분석/분석-지도학습 2021.04.16
비모수 통계 1. 부호검정 중앙값을 통해 가설을 검정하는 방법. 표본의 값이 중앙값과 동일한 경우에는 0을 부여해 전체 표본에서 제외시킨다. 2. 만-위트니 검정(=윌콕슨의 순위 합 검정) 독립된 두 집단의 중심위치를 비교 3. 크루스칼 왈리스 검정 세 개 이상 집단의 중앙값을 비교하기 위해 사용하는 검정. 순위합 검정 4. 런검정 각 표본이 서로 독립적이라는 가설 검정 데이터분석/[ 이론 ] 2021.04.15
[빅데이터분석기사,adp] 서포트벡터머신 용어 1. 서포트벡터 : 결정경계와가장 가까운 데이터 2 마진 : 결정경계와 군집별 서포트벡터 사이의 거리의 합(각 군집의 서포트벡터와 결정경계사이의 거리는 모두 같다) 3. 여유변수 E(입실론) : 1보다 크면 결정경계 넘어감, 0~1이면 결정경계와 서포터벡터사이, 0이면 서포터벡터 4. c : 엄격한 정도 => c가 클수록 하드마진 커널기법 선형적으로 구분할 수 없는 데이터를 고차원으로 보내서 구분할 수 있게 하는것 장단점 1. 장점 (1) 데이터가 희소할 때 효과적 (2) 연산량 적음 (3) 비선형도 커널기법을 이용하여 분류 2. 단점 (1) 해석어려움 (2) 파라미터 조절위해 많은 테스트 필요 (3) 전처리가 매우 중요 데이터분석/분석-지도학습 2021.04.15
[빅데이터분석기사, adp] 테스트마이닝 주요기능, TDM,DTM,TF-IDF 주요기능 1. 문서분류 2. 문서군집 3. 특징추출 4. 문서요약 TDM, DTM 1. TDM : 단어문서행렬 (단어가 행, 문서가 열) 2. DTM : 문서단어행렬 (문서가 행, 단어가 열) TF-IDF TF-IDF = (특정단어 t가 특정문서에서 등장한 횟수) / (특정단어 t가 등장한 문서의 수) => 전체문서에서는 많이 나오지 않지만 특정문서에서 많이 나올수록 TF-IDF값 상승 => 해당 단어가 특정문서에서 핵심단어일 가능성 상승 * 참조 : sosoeasy.tistory.com/309 DTM, TF-IDF * 출처 : 딥러닝을 이용한 자연어처리 입문 https://wikidocs.net/31698 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net sosoeasy.tist.. 데이터분석/[ 이론 ] 2021.04.15
[빅데이터분석기사, adp] 데이터 시각화와 정보 시각화 정보디자인 데이터 시각화 1. 같은범주에 많은 양의 데이터에 의미 부여하여 효율적으로 전달 2. 데이터의 시각적 표현의 연구 3. 속성이나 변수를 가진 단위를 포함한 정보 4. 명확하고 정확하게 커뮤니케이션 하기위한 목적 5. 마인드맵, 의사결정트리, 통계그래픽 정보 시각화 1. 큰 범주에 해당하는 정보를 시각화 2. 대규모 비수량 정보를 시각화 3. 트리맵, 분기도, 수지도, 히트맵 정보시각화 (인포그래픽) 1. 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술데이터를 시각적으로 표현하는 방법 2. 인지(의미만들기) + 지각(형태만들기) + 경험(맥락만들기) 3. 인포그래픽 : 중요한 정보를 한장의 그래픽으로 표현해 이를 보는 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 .. 데이터분석/시각화 2021.04.15