[판다스 데이터프레임] 특정 컬럼 제외하기 dataFrame에서 특정 column만을 제외하고싶으면 아래와 같이 코드를 구현하면 된다. df.loc[:, [col for col in df.columns if col != "제외할 칼럼"]] df df.loc[:, [col for col in df.columns if col != 'temp_group']] 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] Dummy데이터 만들기 df['Quater'] #데이터를 더미로 만들어줌(원핫코딩) pd.get_dummies(df['Quater']) 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 컬럼별 읽기 df.columnName print(type(raw_all.weather)) raw_all.weather df["columnName"] print(type(raw_all['weather'])) raw_all['weather'] df[["columnName"]] (데이터프레임으로) df=csv df[["gender","car"]] 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] index 설정 및 초기화 df.set_index('데이터프레임의 인덱스로 설정할 att의 이름', inplace=True) (example) 1. 파일 불러오기 df=pd.read_csv("파일위치") df 2. 인덱스 설정 df.set_index('DateTime', inplace=True) df * inplace : 원본객체도 수정할거면 True 3. 초기화 df.reset_index(drop=False, inplace=True) df drop=True로 해주면 index였던 DateTime칼럼이 아예 삭제된다. 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 결측치 확인 비어있는 값 확인 # 결측치이면 True, 그렇지않으면 False df.isnull() 비어있는 값의 합 data.isnull().sum() #비어 있는 값들을 체크해 본다. #모든특성에서 결측치가 몇개인지 셀때는 .sum()을 뒤에 떠 붙여준다 df.isnull().sum().sum() 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 특정 att에서 도메인별 개수를 카운트하는 함수(values_counts) 특정 att에서 도메인별 개수 카운트 df['Survived'].value_counts() 막대그래프로 그리면? fig = plt.figure(figsize=(10,2)) #그림판의 크기 정함 sns.countplot(y='Survived', data=train) #seaborn의 카운트플룻을 그리라는것 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 두 데이터 프레임을 합치는 법 세로로 붙이기 a=pd.DataFrame({"a":[1,2],"b":[3,4]}) display(a) b=pd.DataFrame({"a":[3,4],"b":[5,6]}) display(b) pd.concat((a,b)) 가로로 붙이기 a=pd.DataFrame({"a":[1,2],"b":[3,4]}) display(a) b=pd.DataFrame({"c":[3,4],"d":[5,6]}) display(b) pd.concat([a,b],axis=1) 카테고리 없음 2021.05.06
[판다스 데이터프레임] 데이터 타입 확인 및 수정 데이터타입 확인 df.dtypes 데이터타입 바꾸기 df=df.astype({"colName":"type"}) 특정 타입의 컬럼 찾기 df.select_dtypes(bool).columns 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 데이터 요약, 통계 head,tail,info,describe 상위, 하위 n개보기 1. 상위 n개(n을 안적으면 기본 5개) df.head(n) 2. 하위 n개(n을 안적으면 기본 5개) df.tail(n) 데이터타입 + 빈칸이 아닌것의 개수 확인 df.info() 통계적인 부분 확인 # all이 있으면 이산형 att도 다 보여줌(all 파라미터가 없으면 연속형만 보여줌) df.describe(include='all') 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] append 이용하여 데이터 추가하기 df=pd.DataFrame(columns=["season","time","crime_code","street"]) # 반드시 ignore_index=True를 사용해야함 df=df.append({"season":1,"time":2,"crime_code":3,"street":4},ignore_index=True) print(df) 데이터분석/전처리 2021.05.06
[판다스 데이터프레임] 데이터프레임 생성 행단위 입력 행단위로 입력을 할때는 data라는 파라미터를 사용한다. df=pd.DataFrame(data=[[1,2],[3,4]] , columns=["a","b"]) df 열단위 입력 열단위로 입력하고 싶을 땐 dictionary형을 DataFrame으로 바꾸는 식으로 만든다. df2=pd.DataFrame({"a":[1,2],"b":[3,4]}) df2 데이터분석/전처리 2021.05.06
데이터프레임, 넘파이 함수정리 * 넘파이는 np, 판다스는 pd import numpy as np import pandas as pd 결측치 함수 설명 리턴값 비고 np.isnan(data) data값이 nana값이면 True를 반환 True or False sosoeasy.tistory.com/188 df.fillna({"col":df["col"].mean()}) "col"컬럼의 결측치를 평균으로 대체 df - 데이터변환 (data transformation) 함수 설명 리턴값 비고 array.shape 데이터의 모양을 확인 튜플형태로 sosoeasy.tistory.com/187?category=891523 array.reshape(n,m) 데이터 차원을 n,m으로 변환 있음 sosoeasy.tistory.com/187?catego.. 데이터분석/전처리 2021.05.04
github 파일다운로드 첫번째 방법 : terminal에서 clone 1. 깃허브 해당 repository에 code(오른쪽 초록색 박스)를 누른 후 주소 옆에 있는 서류모양을 눌러서 주소를 복사한다 2. 터미널을 켜서 해당 깃허브 repository의 파일들을 저장할 폴더로 이동한 후 "git clone 복사한주소"를 한다 3. 잘들어갔다. 두번째 방법 : 사이트에서 직접 압축파일 다운받기 1. 깃허브 해당 repository에 code(오른쪽 초록색 박스)를 누른 후 "Download ZIP"누르면 압축파일 다운이 가능하다 CLI/깃허브 2021.05.04
callback을 이용하여 tensorflow 모델을 학습중에 저장하기 용도 모델을 학습할 때 학습 중간에 프로그램이 오류가 난다면 지금까지 학습했던 가중치를 모두 잃게되는 일이 발생한다. 모델을 학습 중간중간마다 저장하면 프로그램이 끊기더라도 체크포인트부터 다시 시작할 수 있다. 텐소플로우의 콜백을 이용하여 모델을 중간중간마다 저장하고 다시 로드해서 학습하는 법을 알아본다. 모델 저장 # 1. 저장할 폴더와 형식을 선택 folder_directory = "체크포인트를 저장할 폴더" checkPoint_path = folder_directory+"/model_{epoch}.ckpt" # 저장할 당시 epoch가 파일이름이 된다. # 2. 콜백 변수를 생성 my_period = 몇번의 학습마다 저장할 것인가? cp_callback = tf.keras.callbacks.Mode.. 데이터분석/분석-지도학습 2021.04.29
[빅데이터분석기사] 적합도검정 적합도검정 실험에서 얻은 결과가 이론 분포와 일치하는 정도를 의미한다. 즉, 적합도검정은 데이터가 특정 이론분포를 따르는지 검정하는것 종류 1. 카이제곱 검정 : 범주형데이터를 대상으로 관측된 값들의 빈도수와 기대 빈도수가 의미있게 다른지를 비교 2. 콜모고르프 스미르노프 검정 : 데이터의 누적분포함수와 임의 분포의 누적분포함수 간의 최대차이 D를 검정통계량으로 하는 비모수 검정 => 정규성검정, 표본개수 2000개 이상 3. 샤피로 윌크 검정 : 데이터가 정규분포로부터 추출된 표본인지 검정 => 정규성검정, 표본개수 2000개 이하 4. Q-Q플롯 : 그래픽적으로 데이터의 정규성을 확인하는 가장 간단한 방법. 대각선 참조선을 따라 값들이 분포하면 정규성 만족 => 정규성검정, 그림으로 데이터분석/[ 이론 ] 2021.04.17
[빅데이터분석기사] 다변량 데이터탐색(차원축소) 1. PCA : 분산은 최대한 보존하며 차원축소 2. 선형판별분석(LDA:Linear Discriminant Analysis) : 다변량데이터에 판별함수를 적용하여 클래스를 최적으로 분석할 수 있게 축소=>결정경계를 만들어 데이터를 분류. 클래스별 분산은 작게 클래스간 평균은 멀리 만듦3. T-SNE : PCA로 차원이 줄어들 때 군집화된 데이터가 합쳐지면서 어느 군집에 포함되는지 구분이 어려워지는 단점을 보완하기 위해 생김. 기준점을 t분포 가운데 두고 거리의 차이만큼 t분포에 찍는다.4. SVD : 특잇값 분해 (정방행렬 -> 고유값 분해, 직사각행렬 -> 특이값 분해)5. 다차원척도법(MDS) : 객체사이의 유사성 수준을 2차원 or 3차원 공간에 점으로 시각화(ex. 계량형 MDS: 데이터간의 실.. 데이터분석/[ 이론 ] 2021.04.16
최적화 기법 1. 확률적 경사하강법(Stochastic Gradient Descent) 무작위 샘플링된 하나의 샘플로 그레디언트를 계산하고 매개변수를 업데이트. 배치의 크기가 1인 경사하강법 2. 미니배치 확률적 경사하강법(Batch Gradient Descent) 한번 매개변수를 업데이트 할 때마다 전체 데이터셋을 사용 3. 모멘텀(Momentum) SGD가 가는 방향에 가속도를 부여, 진동을 줄이고 더 빠르게 학습 4. Adagrad 매개변수별 적응 학습률 사용. 업데이트가 빈번히 수행된 매개변수들은 낮은 학습률, 그렇지 않은 매개변수들은 높은 학습률 5. Adam 오래된 기울기의 영향력을 지수적으로 줄여 adagrad + 모멘텀 더한것. 데이터분석/[ 이론 ] 2021.04.16
추정량의 결정기준 1. 불편성 모수를 구체적으로 추정한 값. 모든 가능한 통계량 값의 평균이 모수와 같아지는것 => 불편추정량 2. 효율성 분산이 가장 작은것 3. 일치성 표본의 크기가 클수록 추정량의 값과 모수에 근접하는 것 데이터분석/[ 이론 ] 2021.04.16