데이터분석 139

ADP기출 (17, 18, 19, 20, 21, 22, 23, 24회)

17회 출처 : https://bigdata-analyst.tistory.com/34 1. 머신러닝(data: Housing data - log1p로 정규화시킴) EDA, Preprocessing 모델링하고 예측 하이퍼파라미터 조절하여 오차 줄이기, 평가지표는 RMAE 2. 시계열분석 및 시각화(data: Covid19 - 일별 확진자수, 일별 완치자수로 데이터 가공 필요) 코로나 위험지수를 만들고, 그 위험지수에 대한 설명을 적고, 위험지수가 높은 국가들 10개를 선정해서 시각화 한국의 코로나 확진자 예측: 선형 시계열모델, 비선형시계열 모델 2개 만들기 3. 통계분석(data: 설문조사 - A~S까지의 그룹이 설문조사에 응답했고 중간에 반대 문항이 들어가 있음) 그룹별 통계치 계산 탐색적 요인분석을 ..

데이터분석 2022.05.15

csv 데이터를 특정 형식으로 read하기 (pandas read_csv, usecols, dtype)

read_csv 판다스의 모듈 중, csv파일을 읽어 데이터프레임 타입으로 반환하는 read_csv라는 함수가 있다. data_frame = pd.read_csv() 함수의 파라미터 중 데이터의 타입을 지정하여 받을 수 있는 것이 있어서 이를 살펴본다 usecols usecols파라미터는 csv파일에서 사용할 컬럼을 지정한다. data_type = {"f_1":'float16', "f_2":'float16'} df = pd.read_csv(folder_path + "/train.csv", usecols = data_types_dict.keys(), ) dtype dtype 파라미터는 컬럼이름을 key로, 데이터타입을 value로 하는 dictionary 객체를 넣는다. data_type = {"f_1":..

train_test_split 데이터 나누기

train_test_split from sklearn.model_selection import train_test_split 데이터셋을 나눠주는 train_test_split 에 대해서 알아본다. 옵션값 x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size=0.2, shuffle=True, stratify=train_y, random_state=42) 1. test_size : test 사이즈의 비율 2. shuffle : split하기 전 섞을것인지 3. stratify : class label의 비율을 맞춰서 split할것인지 4. random_state : 실행할 때 마다 똑같이 섞을것인지 다르게 섞을것인지..

prophet cross_validation 사용법

cross_validation from fbprophet.diagnostics import cross_validation import fbprophet as Prophet model = Prophet.Prophet().fit(data) df_cv = cross_validation(model, initial='730 days', period='180 days',horizon = '365 days') 모델을 학습한 후 cross_validation으로 체크한다. 이때 parameter값들 initial, peroid, horizion의 의미를 정리한다. 공식문서 다음과 같이 정의 되어있다. This cross validation procedure can be done automatically for a ra..

데이터프레임의 iloc, loc

개요 데이터프레임에서 특정행과 열을 출력하고싶을 때 사용하는 iloc와 loc 사용법을 알아 본다. 데이터프레임은 아래와 같다. 인덱스는 아래와 같이 지정한 상태 df.set_index("Unnamed: 0",inplace=True) df.iloc - 하나의 값 행과 열을 인덱스번호 로 접근할 수 있다. 1. 인덱스번호로 행 출력 df.iloc[0] 2. 인덱스번호로 행 출력(괄호 두개쓰면 데이터프레임형태) df.iloc[[0]] 3. 인덱스번호로 행, 열번호로 출력 df.iloc[0][0] 75616.0 4. 인덱스번호로 행, 컬럼명으로 열 출력 df.iloc[0]["전국[호]"] 75616.0 df.iloc - 여러개의 값 1. 여러개의 row번호로 출력 train_x.iloc[[1,2,3]] 2...