'데이터분석' 카테고리의 글 목록 (2 Page)

[Alteryx] group by

1. Transform에서 Summarize 아이콘 드래그 엔 드랍 2. (나이별 사람 수를 알고 싶을때) age 선택 후 아래에 groupby 선택 3. (나이별 사람 수를 알고 싶을때) passengerId 선택 후 아래에 count 선택 4. results에 다음과 같이 결과값이 나온다.

데이터분석/전처리 2022.06.03

[Alteryx] join

1. 조인 아이콘을 워크플로우로 드래그 엔 드랍 한다. 2. left와 right에 각각의 data 연결하기 3. 조건 설정하기 4. results에서 결괏값 확인가능. L:left join, J: inner join, R:right join 이때 left join은 left에만 있는 데이터, right join은 right에만 있는 데이터를 의미한다 * union을 해주면 left outer join, right outer join을 할 수 있다.

데이터분석/전처리 2022.06.03

[Alteryx] input데이터 가져오기

1. input data를 눌러서 작업창으로 드레그 엔 드랍 2. Connect a File or Database 밑의 버튼을 누름 3. DB를 연결하거나 로컬의 파일을 드레그엔 드랍 4. input 아이콘을 눌러 보면 왼쪽가 아래쪽에 데이터를 볼 수 있음.

데이터분석/전처리 2022.06.03

데이터프레임끼리 더하기 빼기 곱하기 나누기 (add(), sub(), mul(),div())

데이터프레임 끼리 사칙연산 하는 함수 df.add(df2) df.sub(df2) df.mul(df2) df.div(df2) 예시 display(df1,df2) display(df1.add(df2)) display(df1.sub(df2)) display(df1.mul(df2)) display(df1.div(df2))

데이터분석/전처리 2022.05.29

데이터프레임 수익률 계산함수 pct_change()

함수설명 날짜별로 정렬되어있는 가격 데이터에 대해서 전날대비 해당일의 수익률을 계산해 준다 예시 가격데이터가 데이터프레임 형태로 있을 때 df 다음과 같이 함수를 사용하면 된다. df.pct_change()

데이터분석/전처리 2022.05.29

데이터프레임 표준편차 계산 (std())

std() 함수 데이터프레임의 표준편차를 계산해 주는 함수 DataFrame.std(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs) axis=1 : 열을 축으로 표준편차계산, axis=0 : 행을 축으로 표준편차 계산 예시 1. 데이터 2. 열을 축으로 표준편차 계산 df.std(axis=1) 3. 행을 축으로 표준편차 계산 df.std(axis=0)

데이터분석 2022.05.28

apply함수

apply 함수 특정 컬럼에 함수를 적용해 주는 함수. 리턴타입은 판다스 시리즈. df[컬럼].apply(함수) 예시 def dividendSecond(a): return a//2 def toStr(a): return str(a) display(prices["Open"].apply(dividendSecond)) display(prices["Close"].apply(toStr))

데이터분석/전처리 2022.05.18

ADP기출 (17, 18, 19, 20, 21, 22, 23, 24회)

17회 출처 : https://bigdata-analyst.tistory.com/34 1. 머신러닝(data: Housing data - log1p로 정규화시킴) EDA, Preprocessing 모델링하고 예측 하이퍼파라미터 조절하여 오차 줄이기, 평가지표는 RMAE 2. 시계열분석 및 시각화(data: Covid19 - 일별 확진자수, 일별 완치자수로 데이터 가공 필요) 코로나 위험지수를 만들고, 그 위험지수에 대한 설명을 적고, 위험지수가 높은 국가들 10개를 선정해서 시각화 한국의 코로나 확진자 예측: 선형 시계열모델, 비선형시계열 모델 2개 만들기 3. 통계분석(data: 설문조사 - A~S까지의 그룹이 설문조사에 응답했고 중간에 반대 문항이 들어가 있음) 그룹별 통계치 계산 탐색적 요인분석을 ..

데이터분석 2022.05.15

정형 반정형 비정형

정형 - 고정된 필드에 저장되는 데이터 반정형 - 고정된 필드로 저장되지는 않지만, XML이나 HTML처럼 메타데이터나 스키마 등을 포함하는 데이터 - XML, HTML, JSON 등 비정형 - 고정된 필드에 저장되어 있지 않은 데이터 - 문서, 그림, 동영상 오디오 등

데이터분석/[ 이론 ] 2022.03.11

csv 데이터를 특정 형식으로 read하기 (pandas read_csv, usecols, dtype)

read_csv 판다스의 모듈 중, csv파일을 읽어 데이터프레임 타입으로 반환하는 read_csv라는 함수가 있다. data_frame = pd.read_csv() 함수의 파라미터 중 데이터의 타입을 지정하여 받을 수 있는 것이 있어서 이를 살펴본다 usecols usecols파라미터는 csv파일에서 사용할 컬럼을 지정한다. data_type = {"f_1":'float16', "f_2":'float16'} df = pd.read_csv(folder_path + "/train.csv", usecols = data_types_dict.keys(), ) dtype dtype 파라미터는 컬럼이름을 key로, 데이터타입을 value로 하는 dictionary 객체를 넣는다. data_type = {"f_1":..

데이터분석/전처리 2022.02.06

고유값, 고유값 별 개수 확인 (unique, nunique)

데이터 특정 컬럼의 고윳값 확인 - unique() train_x["person_attribute_a"].unique() 특정 컬럼의 모든 고윳값을 확인한다. 전체 컬럼(혹은 특정 컬럼)의 고윳값의 개수 - nunique() train_x.nunique() train_x["person_attribute_a"].nunique()

데이터분석/전처리 2022.01.09

train_test_split 데이터 나누기

train_test_split from sklearn.model_selection import train_test_split 데이터셋을 나눠주는 train_test_split 에 대해서 알아본다. 옵션값 x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size=0.2, shuffle=True, stratify=train_y, random_state=42) 1. test_size : test 사이즈의 비율 2. shuffle : split하기 전 섞을것인지 3. stratify : class label의 비율을 맞춰서 split할것인지 4. random_state : 실행할 때 마다 똑같이 섞을것인지 다르게 섞을것인지..

데이터분석/전처리 2022.01.08

prophet cross_validation 사용법

cross_validation from fbprophet.diagnostics import cross_validation import fbprophet as Prophet model = Prophet.Prophet().fit(data) df_cv = cross_validation(model, initial='730 days', period='180 days',horizon = '365 days') 모델을 학습한 후 cross_validation으로 체크한다. 이때 parameter값들 initial, peroid, horizion의 의미를 정리한다. 공식문서 다음과 같이 정의 되어있다. This cross validation procedure can be done automatically for a ra..

데이터분석/분석-지도학습 2021.10.17

데이터프레임의 iloc, loc

개요 데이터프레임에서 특정행과 열을 출력하고싶을 때 사용하는 iloc와 loc 사용법을 알아 본다. 데이터프레임은 아래와 같다. 인덱스는 아래와 같이 지정한 상태 df.set_index("Unnamed: 0",inplace=True) df.iloc - 하나의 값 행과 열을 인덱스번호 로 접근할 수 있다. 1. 인덱스번호로 행 출력 df.iloc[0] 2. 인덱스번호로 행 출력(괄호 두개쓰면 데이터프레임형태) df.iloc[[0]] 3. 인덱스번호로 행, 열번호로 출력 df.iloc[0][0] 75616.0 4. 인덱스번호로 행, 컬럼명으로 열 출력 df.iloc[0]["전국[호]"] 75616.0 df.iloc - 여러개의 값 1. 여러개의 row번호로 출력 train_x.iloc[[1,2,3]] 2...

데이터분석/전처리 2021.05.17

[판다스 데이터프레임] 특정 컬럼 제외하기

dataFrame에서 특정 column만을 제외하고싶으면 아래와 같이 코드를 구현하면 된다. df.loc[:, [col for col in df.columns if col != "제외할 칼럼"]] df df.loc[:, [col for col in df.columns if col != 'temp_group']]

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] Dummy데이터 만들기

df['Quater'] #데이터를 더미로 만들어줌(원핫코딩) pd.get_dummies(df['Quater'])

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] 컬럼별 읽기

df.columnName print(type(raw_all.weather)) raw_all.weather df["columnName"] print(type(raw_all['weather'])) raw_all['weather'] df[["columnName"]] (데이터프레임으로) df=csv df[["gender","car"]]

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] index 설정 및 초기화

df.set_index('데이터프레임의 인덱스로 설정할 att의 이름', inplace=True) (example) 1. 파일 불러오기 df=pd.read_csv("파일위치") df 2. 인덱스 설정 df.set_index('DateTime', inplace=True) df * inplace : 원본객체도 수정할거면 True 3. 초기화 df.reset_index(drop=False, inplace=True) df drop=True로 해주면 index였던 DateTime칼럼이 아예 삭제된다.

데이터분석/전처리 2021.05.06

데이터분석 139

티스토리툴바

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31