'데이터분석/전처리' 카테고리의 글 목록

[판다스 데이터프레임] group by

groupby [] 사용 df.groupby(["a","b"])["a"].count() => a를 기준으로 b의 도메인별 개수를 보여준다 (example 1) df.groupby(['Survived','Pclass'])['Survived'].count() Survived Pclass 0 1 80 2 97 3 372 1 1 136 2 87 3 119 Name: Survived, dtype: int64 (example 2) df.groupby(['Pclass','Survived'])['Survived'].count() Pclass Survived 1 0 80 1 136 2 0 97 1 87 3 0 372 1 119 Name: Survived, dtype: int64 groupby agg 사용 df.group..

데이터분석/전처리 2023.04.24

데이터프레임 문자열 쪼개서 여러 컬럼으로 만들기

1. 데이터프레임에서 값이 문자열로 되어 있는 컬럼을 쪼개서 여러 컬럼으로 만든다. 2. 코드 pat : 나누는 기준이 되는 문자열 expand : True면 return값이 데이터프레임으로 나오고, False면 return 값이 series형태로 나옴 df_1 = self.df["ymdhm"].str.split(pat="나눌문자열",expand=True) display(df_1)

데이터분석/전처리 2022.08.06

[Alteryx] group by

1. Transform에서 Summarize 아이콘 드래그 엔 드랍 2. (나이별 사람 수를 알고 싶을때) age 선택 후 아래에 groupby 선택 3. (나이별 사람 수를 알고 싶을때) passengerId 선택 후 아래에 count 선택 4. results에 다음과 같이 결과값이 나온다.

데이터분석/전처리 2022.06.03

[Alteryx] join

1. 조인 아이콘을 워크플로우로 드래그 엔 드랍 한다. 2. left와 right에 각각의 data 연결하기 3. 조건 설정하기 4. results에서 결괏값 확인가능. L:left join, J: inner join, R:right join 이때 left join은 left에만 있는 데이터, right join은 right에만 있는 데이터를 의미한다 * union을 해주면 left outer join, right outer join을 할 수 있다.

데이터분석/전처리 2022.06.03

[Alteryx] input데이터 가져오기

1. input data를 눌러서 작업창으로 드레그 엔 드랍 2. Connect a File or Database 밑의 버튼을 누름 3. DB를 연결하거나 로컬의 파일을 드레그엔 드랍 4. input 아이콘을 눌러 보면 왼쪽가 아래쪽에 데이터를 볼 수 있음.

데이터분석/전처리 2022.06.03

데이터프레임끼리 더하기 빼기 곱하기 나누기 (add(), sub(), mul(),div())

데이터프레임 끼리 사칙연산 하는 함수 df.add(df2) df.sub(df2) df.mul(df2) df.div(df2) 예시 display(df1,df2) display(df1.add(df2)) display(df1.sub(df2)) display(df1.mul(df2)) display(df1.div(df2))

데이터분석/전처리 2022.05.29

데이터프레임 수익률 계산함수 pct_change()

함수설명 날짜별로 정렬되어있는 가격 데이터에 대해서 전날대비 해당일의 수익률을 계산해 준다 예시 가격데이터가 데이터프레임 형태로 있을 때 df 다음과 같이 함수를 사용하면 된다. df.pct_change()

데이터분석/전처리 2022.05.29

apply함수

apply 함수 특정 컬럼에 함수를 적용해 주는 함수. 리턴타입은 판다스 시리즈. df[컬럼].apply(함수) 예시 def dividendSecond(a): return a//2 def toStr(a): return str(a) display(prices["Open"].apply(dividendSecond)) display(prices["Close"].apply(toStr))

데이터분석/전처리 2022.05.18

csv 데이터를 특정 형식으로 read하기 (pandas read_csv, usecols, dtype)

read_csv 판다스의 모듈 중, csv파일을 읽어 데이터프레임 타입으로 반환하는 read_csv라는 함수가 있다. data_frame = pd.read_csv() 함수의 파라미터 중 데이터의 타입을 지정하여 받을 수 있는 것이 있어서 이를 살펴본다 usecols usecols파라미터는 csv파일에서 사용할 컬럼을 지정한다. data_type = {"f_1":'float16', "f_2":'float16'} df = pd.read_csv(folder_path + "/train.csv", usecols = data_types_dict.keys(), ) dtype dtype 파라미터는 컬럼이름을 key로, 데이터타입을 value로 하는 dictionary 객체를 넣는다. data_type = {"f_1":..

데이터분석/전처리 2022.02.06

고유값, 고유값 별 개수 확인 (unique, nunique)

데이터 특정 컬럼의 고윳값 확인 - unique() train_x["person_attribute_a"].unique() 특정 컬럼의 모든 고윳값을 확인한다. 전체 컬럼(혹은 특정 컬럼)의 고윳값의 개수 - nunique() train_x.nunique() train_x["person_attribute_a"].nunique()

데이터분석/전처리 2022.01.09

train_test_split 데이터 나누기

train_test_split from sklearn.model_selection import train_test_split 데이터셋을 나눠주는 train_test_split 에 대해서 알아본다. 옵션값 x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size=0.2, shuffle=True, stratify=train_y, random_state=42) 1. test_size : test 사이즈의 비율 2. shuffle : split하기 전 섞을것인지 3. stratify : class label의 비율을 맞춰서 split할것인지 4. random_state : 실행할 때 마다 똑같이 섞을것인지 다르게 섞을것인지..

데이터분석/전처리 2022.01.08

데이터프레임의 iloc, loc

개요 데이터프레임에서 특정행과 열을 출력하고싶을 때 사용하는 iloc와 loc 사용법을 알아 본다. 데이터프레임은 아래와 같다. 인덱스는 아래와 같이 지정한 상태 df.set_index("Unnamed: 0",inplace=True) df.iloc - 하나의 값 행과 열을 인덱스번호 로 접근할 수 있다. 1. 인덱스번호로 행 출력 df.iloc[0] 2. 인덱스번호로 행 출력(괄호 두개쓰면 데이터프레임형태) df.iloc[[0]] 3. 인덱스번호로 행, 열번호로 출력 df.iloc[0][0] 75616.0 4. 인덱스번호로 행, 컬럼명으로 열 출력 df.iloc[0]["전국[호]"] 75616.0 df.iloc - 여러개의 값 1. 여러개의 row번호로 출력 train_x.iloc[[1,2,3]] 2...

데이터분석/전처리 2021.05.17

[판다스 데이터프레임] 특정 컬럼 제외하기

dataFrame에서 특정 column만을 제외하고싶으면 아래와 같이 코드를 구현하면 된다. df.loc[:, [col for col in df.columns if col != "제외할 칼럼"]] df df.loc[:, [col for col in df.columns if col != 'temp_group']]

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] Dummy데이터 만들기

df['Quater'] #데이터를 더미로 만들어줌(원핫코딩) pd.get_dummies(df['Quater'])

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] 컬럼별 읽기

df.columnName print(type(raw_all.weather)) raw_all.weather df["columnName"] print(type(raw_all['weather'])) raw_all['weather'] df[["columnName"]] (데이터프레임으로) df=csv df[["gender","car"]]

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] index 설정 및 초기화

df.set_index('데이터프레임의 인덱스로 설정할 att의 이름', inplace=True) (example) 1. 파일 불러오기 df=pd.read_csv("파일위치") df 2. 인덱스 설정 df.set_index('DateTime', inplace=True) df * inplace : 원본객체도 수정할거면 True 3. 초기화 df.reset_index(drop=False, inplace=True) df drop=True로 해주면 index였던 DateTime칼럼이 아예 삭제된다.

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] 결측치 확인

비어있는 값 확인 # 결측치이면 True, 그렇지않으면 False df.isnull() 비어있는 값의 합 data.isnull().sum() #비어 있는 값들을 체크해 본다. #모든특성에서 결측치가 몇개인지 셀때는 .sum()을 뒤에 떠 붙여준다 df.isnull().sum().sum()

데이터분석/전처리 2021.05.06

[판다스 데이터프레임] 특정 att에서 도메인별 개수를 카운트하는 함수(values_counts)

특정 att에서 도메인별 개수 카운트 df['Survived'].value_counts() 막대그래프로 그리면? fig = plt.figure(figsize=(10,2)) #그림판의 크기 정함 sns.countplot(y='Survived', data=train) #seaborn의 카운트플룻을 그리라는것

데이터분석/전처리 2021.05.06

데이터분석/전처리 31

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31