데이터분석 203

검정 종류

1. t-검정 (1) 일표본 t-검정 정의 : 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할 때 사용 ex) 과수원에서 생산되는 사과의 평균 무게가 200g이라고 할 때, 실제로 과수원에서 생산되는 전체 사과의 평균 무게가 200g인지 알고 싶은 경우 수행 - 정규분포를 따라야함 ​ (2) 대응표본 t-검정 정의: 단일모집단에 대해 두번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때. ex) 수면영양제 복용효과를 조사하기 위해 영양제 복용 전과 후의 평균 수면시간에 차이가 있는지 비교. - 정규분포를 따라야함 ​ (3) 독립표본 t-검정 정의 : 두개의 독립된 모집단의 평균을 비교 ex) 성별에 따른 출근시간에 차이를 확인. (독립변수:성별, ..

분석종류

1. 분류분석 (1) 나이브베이즈 (2) K-NN(최근접 이웃알고리즘) : 범주화된 데이터set에 새로운 데이터를 추가한 후 가장 근접한 k개의 데이터셋의 다수범주에 새로운 데이터도 편입시키기는것 - 데이터 내에 이상치가 존재하면 성능에 큰 영향을 받는다 (3) svm : 어떠한 분류기를 이용하여 마진이 가장 크게 데이터를 분류하는 방법 - 모델에 대한 해석이 어렵다 - 속도가 느리며 메모리할당 크다 ​ 2. 군집분석 (1) 재표본 추출 - k-fold : 데이터를 k개 집단으로 나눈 뒤 (k-1:1=학습:검증) 씩 총 k번에 걸쳐서 학습을 진행 - 붓스트랩 : 모집단에서 추출한 표본샘플에 대해사 다시 재표본을 여러번 추출하여 모델을 평가(랜덤 복원추출) (2) 군집화 기법 - 밀도기반 군집분석 : 어느..

판다스(pandas) 데이터프레임(dataframe) 관련함수

여기에 아래 링크에 다시 정리했습니다! sosoeasy.tistory.com/464 데이터 전처리 관련 함수 * 넘파이는 np, 판다스는 pd import numpy as np import pandas as pd 결측치 함수 설명 리턴값 비고 np.isnan(data) data값이 nana값이면 True를 반환 True or False sosoeasy.tistory.com/188 데이터변환 (data.. sosoeasy.tistory.com 0. 파일 불러오기 csv=pd.read_csv("NYPD_Complaint_Data_Current_YTD.csv") 1. 데이터 추가하기 df=pd.DataFrame(columns=["season","time","crime_code","street"]) # igno..

pandas dataFrame에서 nan값 찾기

* 2,3번 방법은 nan이아니면 오류가 나기 때문에 예외처리를 해주어야 한다. 따라서 1번방법을 사용하도록 한다. # 변수nan은 nan값. nan=csvTrain["Province_State"][0] 1. 자기자신과 비교하기 # nan이면 자기자신과 비교해도 False가 나온다 print(nan==nan) 더보기 False 2. numpy모듈의 .isnan()함수 import numpy as np print(np.isnan(nan)) 더보기 True 3. math모듈의 .isnan()함수 import math print(math.isnan(nan)) 더보기 True

[파이썬] numpy array 다루기

import numpy as np ''' --------------------------------------------------------------------- 1. 모양확인 (numpy.ndarray.shape) - 1차원부터 차례대로 개수를 확인 - 공통된 부분까지만 출력된다. --------------------------------------------------------------------- ''' x=np.array([[[1,4],[5,6]],[[1,2],[7,8]],[[4,1],[66,4]]]) print(x.shape) # (3,2,2) x=np.array([[[1,4],[5,6]],[[1,2],[7,8]],[[4,1],[66,4]],[2,7]]) print(x.shape) # (..