데이터분석/통계 32

정규화 선형회귀 릿지(ridge), 라쏘(lasso), elastic net

0. 정규화 선형회귀? (1) 선형회귀 계수(Weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상인 과최적화를 막는 방법 (2) 계수의 크기가 커지면 과적합됨. => 계수의 크기를 제한함 * 기존의 회귀분석? 1. 릿지회귀(ridge Regression) (1) 정의 추정계수의 제곱합을 최소로 하는것. (2) 특징 - 제곱합을 최소화 하기 때문에 계수의 크가 줄어듬 => 과적합이 방지됨 - 다중공선성이 분산되기 때문에 효과적 - 딥러닝 loss function에서 L2 panelty로 사용됨 (3) 코드 # Ridge fit = Ridge(alpha=0.5, fit_intercept=True, normalize=True, random_state=123).fit(X_train, Y..

시계열에서 정상성의 의미

1. 의미 정상성(Stationarity Process)이란? => 평균, 분산, 공분산 및 기타 모든 분포적 특성이 일정함을 의미. 시계열이 정상적이다? => 시간의 흐름에 따라 "통계적 특성(평균, 분산, 공분산)"이 변하지 않는것 2. 약정상(Weak stationarity)과 강정상(Strong Stationarity) (1) 약정상 : 두 시점을 비교했을 때 정상적인 것. (비수학적 이해) if {𝑋𝑖𝑡}𝑡=+∞𝑡=−∞{Xit}t=−∞t=+∞ is a weak stationary process, 1) 𝑋𝑖1Xi1, 𝑋𝑖2Xi2, 𝑋𝑖3Xi3, ... have the same distribution. 2) (𝑋𝑖1,𝑋𝑖3)(Xi1,Xi3), (𝑋𝑖5,𝑋𝑖7)(Xi5,Xi7), (𝑋𝑖9,𝑋𝑖11)(..

VIF를 이용한 변수선택 (다중공선성 제거)

독립변수간에 상관성이 있으면 과적합되거나 정확한 분석이 되지 않을 수 있다. 따라서 변수들간에 상관성을 확인하고 상관이 있는 변수들은 제거한다. 변수를 제거하는 방법은 VIF, PCA 2가지가 있다. 상황에 따라 적절하게 사용하면 된다. 참고로 PCA는 존재하는 변수 중 일부를 선택하거나 제거하는 것이 아니라 새로운 차원을 만들기 때문에 수행 후 설명성이 부족하다. 이 장에서는 VIF(Variance Inflation Factor)에 대해서 알아 본다. 0. VIF 독립변수를 다른 독립변수들로 선형회귀한 성능을 나타내며 가장 상호의존적인 독립변수를 제거한다. 의존성이 낮은(분산이 작은) 독립변수를 선택하거나, 의존성이 높은(분산이 높은) 독립변수를 제거하며 사용한다 1. 식 2. 코드 X_train_fe..

회귀분석에서 조건수(Condition Number)

1. 식 2. 의미 변수들간에 상관성을 나타낸다. 조건수가 낮다 => 변수들이 서로 독립이다 => 오버피팅 할 확률이 낮다. => 오차에 강건하다 조건수가 높다 => 변수들이 서로 상관성이 많다 => 오버피팅 할 확률이 높다. => 오차에 민감하다 3. 예시 yi=c1x1i+c2x2i x1 = {1, 2, 3, 4} x2 = {10, 20, 30, 40} 위와 같은 상황에서 x1과 x2는 상당히 높은 연관성이 있다. 따라서 조건수를 계산하면 높은값이 나온다. 또한 y값을 결정하는데 x1과 x2의 비슷한 추세가 크게 작용하여 이러한 형태에 대해서만 오버피팅하게 된다. 4. 오차의 영향 (1) 변수가 완전히 독립일때 - 오차에 강건함 # 조건수가 작을 때 # X 데이터 import numpy as np A ..

각종 feature engineering후 시계열 회귀분석 하기

각종 feature engineering을 수행한 후 회귀분석을 통해 시계열데이터를 분석해 본다 non_feature engineering과의 차이도 알아본다. 1. 필요한 라이브러리 다운 # Ignore the warnings # 버전이 바뀌었을때 발생할 수 있는 오류들을 경고해주는 메시지 import warnings #warnings.filterwarnings('always') warnings.filterwarnings('ignore') # System related and data input controls import os # Data manipulation and visualization import pandas as pd pd.options.display.float_format = '{:,.2..

편향(bias)과 분산(variance)

1. 정의 (1) 편향(bias) : 예측값과 실제값의 거리 - 편향이 작을 때 : 데이터를 최대치로 학습함을 의미(과대적합) - 편향이 클 때 : 데이터를 최소치로 학습함을 의미(최소적합) (2) 분산 : 학습한 모델의 예측값이 평균으로 부터 퍼진 정도 2. 편향과 분산과의 관계 (1) 모델의 복잡도가 낮으면? bias는 증가하고 variance가 감소 (ols회귀분석) (2) 모델의 복잡도가 높으면? bias는 감소하고 variance가 증가 (딥러닝) => bias와 variance가 최소화 되는 수준에서 모델의 복잡도 선택 *출처 : 패스트캠퍼스 "파이썬을 활용한 시계열 데이터분석 A-Z"

회귀분석 결과 해석시 SSR,SSE,SST의 의미와 용어 주의할점

회귀분석을 수행한 후 결과값을 해석할때 SSR,SSE,SST값을 이용한다. 이때 각 요소들의 의미와 용어의 헷갈리는 부분을 정리한다. 알아보기 쉽게 설명가능수치는 파란색 설명불가능한 수치는 빨간색으로 표시한다. 1. 설명가능한 수치 y값의 평균과 y값을 통해 구한 회귀선 간의 차이를 의미한다. y값들을 분석하여 이들을 설명하는 회귀식을 구했다. 이는 분석을 통해 설명이 가능해진 수치이다. 정리하면 아래와 같다. 2. 설명불가능한 수치 y실제값과 예측값 사이의 차이를 의미한다. y값을 회귀식으로 예측했다. 하지만 예측한 값과 실제값이 차이가 있을 수 있다. 이것은 회귀식으로는 설명할 수 없는 설명불가능한 수치이다. 정리하면 아래와 같다. 3. 총 변동 y값들의 평균값과 실제 y값의 차이로 총 변동을 의미한..

추론및 가설검정

1. 이항분포 # [이항분포] import numpy as np import matplotlib.pyplot as plt import scipy as sp from scipy import stats # 이항분포 생성 n, p = 10, 0.3 stat_bin = sp.stats.binom(n, p) # 그리기 fig, ax = plt.subplots() #확률밀도함수 x_axis = np.arange(n + 1) plt.bar(x_axis, stat_bin.pmf(x_axis)) plt.show() fig.savefig("pmf_plot.png") #확률질량함수 x_axis = np.arange(n + 1) plt.bar(x_axis, stat_bin.cdf(x_axis)) plt.show() fig.s..

자료의 형태

1. 수치형 자료 : 실수로 측정이 가능한 자료형 (키, 몸무게, 시험점수, 나이) (1) 연속형 자료 : 원주율, 시간, 키, 몸무게 등.. (2) 이산형 자료 : 시험점수, 나이, 동영상 조횟수 등.. 2. 범주형 자료 (1) 명목형 척도(nominal) : 구분할 수 있는 척도 (ex 혈액형, 성별) (2) 서열 척도 (ordinal) : 순서 관계를 밝혀주는 척도 (등수, 직위, 학력) (3) 등간 척도 (interval) : 덧셈 뺄셈이 가능한 척도, 배는 불가능 (섭씨 화씨온도, 시간) (4) 비율척도 (ratio): 비율로도 계산이 가능한 척도 (절대온도, 성적, 키, 무게, 인구수, 길이 수량 등등)

모수검정과 비모수검정

1. 비모수검정 (1) 정의 : 자료가 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정을 실시하는 방법 (2) 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정 실시 (3) 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우. (4) 비모수 검정의 예 - 부호검정 - 윌콕슨의 순위합 검정 - 만 위트니의 u검정 - 런 검정 - 스피어만의 순위상관계수 스피어만 - 서열척도 피어슨 - 등간척도 ​ 2. 모수적 검정 (1) 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에 검정 통계량과 분포를 유도해 검정 실시 ​

검정 종류

1. t-검정 (1) 일표본 t-검정 정의 : 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할 때 사용 ex) 과수원에서 생산되는 사과의 평균 무게가 200g이라고 할 때, 실제로 과수원에서 생산되는 전체 사과의 평균 무게가 200g인지 알고 싶은 경우 수행 - 정규분포를 따라야함 ​ (2) 대응표본 t-검정 정의: 단일모집단에 대해 두번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때. ex) 수면영양제 복용효과를 조사하기 위해 영양제 복용 전과 후의 평균 수면시간에 차이가 있는지 비교. - 정규분포를 따라야함 ​ (3) 독립표본 t-검정 정의 : 두개의 독립된 모집단의 평균을 비교 ex) 성별에 따른 출근시간에 차이를 확인. (독립변수:성별, ..