반응형
아래와 같은 process를 가지는 시계열 회귀분석 및 머신러닝 과정을 정리한다.
1. 변수추출
가용변수들을 이용해서 시간변수를 년, 월, 일, 요일, 시, 분, 초 등으로 분해하거나, 추세,계절성,잔차로 분해하여 파생변수를 만드는 행위
2. 데이터 분할
시계열 데이터를 train set, test set으로 나누기
3. 스케일링
과적합 방지 및 최적화 시키기 위해서 스캐일링 수행
4. 다중공산성 제거
다중공선성 있는 변수들 확인 및 삭제
(1) 다중공선성을 확인하는 condition number
(2) VIF기법을 이용한 다중공선성 제거
5. 정상성 제거
(1) 정상성의 의미
(2) 정상성 테스트 및 정상성 제거
6. 전통적 회귀분석 (OLS)
OLS기법을 이용하여 선형회귀분석 수행
(1. feature engineering 에서 링크한 글 참조)
7. 정규화 회귀분석
8. 앙상블 기법
9. SARIMAX
(1) AR, MA, ARMA, ARMAX
(2) ARIMA
(2) SARIMA
10. Prophet 라이브러리
11.검증지표
회귀분석 수행 후 오차 및 독립변수별 종속변수에 대한 설명력을 확인
<example>
12.잔차진단
잔차를 분석하여 결과에 대한 신뢰도를 확인
* 출처 : 패스트캠퍼스 파이썬을 활용한 시계열 데이터분석 A-Z
반응형