반응형
1. 분류분석
(1) 나이브베이즈
(2) K-NN(최근접 이웃알고리즘) : 범주화된 데이터set에 새로운 데이터를 추가한 후 가장 근접한 k개의 데이터셋의 다수범주에 새로운 데이터도 편입시키기는것
- 데이터 내에 이상치가 존재하면 성능에 큰 영향을 받는다
(3) svm : 어떠한 분류기를 이용하여 마진이 가장 크게 데이터를 분류하는 방법
- 모델에 대한 해석이 어렵다
- 속도가 느리며 메모리할당 크다
2. 군집분석
(1) 재표본 추출
- k-fold : 데이터를 k개 집단으로 나눈 뒤 (k-1:1=학습:검증) 씩 총 k번에 걸쳐서 학습을 진행
- 붓스트랩 : 모집단에서 추출한 표본샘플에 대해사 다시 재표본을 여러번 추출하여 모델을 평가(랜덤 복원추출)
(2) 군집화 기법
- 밀도기반 군집분석 : 어느 점을 기준으로 주어진 반경내에 최소 개수만큼의 데이터들은 가질 수 있도록 특정 밀도함수 or 밀도에 의해 군집을 형성하는것
- 격자기반 군집분석 : 데이터가 존재하는 공간을 격자구조로 이루어진 유한개의 셀들로 양자화한 뒤, 데이터 포인트 대신 셀을 이용하여 군집화 과정을 수행
반응형