반응형
주요기능
1. 문서분류
2. 문서군집
3. 특징추출
4. 문서요약
TDM, DTM
1. TDM : 단어문서행렬 (단어가 행, 문서가 열)
2. DTM : 문서단어행렬 (문서가 행, 단어가 열)
TF-IDF
TF-IDF = (특정단어 t가 특정문서에서 등장한 횟수) / (특정단어 t가 등장한 문서의 수)
=> 전체문서에서는 많이 나오지 않지만 특정문서에서 많이 나올수록 TF-IDF값 상승 => 해당 단어가 특정문서에서 핵심단어일 가능성 상승
* 참조 : sosoeasy.tistory.com/309
반응형