데이터분석/[ 이론 ]

[빅데이터분석기사, adp] 테스트마이닝 주요기능, TDM,DTM,TF-IDF

씩씩한 IT블로그 2021. 4. 15. 17:46
반응형

주요기능

1. 문서분류

2. 문서군집

3. 특징추출

4. 문서요약

 

TDM, DTM

1. TDM : 단어문서행렬 (단어가 행, 문서가 열)

2. DTM : 문서단어행렬 (문서가 행, 단어가 열)

 

TF-IDF

TF-IDF = (특정단어 t가 특정문서에서 등장한 횟수) / (특정단어 t가 등장한 문서의 수)

=> 전체문서에서는 많이 나오지 않지만 특정문서에서 많이 나올수록 TF-IDF값 상승 => 해당 단어가 특정문서에서 핵심단어일 가능성 상승

* 참조 : sosoeasy.tistory.com/309

 

DTM, TF-IDF

* 출처 : 딥러닝을 이용한 자연어처리 입문 https://wikidocs.net/31698 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net

sosoeasy.tistory.com

 

반응형