ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • TfidfVectorizer
    카테고리 없음 2019. 6. 17. 18:28

    TfidfVectorizer는 TF-IDF 라는 특정한 값을 사용해서 텍스트 데이터의 특징을 추출하는 값이다. 

    TF(Term Frequency) 란, 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미한다. 

    DF(Document Frequency) 란, 문서 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표이다. 

    IDF(Inverse Document Frequency) 는 이 값에 역수를 취해서 구할 수 있으며, 특정 단어가 다른 데이터에 등장하지 않을 수록 값이 커진다는 것을 의미한다. 

     

    DF가 10 = 특정 단어가 10번 만큼 등장하였다. 

    DF가 20 = 특정 단어가 50번 만큼 등장하였다.

    이때 IDF 는 1/10, 1/50. 10번만큼 등장했을 때의 IDF값이 50번만큼 등장했을 때보다 더 크다. 

     

    TF-IDF 란, 이 두 값을 곱해서 사용하므로 어떤 단어가 해당 문서에 자주 등장하지만, 다른 문서에는 많이 없는 단어일수록 높은 값을 가지게 된다. 따라서, 조사나 지시대명사처럼 자주 등장하는 단어는 TF 값은 크지만, IDF 값은 작아지므로(다른 데이터에서 또한 많이 등장하는 단어이기 때문에.) CountVectorizer가 가진 문제점을 해결할 수 있다. 

     

      TF DF IDF TF-IDF
    한미회담 5 20 1/20 1/4
    조사 중 1 10 100 1/100 1/10

     

    댓글

Designed by Tistory.