Home > Communication > Q&A

Communication

텍스톰 이용과 관련한 질문사항을 남겨주시면 성심껏 답변해드리겠습니다.
답변시간: 평일 (09:00~18:00) / 주말, 공휴일 휴무

    • 공지 TF-IDF 값 산출식
    • 더아이엠씨 2019.10.23 13:44:57


  • 텍스톰에서 제공하는 TF-IDF 값 산출식은 아래와 같습니다.





    TF : 해당 단어의 빈도

    ln : 자연로그

    D : 전체 문서 수

    DF : 해당 단어가 포함된 문서 수




    TF-IDF(Term Frequency – Inverse Document Frequency) : 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로, 형태소 분석과 함께 많이 쓰입니다.


    - 문장에 사용된 모든 단어에 점수를 부여하는 알고리즘으로 특정 문서 내에서 단어 빈도가 높으며, 전체 문서들 중 그 단어를 포함한 문서가 적을수록 TF-IDF값은 높아집니다. 따라서 이 값을 이용하면 모든 문서에 흔하게 나타나는 단어를 걸러낼 수 있고, 문서의 핵심어를 추출할 수 있습니다.


    - TF(Term Frequency, 단어빈도) : 전체 문서에서 해당 단어가 얼마나 나왔는지를 나타내는 값을 나타냅니다.


    - IDF(Inverse Document Frequency, 역문서빈도) : DF의 역수를 취한 값을 의미하는데, 즉 전체 문서 수 / 해당 단어가 나타난 문서 수로, 한 단어가 문서 집합 전체에서 얼마나 공통적으로 나타나는지를 보여주며, 단어 자체가 문서군 내에서 자주 사용되는 경우, 그 단어가 흔하게 등장한다는 것을 의미합니다.