Home Blog

Blog Blog에 대한 설명글이 들어갑니다

    • 문서의 주제를 발견할 수 있는 토픽분석
    • 2020-06-30 17:18:59


  • 많은 분들이 궁금해하셨던 TEXTOM으로 토픽분석 하는 방법

    천천히 따라 하시면 누구나 토픽분석을 하실 수 있습니다!

    토픽분석을 알기 전에 토픽모델을 알고 있어야하는데요. 토픽모델(Topic Model)이란 문서 집합의 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나입니다.

    특정 주제에 관한 문서에는 그 "주제"에 관한 단어가 다른 단어들에 비해 더 자주 등장할 텐데요. 예를 들어 '강아지'에 대한 문서에서는 '산책', '개밥' 단어가 더 자주 등장하는 반면, '고양이'에 대한 문서에서는 '야옹', '캣타워' 단어가 더 자주 등장합니다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있습니다. 즉 '산책'과 '개밥'을 하나의 주제로 묶고, '야옹'과 '캣타워'를 또다른 주제로 묶는 모형을 만드는 것이 토픽 모델의 개략적인 개념입니다.

    "TEXTOM에서는 어떤 토픽 분석 방법을 제공하나요?"

    TEXTOM에서는 두 가지 종류의 토픽분석을 제공하고 있습니다.


    문서 내 단어들의 공출현 관계를 토대로 벡터화하여 인접 단어를 같은 그룹으로 묶어주는

    Word-level Semantic Clustering

    1. Word-level Semantic Clustering 만들기



    Word-level Semantic Clustering 분석을 진행하기 위해서는 군집 수(K값)와 군집 안에 들어갈 단어의 수를 선택해야합니다. 텍스톰에서 기본 값은 군집 수 10개, 군집별 단어 수 20개를 제공하고 있습니다. 결과로 나올 군집 수가 사용자가 지정한 것 보다 작을 경우에는 임의로 지정 된다는 점 참고해주세요!

    2. Word-level Semantic Clustering 해석 방법



    키워드를 클릭하면, 키워드와 연관이 높은 단어를 보여줍니다. 클릭 시 나오는 단어들은 클릭한 단어와 공출현 사례가 많이 발생한 단어들이며, 실제 워드 백터상으로도 인접률이 높아 연관성을 가진다고 해석을 하시면 됩니다!


    대량의 문서군으로 부터 주제(토픽)을 자동으로 찾아내기 위한 알고리즘으로, 유사한 의미를 가진 단어들을 집단화하는

    LDA Topic Modeling

    1. LDA Topic Modeling 만들기



    LDA Topic Modeling을 진행하기 위해서는 토픽 수 와 토픽에 들어갈 단어의 수를 결정해야합니다. 기본으로 제공하는 토픽의 수는 10개이며, 단어수는 20개 입니다. 다음으로 랜던 값을 선택해주시면 되는데요.

    LDA모델은 토픽수를 입력 받으면 전체 문서에 토픽을 랜덤으로 할당한 후, 토픽의 재할당을 반복 수행하여 문서와 단어의 토픽을 찾은 알고리즘입니다 따라서, 토픽모델링은 무작위 토픽 할당이 이루어지는 것을 전제로 하고 있습니다. 다만, 이렇게 무작위 할당을 진행할 경우 초기 할당 값에 따라서 학습 대상이 되는 데이터가 달라지므로, 분석 결과의 재현성이 떨어지기 때문에 같은 데이터로 같은 분석을 진행했더라도 결과값이 달라질 수 있습니다. 따라서 원칙적으로는 무작위 할당 옵션은 사용하는 것이 권장되나, 분석 결과의 재현성을 확보하고 싶은 경우에는 무작위 할당을 하지 않는 옵션을 사용하실 수 있습니다.

    2. LDA Topic Modeling 해석 방법



    1. 토픽 선택 토픽분포토에서 토픽을 클릭하거나 토픽번호를 'Selected Topic'에 직접 입력하여 토픽을 선택하면 각 토픽을 구성하는 30개(사용자 설정 갯수) 단어를 확인할 수 있습니다.

    2. 토픽간의 거리 토픽 간의 거리가 멀 수록 판별 타당도가 높고 주제가 뚜렷하게 구분됩니다. 토픽 간의 거리가 가깝거나 겹쳐져 있다면 판별 타당도가 낮음으로 비슷한 주제를 나타냅니다.

    3. 토픽의 크기 토픽 원의 크기가 클 수록 높은 빈도수의 단어들로 구성되어 있습니다. 가장 큰 원이 메인 토픽이라고 해석할 수 있습니다.

    4. λ(람다) 값 설정 λ(람다) 값을 조절하여 토픽을 구성하는 단어의 출현 조건을 설정할 수 있습니다.

    λ값이 낮을수록 각 토픽을 구성하는 단어가 뚜렷해지지만 비교적 빈도가 낮은 단어들로 구성됩니다.

    따라서, 토픽 분별력을 높이기 위해서는 낮은 빈도로 출현하는 단어들에 대해서도 정확한 정제가 필요합니다.

    5. 토픽 구성 단어 토픽을 구성하는 단어들을 확인할 수 있으며, 파란막대그래프는 전체 단어의 빈도를, 빨간막대그래프는 해당 토픽에서의 빈도를 보여줍니다.

    토픽분석으로 다양한 주제를 발견해서

    연구에 많은 도움이 되었으면 좋겠습니다 : )