Home Blog

Blog Blog에 대한 설명글이 들어갑니다

    • 감성분석 100% 활용법
    • 2020-04-20 13:38:32
  • TEXTOM 4.0 버전에서 업그레이드된 "감성분석" 사용법에 대해 알려드리겠습니다!


    TEXTOM의 감성분석은 크게 두가지 기능이 있습니다.

    첫 번째, 문장의 내용을 긍정/중립/부정 으로 구분할 수 있는 감성 분류 분석

    두 번째, 원문데이터 안에 감성과 관련된 키워드가 몇 번 들어갔는지 알려주는 감성 단어 빈도 분석이 있습니다.


    1. 감성 분류 분석


    1.1 감성 분류 분석이란?

    감성 분류 분석은 베이지안 분류기(Bayes Classifier)를 통해 기계학습 기법의 감성분석 기능을 제공합니다.

    연구자가 직접 학습데이터를 구성하여 적용함으로써 분석 주제의 제한 없이 모든 분야의 데이터에서 감성분석이 가능합니다.



    1.2 감성 분류 분석 진행 방법

    감성 분류 분석을 진행하기 위해서 가장 먼저 이뤄져야 하는 단계는 '학습데이터' 만들기 입니다.

    '학습데이터'란 전체 데이터를 분류하기 위한 기준이 되는 데이터로 '학습데이터'를 얼마나 정확하게 만드냐에 따라 분류의 질이 달라질 수 있습니다. 학습데이터는 최소 100건에서 최대 1,000건의 데이터로 만드는 것을 추천하고 있으며, 긍정/중립/부정의 비율이 비슷할 수록 정확한 결과를 얻을 수 있습니다.




    학습데이터 만드는 방법분류를 진행하실 원문데이터 Excel 양식을 다운 받아, 우측 이미지의 학습데이터 예시파일처럼 100 ~ 1,000건(행) 정도 편집하여 업로드 해주시면 되는대요. A열에는 본문, B열에는 해당 본문에 대한 극성(긍정/중립/부정)을 직접 넣어주시면 됩니다. (원문데이터의 C열이 본문입니다.)


    직접 만든 학습데이터를 업로드하고 적용이 되면 아래와 같이 극성별로 분류된 결과를 얻으실 수 있습니다.




    1.3 추가분석

    기본적인 분석은 끝났지만, 긍정/중립/부정별로 조금 더 심화된 분석을 진행하고 싶을 경우에는 추가분석 기능을 이용하여, 긍정/중립/부정의 데이터를 다시 한번 분석을 진행하실 수 있습니다. 추가분석을 진행하여 네트워크 그레프를 그리면, 긍정 문서 중 어떤 키워드가 많이 나왔는지, 긍정적인 영향을 주는 이유는 무엇인지 등 다양한 인사이트를 얻을 수 있습니다!




    2. 감성 단어 빈도 분석

    2.1 감성 단어 빈도 분석이란?

    감성 단어 빈도 분석은 원문데이터 중 감성과 관련된 단어를 찾아서 빈도를 보여주는 기능입니다. 감성 단어는 TEXTOM에서 자체 제작한 감성어 어휘 사전을 이용하여 단어를 분류합니다.




    2.2 감성어 어휘사전

    TEXTOM에서 자체 제작한 감성어 어휘사전은 긍정/ 부정이라는 카테고리 안에, 긍정의 키워드는 흥미/ 호감/ 기쁨 3개의 단어가, 부정의 키워드에는 통증/ 슬픔/ 분노/ 두려움/ 놀람/ 거부감 6개의 단어가 있습니다.

    다시 기쁨이라는 단어안에는 기쁨을 표현하는 수 많은 단어를 강도에 따라 표준화(감성강도/7점 만점) 시켜놨습니다. 예를 들어 호감이라는 단어안에 "행복하다""그저그렇다" 라는 단어가 있을 경우 "행복하다"라는 단어에는 5점, "그저그렇다"라는 단어에는 1점을 주어

    같은 호감안에 들어가는 단어라도 감성강도를 다르게 사전을 구축하였습니다.

    2.3 감성단어 빈도 분석 진행 방법

    감성 분류 분석을 진행을 위해 학습데이터를 업로드하신 경우에는 감성단어 빈도 분석을 바로 확인하실 수 있습니다. 하지만 감성 분류 분석을 진행하지 않고, 감성단어 빈도 분석만 진행을 원하실 경우에는 엑셀 양식의 파일 업로드(엑셀로 된 아무거나 올려주셔도 괜찮습니다!) 해주시면 아래와 같은 결과를 확인 하실 수 있습니다.



    2.4 감성단어 빈도 해석

    감성단어 빈도는 키워드의 빈도 뿐 아니라 감성강도도 함께 보여주기 때문에, 다양한 인사이트를 찾을 수 있습니다.



    예를 들어 '특별하다' 키워드의 경우 빈도는 261건으로, '기대하다' 키워드 234건 보다 높은 빈도를 보여주고 있습니다. 하지만 감성강도를 보면 '특별하다'는 3.77, '기대하다'는 4.66으로 흥미라는 단어에서는 '기대하다'가 더 높은 강도를 갖는다는 것을 알 수 있습니다.

    빈도*감성정도를 보면 '특별하다'는 986, '기대하다'는 1092로 빈도수는 '기대하다'가 낮지만, 전체 문장에서 '흥미'라는 감정에 더 많은 영향을 주는 키워드는 '기대하다'라는 것을 알 수 있습니다.

    뿐만 아니라 시각화 결과를 통해 전체 데이터 중 어떤 감성강도가 많이 차지했는지를 확인이 가능한 강도 감성분석과,

    세부감성 중 어떤 감정이 비율이 높은지 확인이 가능한 세부감정 감성분석 시각화를 제공하고 있습니다!