Home Blog

Blog Blog에 대한 설명글이 들어갑니다

    • 데이터 정제 옵션 기능 총 정리
    • 2020-10-14 16:56:16


  • 텍스트마이닝에서 가장 중요한 단계 중 하나는 원하는 데이터만 분석을 하는 데이터 정제 과정입니다.

    하지만 중요함에도 많은 이용자가 용어에 대한 정확한 이해가 없어 어떤 기능을 선택 해야할지 혼란스러워하는데요.

    이번 게시물을 통해 데이터 정제 기능에 대한 이해를 확실하게 다잡고, 효과적인 데이터 정제를 진행하셨으면 좋겠습니다.






    정제방법

    정제/형태소 분석을 클릭하면 가장 먼저 선택하는 것은 정제방법입니다.

    정제방법은 3가지의 선택지가 있습니다.

    - 직접선택 : 이용자가 원하는 정제/형태소분석 옵션을 선택하여 세밀한 정제가 가능합니다.

    - 자동정제 : 텍스톰에서 기본적으로 제공하는 정제/형태소 옵션으로 쉽고, 빠르게 데이터 정제가 가능합니다.

    - 선택안함 : 이미 정제된 데이터를 분석하고자 할 때 사용하는 기능으로, 별도의 정제/형태소 분석 없이 결과를 보여줍니다.



    분리정제


    수집된 원문 데이터는 채널별로 차이가 있기는 하지만, 문서의 제목과 본문 텍스트, URL을 공통적으로 수집합니다. '분리정제'에서는 이렇게 수집된 문서 내용을 본문만 정제할 것인지, 전체를 정제할 것인지 선택할 수 있습니다.



    키워드 필터링


    키워드필터링은 특정 키워드가 포함된 문서를 제거하나거나 추출하는 기능입니다. 예를 들어 '텍스톰'을 키워드로 데이터 수집을 했는데, 텍스톰에 관련없는 다른 빅데이터 분석 프로그램에 대한 정보가 많이 나와, 내가 중요하게 보고자 하는 텍스톰 키워드가 밑으로 밀려있다면, 키워드필터링을 '사용'으로 설정하고 '추출'을 선택 후 '텍스톰'을 입력하면 해당 키워드가 포함된 문서만 걸러냅니다.

    ▼▼▼


    '제거'는 반대의 개념으로 제거를 선택 후, 키워드 입력란에 '소비자'를 입력하면 주요키워드로 추출된 문서에서 '소비자'가 포함된 문서는 모두 삭제됩니다.



    중복제거



    수집 데이터에서 중복되는 문서를 제거합니다. 중복제거의 기준은 URL 또는 내용으로 설정할 수 있는데요. 'URL기반'로 선택할 경우 수집된 데이터에서 동일한 URL이 1건 이상 발견되는 경우에 1건을 제외하고 나머지 문서는 삭제합니다. '내용기반'으로 설정하면 문서의 내용이 완전히(100%) 일치한 문서가 1건 이상인 경우 1건을 제외하고 나머지 문서는 삭제합니다.



    Window-Size


    ▼▼▼


    특정 키워드의 앞뒤로 정제할 단어의 개수를 지정합니다. 예를 들어, 키워드를 '텍스톰'로 입력하고 사이즈를 '3'으로 지정할 경우, 수집문서에서 '텍스톰'을 기준으로 앞, 뒤 3개까지의 품사를 정제합니다. 정제/형태소분석에서 선택한 품사(명사, 형용사, 동사, 외국어, 숫자)를 정제하며, 기준이 되는 키워드 간의 거리가 가까워서 윈도우 사이즈에 해당되는 단어가 겹치게 되면, 겹치는 그대로 중복 카운트하여 결과값에 반영됩니다.



    정제 기능 선택으로 분석에 사용할 데이터만 추출하여, 효율적인 텍스트데이터 분석을 진행하시길 바랍니다.