텍스트 마이닝(Text Mining)

개념

  • 텍스트로부터 고품질의 정보를 도출하는 과정으로 입력된 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가/해석하는 과정
  • 다양한 포맷의 문서로부터 단어의 매트릭스로 만들어 추가분석이나 데이터마이닝 기법을 적용해 통찰(insight)을 얻거나 의사결정을 지원하는 방법
  • 감성분석(sentiment anaysis), 워드 클라우드(word cloud), 문서의 요약(summarization), 분류(classification), 군집(clustering), 특성추출(feature extraction) 등에 활용


텍스트 마이닝 기능

  • 문서 요약(summarization)
  • 문서 분류(classification)
  • 문서 군집(clustering)
  • 특성 추출(feature extraction)


정보 검색의 적절성

  • 정확도(precision) : 분석 모델이 결과 중에서 정답과 일치하는 비율
  • 재현율(recall) : 실제 정답 중에서 분석 모델에서 정답이라고 내놓은 결과의 비율



Corpus

  • 텍스트 마이닝 절차 중 텍스트의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 텍스트 마이닝 알고리즘 실험에서 활용될 수 있는 상태

VCorpus

  • 메모리에서만 유지하는 Corpus

PCorpus

  • R외부의 DB나 파일로 관리되는 Corpus


Term-Document Matrix

  • 문서번호와 단어 간의 사용 여부 또는 빈도수를 이용해 만들어진 matrix


Dictionary

  • 복수의 문자들의 집합으로 분석에 사용하고자 하는 단어들의 집합

이 블로그의 인기 게시물

USArrests(1973년 미국 50개주 십만명당 강력범죄수)

SRTP(Secure Real-Time Transport Protocol)

KDD 분석 방법론