텍스트 마이닝(Text Mining)

텍스트 마이닝(Text Mining)

개념

텍스트로부터 고품질의 정보를 도출하는 과정으로 입력된 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가/해석하는 과정
다양한 포맷의 문서로부터 단어의 매트릭스로 만들어 추가분석이나 데이터마이닝 기법을 적용해 통찰(insight)을 얻거나 의사결정을 지원하는 방법
감성분석(sentiment anaysis), 워드 클라우드(word cloud), 문서의 요약(summarization), 분류(classification), 군집(clustering), 특성추출(feature extraction) 등에 활용

텍스트 마이닝 기능

문서 요약(summarization)
문서 분류(classification)
문서 군집(clustering)
특성 추출(feature extraction)

정보 검색의 적절성

정확도(precision) : 분석 모델이 결과 중에서 정답과 일치하는 비율
재현율(recall) : 실제 정답 중에서 분석 모델에서 정답이라고 내놓은 결과의 비율

Corpus

텍스트 마이닝 절차 중 텍스트의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 텍스트 마이닝 알고리즘 실험에서 활용될 수 있는 상태

VCorpus

메모리에서만 유지하는 Corpus

PCorpus

R외부의 DB나 파일로 관리되는 Corpus

Term-Document Matrix

문서번호와 단어 간의 사용 여부 또는 빈도수를 이용해 만들어진 matrix

Dictionary

복수의 문자들의 집합으로 분석에 사용하고자 하는 단어들의 집합