텍스트 마이닝(Text Mining)
개념
- 텍스트로부터 고품질의 정보를 도출하는 과정으로 입력된 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가/해석하는 과정
- 다양한 포맷의 문서로부터 단어의 매트릭스로 만들어 추가분석이나 데이터마이닝 기법을 적용해 통찰(insight)을 얻거나 의사결정을 지원하는 방법
- 감성분석(sentiment anaysis), 워드 클라우드(word cloud), 문서의 요약(summarization), 분류(classification), 군집(clustering), 특성추출(feature extraction) 등에 활용
텍스트 마이닝 기능
- 문서 요약(summarization)
- 문서 분류(classification)
- 문서 군집(clustering)
- 특성 추출(feature extraction)
정보 검색의 적절성
- 정확도(precision) : 분석 모델이 결과 중에서 정답과 일치하는 비율
- 재현율(recall) : 실제 정답 중에서 분석 모델에서 정답이라고 내놓은 결과의 비율
Corpus
- 텍스트 마이닝 절차 중 텍스트의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 텍스트 마이닝 알고리즘 실험에서 활용될 수 있는 상태
VCorpus
- 메모리에서만 유지하는 Corpus
PCorpus
- R외부의 DB나 파일로 관리되는 Corpus
Term-Document Matrix
- 문서번호와 단어 간의 사용 여부 또는 빈도수를 이용해 만들어진 matrix
Dictionary
- 복수의 문자들의 집합으로 분석에 사용하고자 하는 단어들의 집합