decision tree(의사결정분석)

개념

  • 의사결정규칙(decision rule)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(classification)하거나, 예측(prediction)을 수행하는 분석 방법


분석단계

  • 의사결정나무 형성 : 분석의 목적과 자료구조에 따라 적절한 분리 기준(split criterion)과 정지규칙(stopping rule)을 지정
  • 가지치기 : 분류오류(classification error)를 크게 할 위험(risk)이 높거나 부적절한 규칙을 가지고 있는 가지(branch) 제거
  • 타당성 평가 : 이익도표(gains chart)나 위험도표(risk chart) 또는 검정용 자료(test data)에 의한 교차타당성(cross validation) 등을 이용
  • 해석 및 예측 : 의사결정나무를 해석하고 분류 및 예측모형 설정



응용분야

  • 세분화(segmentation) : 관측개체를 비슷한 특성을 갖는 몇 개의 그룹으로 분할하여 각 그룹별 특성을 발견하고자 하는 경우
  • 분류(classification) : 여러 예측변수(predicted variable)에 근거하여 목표변수(target variable)의 범주를 몇 개의 등급으로 분류하고자 하는 경우
  • 예측(prediction) : 자료로부터 규칙을 찾아내고 이를 이용하여 미래의 사건을 예측하고자 하는 경우
  • 차원축소 및 변수선택(data reduction and variable screening) : 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 골라내고자 하는 경우
  • 교호작용효과의 파악(Interaction effect identification) : 여러 개의 예측변수들이 결합하여 목표변수에 작용하는 교호작용을 파악하고자 하는 경우
  • 범주의 병합 또는 연속형 변수의 이산화(Category merging and discretizing continuous variable) : 범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 범주화 하고자 하는 경우

이 블로그의 인기 게시물

USArrests(1973년 미국 50개주 십만명당 강력범죄수)

SRTP(Secure Real-Time Transport Protocol)

KDD 분석 방법론