이상값(outliers)

개념

다른 대부분의 데이터와 상이한 특성을 가지는 자료, 또는 전형적인 값이 아닌 비정상적인 값

이상값 찾는 방법(outlier detection)

(1) 단변량인 경우(univariate approach)

  •  방법1 : n이 10보다 큰 자료의 도수 분포가 종형일 때, 이 자료에서 측정값의 z-value가 3이상 또는 -3 이하인 것들은 모두 이상값으로 판단
  • 방법 2 : 자료의 제1사분위수(Q1), 제3사분위수(Q3) 및 사분위간 범위인 IQR = Q3-Q1를 계산하여 Q1-1.5xIQR 보다 작거나 Q3+1.5xIQR 보다 큰 값을 가진 측정값들을 자료에서 찾아 이상값으로 판단

 (2) 이변량인 경우(Bivariate Approach)

  • 범주별로 상자그림(box plot)을 그려서 추세 파악 

이 블로그의 인기 게시물

USArrests(1973년 미국 50개주 십만명당 강력범죄수)

SRTP(Secure Real-Time Transport Protocol)

군집분석(Cluster Analysis)