이상값(outliers)
개념
다른 대부분의 데이터와 상이한 특성을 가지는 자료, 또는 전형적인 값이 아닌 비정상적인 값이상값 찾는 방법(outlier detection)
(1) 단변량인 경우(univariate approach)
- 방법1 : n이 10보다 큰 자료의 도수 분포가 종형일 때, 이 자료에서 측정값의 z-value가 3이상 또는 -3 이하인 것들은 모두 이상값으로 판단
- 방법 2 : 자료의 제1사분위수(Q1), 제3사분위수(Q3) 및 사분위간 범위인 IQR = Q3-Q1를 계산하여 Q1-1.5xIQR 보다 작거나 Q3+1.5xIQR 보다 큰 값을 가진 측정값들을 자료에서 찾아 이상값으로 판단
(2) 이변량인 경우(Bivariate Approach)
- 범주별로 상자그림(box plot)을 그려서 추세 파악