군집분석(Cluster Analysis)
개념
- 여러 개체들을 대상으로 몇 개의 특성변수들을 측정한 후 이 변수들을 이용하여 개체들 사이의 유사성(similarity), 비유사성(dissimilarity)의 정도를 측정하여 개체들을 가까운 순서대로 군집화하는 통계분석방법
- 사전에 알려진 군집에 대한 정보가 없다고 가정(군집의 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화 유도)
특징
- 비지도학습(unsupervised learning)에 해당 : 목표변수(종속변수)의 정의가 없이 학습 가능
- 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능
- 판별분석과 차이 : 판별분석은 사전에 집단이 나누어져 있어야 하지만, 군집분석은 집단이 없는 상태에서 집단을 구분
분류
계층적방법(hierarchical method)
- 사전에 군집수 K를 정하지 않고 단계적으로 서로 다른 군집결과를 제공하는 방식
- 종류 : 집괴법(agglomerative method), 분리법(divisive method)
비계층적방법(non-hierarchical method)
- 사전에 군집수 K를 정한 후 각 객체를 K개 중의 하나 군집에 배정하는 방식
- 각 군집의 대표값 또는 대표객체 고려 필요
계층적방법 종류
집괴법(agglomerative method)
- 각 객체를 하나의 군집으로 간주함을 시작으로 유사한 객체들을 묶어 군집으로 만들고 다시 유사한 군집들을 묶어 새로운 군집을 만들어가는 과정을 전체의 객체가 하나의 군집이 되기까지 반복한 후, 어떤 규칙에 의해 최종적인 군집결과를 제공하는 방식
분리법(divisive method)
- 전체 객체를 하나의 군집으로 간주함을 시작으로 유사성이 떨어지는 객체들을 분리시켜 다른 군집으로 만들어가는 과정을 각 객체가 하나의 군집이 될 때까지 반복한 후, 어떤 규칙에 의하여 최종적인 군집결과를 제공하는 것
- 집괴법의 역순
거리측정
- 연속형 데이터 : 유클리드 거리, 표준화 거리, 마할라노비스 거리, 체비셔프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리 등
- 범주형 데이터 : 자카드 거리
유사성 행렬(similarity matrix)
- 관찰치 쌍에 대해 거리 또는 유사성을 측정하여 정리해 놓은 행렬