계층 적 vs 파티션 클러스터링

클러스터링은 데이터를 분석하고 유사한 데이터 그룹으로 나누는 기계 학습 기술입니다. 이러한 그룹 또는 유사한 데이터 세트를 클러스터라고합니다. 군집 분석에서는 군집을 자동으로 식별 할 수있는 군집 알고리즘을 살펴 봅니다. 계층 및 파티션은 클러스터링 알고리즘의 두 가지 클래스입니다. 계층 적 클러스터링 알고리즘은 데이터를 클러스터의 계층으로 나눕니다. Paritional 알고리즘은 데이터 세트를 서로 분리 된 파티션으로 나눕니다.

계층 적 클러스터링이란 무엇입니까?

계층 적 클러스터링 알고리즘은 더 작은 클러스터를 더 큰 클러스터로 병합하거나 더 큰 클러스터를 더 작은 클러스터로 나누는주기를 반복합니다. 어느 쪽이든, 그것은 dendogram이라고 불리는 클러스터의 계층 구조를 생성합니다. 집계 클러스터링 전략은 클러스터를 더 큰 클러스터로 병합하는 상향식 접근 방식을 사용하는 반면, 분할 클러스터링 전략은 작은 클러스터로 분할하는 하향식 접근 방식을 사용합니다. 일반적으로 탐욕스러운 접근 방식은 병합 / 분할에 사용되는 더 큰 / 작은 클러스터를 결정하는 데 사용됩니다. 유클리드 거리, 맨해튼 거리 및 코사인 유사성은 숫자 데이터에 대해 가장 일반적으로 사용되는 유사성의 메트릭 중 일부입니다. 숫자가 아닌 데이터의 경우 해밍 거리와 같은 메트릭이 사용됩니다. 거리 행렬만으로 충분하기 때문에 실제 군집 (인스턴스)은 계층 적 군집에 필요하지 않습니다. Dendogram은 클러스터를 시각적으로 표현한 것으로 계층 구조를 매우 명확하게 표시합니다. 사용자는 덴도 그램이 절단되는 수준에 따라 다른 클러스터링을 얻을 수 있습니다.

파티션 클러스터링이란 무엇입니까?

파티션 클러스터링 알고리즘은 다양한 파티션을 생성 한 다음 몇 가지 기준으로 평가합니다. 또한 각 인스턴스가 k 개의 상호 배타적 인 클러스터 중 하나에 정확히 배치되므로 비 계층 구조라고도합니다. 하나의 클러스터 세트 만 일반적인 파티션 클러스터링 알고리즘의 출력이므로 사용자는 원하는 수의 클러스터 (보통 k)를 입력해야합니다. 가장 일반적으로 사용되는 파티션 클러스터링 알고리즘 중 하나는 k- 평균 클러스터링 알고리즘입니다. 사용자는 시작하기 전에 클러스터 수 (k)를 제공해야하며 알고리즘은 먼저 k 파티션의 중심 (또는 중심)을 시작합니다. 간단히 말해 k- 평균 군집 알고리즘은 현재 중심을 기준으로 구성원을 할당하고 현재 구성원을 기준으로 중심을 재 추정합니다. 이러한 두 단계는 특정 클러스터 내 유사 목적 함수와 클러스터 간 비 유사 목적 함수가 최적화 될 때까지 반복됩니다. 따라서 분할 가능한 클러스터링 알고리즘에서 품질 결과를 얻는 데있어 센터의 합리적인 초기화는 매우 중요한 요소입니다.

계층 적 클러스터링과 파티션 클러스터링의 차이점은 무엇입니까?

계층 적 및 파티션 클러스터링은 실행 시간, 가정, 입력 매개 변수 및 결과 클러스터에서 주요 차이점이 있습니다. 일반적으로 파티션 클러스터링은 계층 클러스터링보다 빠릅니다. 계층 적 군집화에는 유사성 측정 만 필요하지만, 분할 군집화에는 군집 수 및 초기 센터와 같은 더 강력한 가정이 필요합니다. 계층 적 클러스터링에는 입력 매개 변수가 필요하지 않지만 파티션 클러스터링 알고리즘은 실행을 시작하기 위해 클러스터 수를 요구합니다. 계층 적 클러스터링은 훨씬 더 의미 있고 주관적인 클러스터 분할을 반환하지만 분할 클러스터링은 정확히 k 개의 클러스터를 생성합니다. 유사성 측정 값을 적절하게 정의 할 수있는 한 계층 적 군집 알고리즘이 범주 형 데이터에 더 적합합니다.