Sự khác biệt giữa Phân cụm theo thứ bậc và Phân nhóm

Sự khác biệt giữa Phân cụm theo thứ bậc và Phân nhóm
Sự khác biệt giữa Phân cụm theo thứ bậc và Phân nhóm

Video: Sự khác biệt giữa Phân cụm theo thứ bậc và Phân nhóm

Video: Sự khác biệt giữa Phân cụm theo thứ bậc và Phân nhóm
Video: What is the Difference Between a Regular Ounce and a Troy Ounce 2024, Tháng bảy
Anonim

Phân cấp so với Phân cụm

Clustering là một kỹ thuật máy học để phân tích dữ liệu và chia thành các nhóm dữ liệu tương tự. Các nhóm hoặc tập hợp dữ liệu tương tự này được gọi là cụm. Phân tích cụm xem xét các thuật toán phân cụm có thể xác định các cụm một cách tự động. Hierarchical và Partitional là hai loại thuật toán phân cụm như vậy. Các thuật toán phân cụm phân cấp chia nhỏ dữ liệu thành một hệ thống phân cấp của các cụm. Các thuật toán phân chia chia tập dữ liệu thành các phân vùng rời rạc lẫn nhau.

Phân cụm phân cấp là gì?

Các thuật toán phân cụm phân cấp lặp lại chu kỳ hợp nhất các cụm nhỏ hơn thành các cụm lớn hơn hoặc chia các cụm lớn hơn cho các cụm nhỏ hơn. Dù bằng cách nào, nó cũng tạo ra một hệ thống phân cấp của các cụm được gọi là dendogram. Chiến lược phân cụm tổng hợp sử dụng cách tiếp cận từ dưới lên của việc hợp nhất các cụm thành những cụm lớn hơn, trong khi chiến lược phân cụm chia nhỏ sử dụng cách tiếp cận từ trên xuống của việc chia nhỏ thành những cụm nhỏ hơn. Thông thường, cách tiếp cận tham lam được sử dụng để quyết định các cụm lớn hơn / nhỏ hơn được sử dụng để hợp nhất / chia. Khoảng cách Euclide, khoảng cách Manhattan và độ tương tự cosin là một số phép đo độ tương tự được sử dụng phổ biến nhất cho dữ liệu số. Đối với dữ liệu không phải số, các chỉ số như khoảng cách Hamming được sử dụng. Điều quan trọng cần lưu ý là các (cá thể) quan sát thực tế không cần thiết cho phân cụm phân cấp, vì chỉ cần ma trận khoảng cách là đủ. Dendogram là một biểu diễn trực quan của các cụm, hiển thị thứ bậc rất rõ ràng. Người dùng có thể có được các phân nhóm khác nhau tùy thuộc vào mức độ cắt biểu đồ dendogram.

Phân cụm theo từng phần là gì?

Các thuật toán phân cụm phân vùng tạo ra các phân vùng khác nhau và sau đó đánh giá chúng theo một số tiêu chí. Chúng cũng được gọi là không phân cấp vì mỗi cá thể được đặt trong chính xác một trong k cụm loại trừ lẫn nhau. Bởi vì chỉ có một tập hợp các cụm là đầu ra của thuật toán phân cụm từng phần điển hình, người dùng được yêu cầu nhập số lượng cụm mong muốn (thường được gọi là k). Một trong những thuật toán phân cụm từng phần được sử dụng phổ biến nhất là thuật toán phân cụm k-mean. Người dùng được yêu cầu cung cấp số lượng cụm (k) trước khi bắt đầu và thuật toán đầu tiên khởi tạo các tâm (hoặc trọng tâm) của k phân vùng. Tóm lại, thuật toán phân cụm k-mean sau đó chỉ định các thành viên dựa trên các trung tâm hiện tại và ước tính lại các trung tâm dựa trên các thành viên hiện tại. Hai bước này được lặp lại cho đến khi một chức năng mục tiêu tương tự trong cụm nhất định và chức năng mục tiêu khác biệt giữa các cụm được tối ưu hóa. Do đó, việc khởi tạo các trung tâm một cách hợp lý là một yếu tố rất quan trọng trong việc thu được kết quả chất lượng từ các thuật toán phân cụm từng phần.

Sự khác biệt giữa Phân cụm theo thứ bậc và Phân nhóm là gì?

Phân cụm theo thứ bậc và Phân nhóm có sự khác biệt chính về thời gian chạy, giả định, tham số đầu vào và các cụm kết quả. Thông thường, phân cụm từng phần nhanh hơn phân cụm phân cấp. Phân cụm phân cấp chỉ yêu cầu một số đo tương tự, trong khi phân cụm phân chia yêu cầu các giả định mạnh hơn như số lượng các cụm và các trung tâm ban đầu. Phân cụm phân cấp không yêu cầu bất kỳ tham số đầu vào nào, trong khi các thuật toán phân cụm phân chia yêu cầu số lượng các cụm để bắt đầu chạy. Phân cụm phân cấp trả về một sự phân chia các cụm có ý nghĩa và chủ quan hơn nhiều nhưng phân cụm phân chia dẫn đến kết quả chính xác là k cụm. Các thuật toán phân nhóm theo thứ bậc phù hợp hơn với dữ liệu phân loại miễn là có thể xác định một cách tương tự cho phù hợp.

Đề xuất: