Sự khác biệt giữa Học máy được Giám sát và Không Giám sát

👤 Tác giả Alex Aldridge 📧 aldridge@what-difference.com.
⏱ Public 2023-12-17 13:53.
🖍 Sửa đổi lần cuối 2025-01-23 12:15.

Sự khác biệt chính - Học máy được giám sát và không giám sát

Học có giám sát và học không có giám sát là hai khái niệm cốt lõi của học máy. Học có giám sát là một nhiệm vụ của Học máy nhằm học một chức năng ánh xạ đầu vào đến đầu ra dựa trên các cặp đầu vào - đầu ra ví dụ. Học không giám sát là nhiệm vụ của Học máy là suy ra một hàm để mô tả cấu trúc ẩn từ dữ liệu không được gắn nhãn. Sự khác biệt chính giữa học máy có giám sát và không giám sát là học có giám sát sử dụng dữ liệu được gắn nhãn trong khi học không giám sát sử dụng dữ liệu không được gắn nhãn.

Học máy là một lĩnh vực trong Khoa học Máy tính cho phép hệ thống máy tính học từ dữ liệu mà không cần được lập trình rõ ràng. Nó cho phép phân tích dữ liệu và dự đoán các mẫu trong đó. Có rất nhiều ứng dụng của học máy. Một số trong số đó là nhận dạng khuôn mặt, nhận dạng cử chỉ và nhận dạng giọng nói. Có nhiều thuật toán khác nhau liên quan đến học máy. Một số trong số đó là hồi quy, phân loại và phân cụm. Các ngôn ngữ lập trình phổ biến nhất để phát triển các ứng dụng dựa trên máy học là R và Python. Các ngôn ngữ khác như Java, C ++ và Matlab cũng có thể được sử dụng.

Học có Giám sát là gì?

Trong các hệ thống dựa trên máy học, mô hình hoạt động theo một thuật toán. Trong học tập có giám sát, mô hình được giám sát. Đầu tiên, nó được yêu cầu để đào tạo mô hình. Với kiến thức thu được, nó có thể dự đoán câu trả lời cho các trường hợp trong tương lai. Mô hình được đào tạo bằng cách sử dụng một tập dữ liệu có nhãn. Khi một dữ liệu mẫu được cung cấp cho hệ thống, nó có thể dự đoán kết quả. Sau đây là một phần trích xuất nhỏ từ tập dữ liệu IRIS phổ biến.

Sự khác biệt giữa học tập có giám sát và không giám sát_ Hình 02

Theo bảng trên, chiều dài Sepal, chiều rộng Sepal, chiều dài Patel, chiều rộng Patel và Loài được gọi là các thuộc tính. Các cột được gọi là các tính năng. Một hàng có dữ liệu cho tất cả các thuộc tính. Do đó, một hàng được gọi là một quan sát. Dữ liệu có thể là số hoặc phân loại. Mô hình được cung cấp các quan sát với tên loài tương ứng làm đầu vào. Khi một quan sát mới được đưa ra, mô hình sẽ dự đoán loại loài mà nó thuộc về.

Trong học có giám sát, có các thuật toán để phân loại và hồi quy. Phân loại là quá trình phân loại dữ liệu được dán nhãn. Mô hình đã tạo ra các ranh giới phân tách các loại dữ liệu. Khi dữ liệu mới được cung cấp cho mô hình, nó có thể phân loại dựa trên vị trí tồn tại của điểm. K-Nearest Neighbors (KNN) là một mô hình phân loại. Tùy thuộc vào giá trị k mà loại được quyết định. Ví dụ: khi k là 5, nếu một điểm dữ liệu cụ thể gần tám điểm dữ liệu trong loại A và sáu điểm dữ liệu trong loại B, thì điểm dữ liệu sẽ được phân loại là A.

Hồi quy là quá trình dự đoán xu hướng của dữ liệu trước đó để dự đoán kết quả của dữ liệu mới. Trong hồi quy, đầu ra có thể bao gồm một hoặc nhiều biến liên tục. Dự đoán được thực hiện bằng cách sử dụng một đường bao phủ hầu hết các điểm dữ liệu. Mô hình hồi quy đơn giản nhất là hồi quy tuyến tính. Nó nhanh chóng và không yêu cầu các thông số điều chỉnh như trong KNN. Nếu dữ liệu cho thấy xu hướng parabol thì mô hình hồi quy tuyến tính không phù hợp.

Sự khác biệt giữa học tập có giám sát và không giám sát

Đó là một số ví dụ về thuật toán học có giám sát. Nói chung, kết quả được tạo ra từ phương pháp học có giám sát là chính xác và đáng tin cậy hơn vì dữ liệu đầu vào đã được biết rõ và được gắn nhãn. Do đó, máy chỉ phải phân tích các mẫu ẩn.

Học không giám sát là gì?

Trong học không giám sát, không giám sát mô hình. Mô hình tự hoạt động để dự đoán kết quả. Nó sử dụng các thuật toán học máy để đưa ra kết luận về dữ liệu không được gắn nhãn. Nói chung, các thuật toán học không giám sát khó hơn các thuật toán học có giám sát vì có ít thông tin. Clustering là một loại hình học tập không có giám sát. Nó có thể được sử dụng để nhóm các dữ liệu không xác định bằng các thuật toán. K-mean và phân cụm dựa trên mật độ là hai thuật toán phân cụm.

Thuật toánk-mean, đặt k centroid ngẫu nhiên cho mỗi cụm. Sau đó, mỗi điểm dữ liệu được gán cho centroid gần nhất. Khoảng cách Euclide được sử dụng để tính toán khoảng cách từ điểm dữ liệu đến trung tâm. Các điểm dữ liệu được phân loại thành các nhóm. Vị trí của k centroid được tính toán lại. Vị trí trung tâm mới được xác định bằng giá trị trung bình của tất cả các điểm trong nhóm. Một lần nữa mỗi điểm dữ liệu được gán cho centroid gần nhất. Quá trình này lặp lại cho đến khi các trung tâm không còn thay đổi. k-mean là một thuật toán phân cụm nhanh, nhưng không có sự khởi tạo cụ thể của các điểm phân cụm. Ngoài ra, có nhiều biến thể của các mô hình phân cụm dựa trên việc khởi tạo các điểm cụm.

Một thuật toán phân cụm khác là phân cụm dựa trên mật độ. Nó còn được gọi là Ứng dụng phân cụm không gian dựa trên mật độ với tiếng ồn. Nó hoạt động bằng cách xác định một cụm là tập hợp mật độ tối đa các điểm được kết nối. Chúng là hai tham số được sử dụng để phân cụm dựa trên mật độ. Đó là Ɛ (epsilon) và điểm tối thiểu. Ɛ là bán kính lớn nhất của vùng lân cận. Các điểm tối thiểu là số điểm tối thiểu trong Ɛ vùng lân cận để xác định một cụm. Đó là một số ví dụ về việc phân cụm rơi vào tình trạng học không giám sát.

Nói chung, kết quả được tạo ra từ các thuật toán học tập không được giám sát không chính xác và đáng tin cậy lắm vì máy phải xác định và gắn nhãn dữ liệu đầu vào trước khi xác định các mẫu và hàm ẩn.

Điểm giống nhau giữa Học máy được giám sát và không được giám sát là gì?

Cả Học tập có Giám sát và Không Giám sát đều là loại Học máy