Dữ liệu phân loại so với Dữ liệu số
Dữ liệu là những dữ kiện hoặc thông tin được thu thập nhằm mục đích tham khảo hoặc phân tích. Thường thì những dữ liệu này được thu thập như một thuộc tính của đối tượng liên quan. Thuộc tính này có thể thay đổi từ thuộc tính này sang thuộc tính khác do đó thuộc tính thay đổi này có thể được coi là một biến. Các biến có thể giả định các dạng giá trị khác nhau và những giá trị này là nội tại trong dữ liệu được thu thập.
Các biến có thể là định tính hoặc định lượng; tức là nếu biến là định lượng, các câu trả lời là số và độ lớn của thuộc tính được đo có thể được phát biểu với một mức độ chính xác nhất định. Loại khác, các biến định tính đo lường các thuộc tính định tính và các giá trị được giả định bởi các biến không thể được đưa ra về kích thước hoặc độ lớn. Bản thân các biến được gọi là biến phân loại và dữ liệu được thu thập bằng biến phân loại là dữ liệu phân loại.
Thông tin thêm về Dữ liệu Số
Dữ liệu số về cơ bản là dữ liệu định lượng thu được từ một biến và giá trị có ý nghĩa về kích thước / độ lớn. Dữ liệu số thu được được chia thành ba loại nữa dựa trên lý thuyết được phát triển bởi Stanley Smith Stevens. Dữ liệu số có thể là thứ tự, khoảng thời gian hoặc tỷ lệ. Loại dữ liệu được xác định bằng phương pháp đo giá trị và các loại được gọi là mức độ đo lường.
Cân nặng của một người, khoảng cách giữa hai điểm, nhiệt độ và giá cổ phiếu là những ví dụ về dữ liệu số.
Trong thống kê, phần lớn các phương pháp được rút ra để phân tích dữ liệu số. Thống kê mô tả và hồi quy cơ bản và các phương pháp suy luận khác chủ yếu được sử dụng để phân tích dữ liệu số.
Thông tin thêm về Dữ liệu phân loại
Dữ liệu phân loại là các giá trị cho một biến định tính, thường là một số, một từ hoặc một ký hiệu. Họ đưa ra thực tế rằng biến trong trường hợp được xem xét thuộc về một trong một số lựa chọn có sẵn. Do đó, chúng thuộc một trong các loại; do đó tên phân loại.
Đảng phái chính trị của một người, quốc tịch của một người, màu sắc yêu thích của một người và nhóm máu của bệnh nhân là các thuộc tính định tính. Đôi khi, một số có thể nhận được dưới dạng giá trị phân loại, nhưng bản thân số đó không đại diện cho độ lớn của thuộc tính được đo. Mã bưu điện là một ví dụ.
Ngoài ra, bất kỳ giá trị phân loại nào cũng thuộc về kiểu dữ liệu danh nghĩa, là kiểu khác dựa trên các mức độ đo lường. Các phương pháp được sử dụng để phân tích dữ liệu phân loại khác với phương pháp của dữ liệu số, nhưng nguyên tắc cơ bản có thể giống nhau.
Sự khác biệt giữa Dữ liệu phân loại và Dữ liệu số là gì?
• Dữ liệu số là các giá trị thu được cho biến định lượng và mang ý nghĩa về độ lớn liên quan đến ngữ cảnh của biến (do đó, chúng luôn là số hoặc ký hiệu mang giá trị số). Dữ liệu phân loại là các giá trị thu được cho một biến định tính; số dữ liệu phân loại không mang ý nghĩa về độ lớn.
• Dữ liệu số luôn thuộc loại thứ tự, tỷ lệ hoặc khoảng thời gian, trong khi dữ liệu phân loại thuộc loại danh nghĩa.
• Các phương pháp được sử dụng để phân tích dữ liệu định lượng khác với các phương pháp được sử dụng cho dữ liệu phân loại, ngay cả khi các nguyên tắc giống nhau thì ít nhất ứng dụng có sự khác biệt đáng kể.
• Dữ liệu số được phân tích bằng phương pháp thống kê trong thống kê mô tả, hồi quy, chuỗi thời gian và nhiều hơn nữa.
• Đối với dữ liệu phân loại thường sử dụng phương pháp mô tả và phương pháp đồ họa. Một số bài kiểm tra phi tham số cũng được sử dụng.