Sự khác biệt giữa KDD và Khai thác dữ liệu

Sự khác biệt giữa KDD và Khai thác dữ liệu
Sự khác biệt giữa KDD và Khai thác dữ liệu

Video: Sự khác biệt giữa KDD và Khai thác dữ liệu

Video: Sự khác biệt giữa KDD và Khai thác dữ liệu
Video: Đọc và phân tích Báo cáo Tài chính P11 Cơ Cấu Vốn và Cơ Cấu Tài sản 2024, Tháng mười một
Anonim

KDD so với Khai thác dữ liệu

KDD (Khám phá tri thức trong cơ sở dữ liệu) là một lĩnh vực khoa học máy tính, bao gồm các công cụ và lý thuyết để giúp con người trích xuất thông tin hữu ích và chưa được biết đến trước đây (tức là kiến thức) từ bộ sưu tập lớn dữ liệu số hóa. KDD bao gồm một số bước và Khai thác dữ liệu là một trong số đó. Khai thác dữ liệu là ứng dụng của một thuật toán cụ thể để trích xuất các mẫu từ dữ liệu. Tuy nhiên, KDD và Khai thác dữ liệu được sử dụng thay thế cho nhau.

KDD là gì?

Như đã đề cập ở trên, KDD là một lĩnh vực khoa học máy tính, liên quan đến việc trích xuất thông tin thú vị và chưa được biết đến trước đây từ dữ liệu thô. KDD là toàn bộ quá trình cố gắng hiểu dữ liệu bằng cách phát triển các phương pháp hoặc kỹ thuật thích hợp. Quá trình này xử lý việc ánh xạ dữ liệu cấp thấp sang các dạng khác, những dạng này nhỏ gọn, trừu tượng và hữu ích hơn. Điều này đạt được bằng cách tạo các báo cáo ngắn, mô hình hóa quá trình tạo dữ liệu và phát triển các mô hình dự báo có thể dự đoán các trường hợp trong tương lai. Do tốc độ tăng trưởng dữ liệu theo cấp số nhân, đặc biệt là trong các lĩnh vực như kinh doanh, KDD đã trở thành một quá trình rất quan trọng để chuyển đổi lượng dữ liệu phong phú này sang thông tin kinh doanh, vì việc trích xuất thủ công các mẫu dường như trở nên bất khả thi trong vài thập kỷ qua. Ví dụ, nó hiện đang được sử dụng cho các ứng dụng khác nhau như phân tích mạng xã hội, phát hiện gian lận, khoa học, đầu tư, sản xuất, viễn thông, làm sạch dữ liệu, thể thao, truy xuất thông tin và phần lớn cho tiếp thị. KDD thường được sử dụng để trả lời các câu hỏi như những sản phẩm chính có thể giúp thu được lợi nhuận cao trong năm tới tại Wal-Mart là gì ?. Quá trình này có một số bước. Nó bắt đầu bằng việc phát triển sự hiểu biết về miền ứng dụng và mục tiêu, sau đó tạo tập dữ liệu mục tiêu. Tiếp theo là làm sạch, xử lý trước, giảm thiểu và chiếu dữ liệu. Bước tiếp theo là sử dụng Khai thác dữ liệu (giải thích bên dưới) để xác định mẫu. Cuối cùng, kiến thức đã khám phá được củng cố bằng cách hình dung và / hoặc diễn giải.

Khai thác dữ liệu là gì?

Như đã đề cập ở trên, Khai phá dữ liệu chỉ là một bước trong quy trình KDD tổng thể. Có hai mục tiêu Khai phá dữ liệu chính như được xác định bởi mục tiêu của ứng dụng và chúng là xác minh hoặc khám phá. Xác minh là xác minh giả thuyết của người dùng về dữ liệu, trong khi khám phá sẽ tự động tìm ra các mẫu thú vị. Có bốn nhiệm vụ khai thác dữ liệu chính: phân cụm, phân loại, hồi quy và liên kết (tóm tắt). Phân cụm là xác định các nhóm tương tự từ dữ liệu phi cấu trúc. Phân loại là các quy tắc học tập có thể được áp dụng cho dữ liệu mới. Hồi quy là tìm các hàm có sai số tối thiểu để mô hình hóa dữ liệu. Và liên kết đang tìm kiếm mối quan hệ giữa các biến. Sau đó, thuật toán khai thác dữ liệu cụ thể cần được chọn. Tùy thuộc vào mục tiêu, có thể chọn các thuật toán khác nhau như hồi quy tuyến tính, hồi quy logistic, cây quyết định và Naïve Bayes. Sau đó, các mẫu quan tâm trong một hoặc nhiều dạng biểu diễn được tìm kiếm. Cuối cùng, các mô hình được đánh giá bằng cách sử dụng độ chính xác hoặc khả năng hiểu được của dự đoán.

Sự khác biệt giữa KDD và Khai thác dữ liệu là gì?

Mặc dù, hai thuật ngữ KDD và Khai thác dữ liệu được sử dụng thay thế cho nhau rất nhiều, chúng đề cập đến hai khái niệm có liên quan nhưng hơi khác nhau. KDD là quy trình tổng thể trích xuất kiến thức từ dữ liệu trong khi Khai phá dữ liệu là một bước bên trong quy trình KDD, xử lý việc xác định các mẫu trong dữ liệu. Nói cách khác, Khai phá dữ liệu chỉ là việc áp dụng một thuật toán cụ thể dựa trên mục tiêu tổng thể của quá trình KDD.

Đề xuất: