Khai thác dữ liệu so với OLAP
Cả khai thác dữ liệu và OLAP đều là hai trong số các công nghệ Business Intelligence (BI) phổ biến. Kinh doanh thông minh đề cập đến các phương pháp dựa trên máy tính để xác định và trích xuất thông tin hữu ích từ dữ liệu kinh doanh. Khai thác dữ liệu là lĩnh vực khoa học máy tính, liên quan đến việc trích xuất các mẫu thú vị từ các tập dữ liệu lớn. Nó kết hợp nhiều phương pháp từ trí tuệ nhân tạo, thống kê và quản lý cơ sở dữ liệu. OLAP (xử lý phân tích trực tuyến) như tên gợi ý là tổng hợp các cách truy vấn cơ sở dữ liệu đa chiều.
Khai phá dữ liệu còn được gọi là Khám phá tri thức trong dữ liệu (KDD). Như đã đề cập ở trên, nó là một lĩnh vực khoa học máy tính, liên quan đến việc trích xuất những thông tin thú vị và chưa được biết đến trước đây từ dữ liệu thô. Do sự tăng trưởng theo cấp số nhân của dữ liệu, đặc biệt là trong các lĩnh vực như kinh doanh, khai thác dữ liệu đã trở thành công cụ rất quan trọng để chuyển đổi lượng dữ liệu khổng lồ này sang thông tin kinh doanh, vì việc trích xuất thủ công các mẫu dường như trở nên bất khả thi trong vài thập kỷ qua. Ví dụ, nó hiện đang được sử dụng cho các ứng dụng khác nhau như phân tích mạng xã hội, phát hiện gian lận và tiếp thị. Khai thác dữ liệu thường giải quyết bốn nhiệm vụ sau: phân cụm, phân loại, hồi quy và liên kết. Phân cụm là xác định các nhóm tương tự từ dữ liệu phi cấu trúc. Phân loại là các quy tắc học tập có thể được áp dụng cho dữ liệu mới và thường sẽ bao gồm các bước sau: xử lý trước dữ liệu, thiết kế mô hình hóa, học tập / lựa chọn tính năng và đánh giá / xác nhận. Hồi quy là tìm các hàm có sai số tối thiểu để mô hình hóa dữ liệu. Và sự liên kết đang tìm kiếm mối quan hệ giữa các biến. Khai thác dữ liệu thường được sử dụng để trả lời các câu hỏi như sản phẩm chính nào có thể giúp thu được lợi nhuận cao trong năm tới tại Wal-Mart.
OLAP là một lớp hệ thống, cung cấp câu trả lời cho các truy vấn đa chiều. Thông thường, OLAP được sử dụng để tiếp thị, lập ngân sách, dự báo và các ứng dụng tương tự. Không cần phải nói rằng cơ sở dữ liệu được sử dụng cho OLAP được định cấu hình cho các truy vấn phức tạp và đặc biệt với lưu ý đến hiệu suất nhanh chóng. Thông thường, một ma trận được sử dụng để hiển thị đầu ra của một OLAP. Các hàng và cột được hình thành bởi các kích thước của truy vấn. Họ thường sử dụng phương pháp tổng hợp trên nhiều bảng để có được các bản tóm tắt. Ví dụ, nó có thể được sử dụng để tìm hiểu về doanh số bán hàng của Wal-Mart năm nay so với năm ngoái? Dự đoán về doanh số bán hàng trong quý tới là gì? Có thể nói gì về xu hướng bằng cách nhìn vào tỷ lệ phần trăm thay đổi?
Mặc dù rõ ràng là Khai thác dữ liệu và OLAP tương tự nhau vì chúng hoạt động dựa trên dữ liệu để thu thập thông tin, sự khác biệt chính đến từ cách chúng hoạt động trên dữ liệu. Các công cụ OLAP cung cấp phân tích dữ liệu đa chiều và chúng cung cấp tóm tắt dữ liệu nhưng ngược lại, khai thác dữ liệu tập trung vào tỷ lệ, mẫu và ảnh hưởng trong tập dữ liệu. Đó là một thỏa thuận OLAP với sự tổng hợp, điều này tóm tắt lại hoạt động của dữ liệu thông qua “cộng” nhưng khai thác dữ liệu tương ứng với “phân chia”. Sự khác biệt đáng chú ý khác là trong khi các công cụ khai thác dữ liệu lập mô hình dữ liệu và trả về các quy tắc có thể hành động, OLAP sẽ tiến hành các kỹ thuật so sánh và đối chiếu dọc theo chiều kinh doanh trong thời gian thực.