
Trong thế giới Khoa học Dữ liệu (Data Science) và Phân tích Dữ liệu (Data Analytics), có một định lý bất di bất dịch được gọi là GIGO (Garbage In, Garbage Out - Rác vào, Rác ra). Dù bạn đang sử dụng những thuật toán Machine Learning tiên tiến nhất như XGBoost, hay các mô hình Deep Learning phức tạp, nếu dữ liệu đầu vào của bạn là "rác" (chứa đầy lỗi, thiếu sót, nhiễu), thì kết quả dự đoán cũng chỉ là "rác" được ngụy trang dưới những con số bóng bẩy.
Theo thống kê của Forbes và Harvard Business Review, các nhà khoa học dữ liệu dành đến 80% thời gian của họ cho việc thu thập, làm sạch và chuẩn bị dữ liệu, và chỉ 20% thời gian để xây dựng mô hình. Điều này minh chứng cho tầm quan trọng cốt lõi của bước Data Cleaning.
Dựa trên "Data Cleaning Checklist", bài viết này sẽ phân tích chuyên sâu 7 trụ cột trong việc làm sạch dữ liệu. Đây không chỉ là một danh sách kiểm tra cơ học, mà là một khung tư duy chiến lược (Strategic Framework) giúp các chuyên gia phân tích đưa ra những quyết định đúng đắn nhất đối với từng điểm dữ liệu.
Nhiệm vụ đầu tiên trong checklist là đối mặt với những dữ liệu không liên quan. Nguyên tắc cốt lõi được nêu ra là: "Chỉ khi bạn chắc chắn rằng một phần dữ liệu là không quan trọng, bạn mới có thể loại bỏ nó." Trong thực tế, dữ liệu càng lớn không có nghĩa là càng tốt (Bigger is not always better). Sự xuất hiện của các dữ liệu thừa thãi sẽ gây ra hiện tượng "Curse of Dimensionality" (Lời nguyền của số chiều), làm tăng nhiễu (noise) và giảm độ chính xác của mô hình.
Chúng ta phân loại việc loại bỏ này theo hai hướng:
Đây là quá trình loại bỏ các biến (features) không mang lại giá trị dự đoán hoặc phân tích cho bài toán mục tiêu.
User_ID, Transaction_ID, Session_ID thường không mang lại giá trị dự đoán vì mỗi hàng có một giá trị riêng biệt, dễ khiến mô hình (đặc biệt là Decision Trees) bị Overfitting.Country nhưng toàn bộ dataset đều là "Vietnam") hoàn toàn không chứa thông tin để phân loại hay hồi quy.Đây là việc xóa bỏ các bản ghi cụ thể không thuộc về phạm vi nghiên cứu (Scope of Analysis).
💡 Case Study: Dự đoán giá bất động sản tại TP.HCM Bạn đang xây dựng mô hình dự đoán giá căn hộ tại TP.HCM. Trong dataset thu thập được, có lẫn lộn một số bản ghi về nhà đất ở Bình Dương, hoặc các loại hình "Đất nông nghiệp". Dù dữ liệu này có đầy đủ các trường thông tin và hoàn toàn sạch sẽ, nó vẫn là Irrelevant Data đối với bài toán của bạn và bắt buộc phải bị loại bỏ theo chiều ngang (Row-wise).
Sơ đồ định nghĩa rất rõ: "Duplicates là các điểm dữ liệu bị lặp lại trong dataset của bạn. Do đó, chúng đơn giản là nên bị xóa bỏ."
Sự xuất hiện của dữ liệu trùng lặp thường đến từ lỗi hệ thống (System Glitches), lỗi kĩ thuật khi gộp dữ liệu (Data Merging/Joins), hoặc do người dùng submit form nhiều lần.