Nghệ Thuật Và Khoa Học Làm Sạch Dữ Liệu: Hướng Dẫn Toàn Diện Từ Checklist Đến Thực Chiến

Screen Shot 2026-05-02 at 22.30.22.png

1. Mở bài: Sự thật tàn khốc về dữ liệu và Nguyên lý GIGO

Trong thế giới Khoa học Dữ liệu (Data Science) và Phân tích Dữ liệu (Data Analytics), có một định lý bất di bất dịch được gọi là GIGO (Garbage In, Garbage Out - Rác vào, Rác ra). Dù bạn đang sử dụng những thuật toán Machine Learning tiên tiến nhất như XGBoost, hay các mô hình Deep Learning phức tạp, nếu dữ liệu đầu vào của bạn là "rác" (chứa đầy lỗi, thiếu sót, nhiễu), thì kết quả dự đoán cũng chỉ là "rác" được ngụy trang dưới những con số bóng bẩy.

Theo thống kê của Forbes và Harvard Business Review, các nhà khoa học dữ liệu dành đến 80% thời gian của họ cho việc thu thập, làm sạch và chuẩn bị dữ liệu, và chỉ 20% thời gian để xây dựng mô hình. Điều này minh chứng cho tầm quan trọng cốt lõi của bước Data Cleaning.

Dựa trên "Data Cleaning Checklist", bài viết này sẽ phân tích chuyên sâu 7 trụ cột trong việc làm sạch dữ liệu. Đây không chỉ là một danh sách kiểm tra cơ học, mà là một khung tư duy chiến lược (Strategic Framework) giúp các chuyên gia phân tích đưa ra những quyết định đúng đắn nhất đối với từng điểm dữ liệu.

2. Loại Bỏ Dữ Liệu Không Liên Quan (Irrelevant Data) - Kỹ Thuật Tối Ưu Hóa Tín Hiệu

Nhiệm vụ đầu tiên trong checklist là đối mặt với những dữ liệu không liên quan. Nguyên tắc cốt lõi được nêu ra là: "Chỉ khi bạn chắc chắn rằng một phần dữ liệu là không quan trọng, bạn mới có thể loại bỏ nó." Trong thực tế, dữ liệu càng lớn không có nghĩa là càng tốt (Bigger is not always better). Sự xuất hiện của các dữ liệu thừa thãi sẽ gây ra hiện tượng "Curse of Dimensionality" (Lời nguyền của số chiều), làm tăng nhiễu (noise) và giảm độ chính xác của mô hình.

Chúng ta phân loại việc loại bỏ này theo hai hướng:

2.1. Loại bỏ theo Cột (Column-wise / Feature Drop)

Đây là quá trình loại bỏ các biến (features) không mang lại giá trị dự đoán hoặc phân tích cho bài toán mục tiêu.

Dữ liệu định danh duy nhất (Unique Identifiers): Các cột như User_ID, Transaction_ID, Session_ID thường không mang lại giá trị dự đoán vì mỗi hàng có một giá trị riêng biệt, dễ khiến mô hình (đặc biệt là Decision Trees) bị Overfitting.
Dữ liệu có phương sai bằng 0 (Zero Variance Predictors): Một cột mà tất cả các giá trị đều giống nhau (VD: Cột Country nhưng toàn bộ dataset đều là "Vietnam") hoàn toàn không chứa thông tin để phân loại hay hồi quy.
Dữ liệu bị rò rỉ (Data Leakage): Đây là lỗi cực kỳ nguy hiểm. Đó là những cột chứa thông tin về biến mục tiêu (Target variable) mà trong thực tế ở thời điểm dự đoán, bạn sẽ không thể có được.

2.2. Loại bỏ theo Hàng (Row-wise / Observation Drop)

Đây là việc xóa bỏ các bản ghi cụ thể không thuộc về phạm vi nghiên cứu (Scope of Analysis).

💡 Case Study: Dự đoán giá bất động sản tại TP.HCM Bạn đang xây dựng mô hình dự đoán giá căn hộ tại TP.HCM. Trong dataset thu thập được, có lẫn lộn một số bản ghi về nhà đất ở Bình Dương, hoặc các loại hình "Đất nông nghiệp". Dù dữ liệu này có đầy đủ các trường thông tin và hoàn toàn sạch sẽ, nó vẫn là Irrelevant Data đối với bài toán của bạn và bắt buộc phải bị loại bỏ theo chiều ngang (Row-wise).

3. Dữ Liệu Trùng Lặp (Duplicates) - Kẻ Thù Của Tính Khách Quan

Sơ đồ định nghĩa rất rõ: "Duplicates là các điểm dữ liệu bị lặp lại trong dataset của bạn. Do đó, chúng đơn giản là nên bị xóa bỏ."

Sự xuất hiện của dữ liệu trùng lặp thường đến từ lỗi hệ thống (System Glitches), lỗi kĩ thuật khi gộp dữ liệu (Data Merging/Joins), hoặc do người dùng submit form nhiều lần.