Giao diện
Phase 1 Course Map — Nền tảng Trí tuệ Nhân tạo
🎯 Mục tiêu
Sau khi đọc bài này, bạn sẽ:
- Nắm được tổng quan 7 bài học trong Phase 1 và mối liên hệ giữa chúng
- Hiểu hai cụm kiến thức chính: Toán Ứng Dụng cho ML và Kỹ Thuật Dữ Liệu cho ML
- Biết thứ tự học tối ưu và thời gian ước tính cho từng bài
- Xác định được điểm xuất phát phù hợp với trình độ hiện tại của mình
Tổng quan Phase 1
Phase 1 xây dựng nền tảng tư duy toán học và kỹ thuật dữ liệu cần thiết trước khi bước vào Machine Learning. Thay vì học lý thuyết trừu tượng, mỗi bài đều gắn liền với ứng dụng thực tế trong ML pipeline.
Lộ trình gồm 7 bài học, chia thành 2 cụm kiến thức và 1 bài cầu nối:
| Cụm | Chủ đề | Bài học | Mục tiêu |
|---|---|---|---|
| Cluster 1 | Toán Ứng Dụng cho ML | 01 → 02 → 03 | Thành thạo vector, ma trận, tensor trong ngữ cảnh ML |
| Cluster 2 | Kỹ Thuật Dữ Liệu cho ML | 04 → 05 → 06 | Khám phá, biến đổi, và xử lý dữ liệu thực tế |
| Bridge | Kết nối sang ML | 07 | Tổng hợp kiến thức, sẵn sàng cho Phase 2 |
Sơ đồ phụ thuộc giữa các bài học
┌──────────────────────────────────────────────────┐
│ CLUSTER 1: TOÁN ỨNG DỤNG CHO ML │
│ │
│ [01 Vectors/ [02 Vectorization/ [03 Matrix │
│ Matrices/ ──→ Broadcasting] ──→ Operations]│
│ Tensors] │
└─────────────────────────┬────────────────────────┘
│
│ Toán ứng dụng là nền tảng
│ cho kỹ thuật dữ liệu
▼
┌──────────────────────────────────────────────────┐
│ CLUSTER 2: KỸ THUẬT DỮ LIỆU CHO ML │
│ │
│ [04 EDA & [05 Feature [06 Imbalanced │
│ Data ──→ Engineering] ──→ Data & │
│ Profiling] Streams] │
└─────────────────────────┬────────────────────────┘
│
│ Tổng hợp cả hai cluster
▼
┌───────────────────────────┐
│ [07 Bridge → ML Blueprint]│
│ Kết nối Phase 1 → Phase 2 │
└───────────────────────────┘Đọc sơ đồ
- Mũi tên ngang (──→): bài sau yêu cầu kiến thức từ bài trước trong cùng cluster
- Mũi tên dọc (▼): cluster sau xây dựng trên nền tảng của cluster trước
- Bài 07 Bridge là điểm hội tụ, yêu cầu kiến thức từ cả hai cluster
Cluster 1: Toán Ứng Dụng cho ML
Cluster này trả lời câu hỏi: "Tại sao ML cần toán, và toán nào thực sự quan trọng?"
Bài 01 — Vectors, Matrices & Tensors
Từ con số đơn lẻ đến cấu trúc dữ liệu đa chiều
- Vector là gì và tại sao mọi dữ liệu ML đều là vector
- Ma trận: batch processing và biểu diễn dataset
- Tensor: mở rộng cho deep learning (ảnh, video, text)
- Thực hành: biểu diễn dữ liệu thực tế bằng NumPy arrays
Bài 02 — Vectorization & Broadcasting
Viết code ML nhanh gấp 100x bằng tư duy vectorized
- Tại sao vòng lặp Python chậm và vectorization giải quyết như thế nào
- Broadcasting rules: tính toán giữa các array khác shape
- Ứng dụng: feature scaling, distance computation, batch normalization
- Thực hành: chuyển đổi code loop → vectorized code
Bài 03 — Matrix Operations cho ML
Các phép toán ma trận đứng sau mọi thuật toán ML
- Dot product, matrix multiplication và ý nghĩa hình học
- Eigenvalues/eigenvectors: trực giác cho PCA
- Matrix decomposition: SVD trong recommendation systems
- Thực hành: implement thuật toán ML cơ bản bằng matrix operations
Cluster 2: Kỹ Thuật Dữ Liệu cho ML
Cluster này trả lời câu hỏi: "Dữ liệu thực tế trông như thế nào và cần xử lý ra sao?"
Bài 04 — EDA & Data Profiling
Hiểu dữ liệu trước khi cho máy học
- Quy trình EDA có hệ thống: không bỏ sót pattern quan trọng
- Statistical profiling: distributions, correlations, outliers
- Visualization cho insight: khi nào dùng chart nào
- Thực hành: EDA pipeline trên dataset thực tế
Bài 05 — Feature Engineering
Biến dữ liệu thô thành features có giá trị cho model
- Feature selection vs. feature creation vs. feature transformation
- Encoding strategies: categorical, ordinal, text features
- Feature interaction và polynomial features
- Thực hành: xây dựng feature pipeline end-to-end
Bài 06 — Imbalanced Data & Streaming Data
Xử lý dữ liệu không hoàn hảo trong thực tế
- Class imbalance: SMOTE, undersampling, cost-sensitive learning
- Missing data strategies nâng cao
- Streaming data: online learning concepts
- Thực hành: xử lý dataset imbalanced với multiple strategies
Bridge: Bài 07 — Kết nối sang ML Blueprint
Bài cầu nối
Bài 07 không dạy kiến thức mới mà tổng hợp tất cả kiến thức Phase 1 thành một ML Blueprint hoàn chỉnh — bản đồ tư duy giúp bạn biết chính xác Phase 1 chuẩn bị cho bạn những gì khi bước vào Machine Learning.
- Tổng hợp: từ vector → feature → model-ready data
- ML Pipeline overview: vị trí của mỗi kỹ năng Phase 1
- Checklist tự đánh giá trước khi sang Phase 2
- Thực hành: xây dựng mini ML pipeline end-to-end
Bảng phụ thuộc và thời gian ước tính
| # | Bài học | Yêu cầu trước | Thời gian đọc | Thời gian thực hành | Tổng |
|---|---|---|---|---|---|
| 01 | Vectors, Matrices & Tensors | Không (điểm bắt đầu) | 20 phút | 40 phút | ~1 giờ |
| 02 | Vectorization & Broadcasting | Bài 01 | 25 phút | 45 phút | ~1.2 giờ |
| 03 | Matrix Operations cho ML | Bài 01, 02 | 30 phút | 50 phút | ~1.5 giờ |
| 04 | EDA & Data Profiling | Bài 01 (hiểu data dạng array) | 25 phút | 60 phút | ~1.5 giờ |
| 05 | Feature Engineering | Bài 04 | 30 phút | 60 phút | ~1.5 giờ |
| 06 | Imbalanced Data & Streams | Bài 04, 05 | 25 phút | 45 phút | ~1.2 giờ |
| 07 | Bridge → ML Blueprint | Tất cả bài 01-06 | 20 phút | 90 phút | ~2 giờ |
| Tổng Phase 1 | ~10 giờ |
Prerequisites — Yêu cầu trước khi bắt đầu
Bạn cần gì trước Phase 1?
Bắt buộc:
- Python cơ bản: biến, hàm, vòng lặp, list/dict — hoàn thành Python Phase 1 là lý tưởng
- Toán phổ thông: số học, hệ tọa độ, phương trình cơ bản
Nên có (không bắt buộc):
- Quen thuộc với NumPy arrays (sẽ được ôn lại trong Bài 01)
- Hiểu cơ bản về Pandas DataFrames (sẽ được ôn lại trong Bài 04)
- Tư duy giải quyết vấn đề — xem DSA Phase 1: Course Map
Không cần:
- Kinh nghiệm Machine Learning (đó là mục tiêu cuối cùng!)
- Toán đại học nâng cao (linear algebra sẽ được dạy từ zero)
Thứ tự thực hành đề xuất
Sau khi hoàn thành lý thuyết, hãy luyện tập tại Practice Hub — AI theo thứ tự sau:
| Bước | Bài tập | Liên kết bài học | Kỹ năng kiểm tra |
|---|---|---|---|
| 1 | Vector Basics | Bài 01 | Tạo, truy cập, tính toán vector |
| 2 | Vectorized Computation | Bài 02 | Loại bỏ loop, dùng broadcasting |
| 3 | Matrix Operations | Bài 03 | Dot product, transpose, decompose |
| 4 | EDA Challenge | Bài 04 | Phân tích dataset chưa biết trước |
| 5 | Feature Pipeline | Bài 05 | Xây pipeline feature engineering |
| 6 | Imbalanced Dataset | Bài 06 | Áp dụng strategies cho class imbalance |
| 7 | Mini ML Pipeline | Bài 07 | End-to-end: data → features → model-ready |
Lời khuyên thực hành
- Không bỏ qua bài tập: đọc lý thuyết mà không thực hành giống như đọc sách dạy bơi mà không xuống nước
- Thử sai trước khi xem đáp án: struggle là một phần quan trọng của quá trình học
- Thời gian lý tưởng: hoàn thành mỗi bài tập trong 1 lần ngồi (30-60 phút)
Lộ trình học đề xuất
Tuần 1-2: Cluster 1 — Toán Ứng Dụng
Ngày 1-2: Bài 01 (Vectors, Matrices, Tensors) + Thực hành
Ngày 3-4: Bài 02 (Vectorization & Broadcasting) + Thực hành
Ngày 5-7: Bài 03 (Matrix Operations) + Thực hành + Ôn lại Cluster 1Tuần 3-4: Cluster 2 — Kỹ Thuật Dữ Liệu
Ngày 8-9: Bài 04 (EDA & Data Profiling) + Thực hành
Ngày 10-11: Bài 05 (Feature Engineering) + Thực hành
Ngày 12-13: Bài 06 (Imbalanced Data & Streams) + Thực hành
Ngày 14: Bài 07 (Bridge → ML Blueprint) + Mini ProjectLiên kết liên quan
Checklist tự đánh giá
Trước khi sang Phase 2, hãy tự kiểm tra:
- [ ] Tôi có thể giải thích vector, ma trận, tensor bằng ví dụ ML thực tế
- [ ] Tôi viết được vectorized code thay vì Python loops cho tính toán số học
- [ ] Tôi hiểu dot product, matrix multiplication và ứng dụng trong ML
- [ ] Tôi có quy trình EDA có hệ thống khi gặp dataset mới
- [ ] Tôi biết cách tạo và chọn features phù hợp cho model
- [ ] Tôi biết ít nhất 2 chiến lược xử lý class imbalance
- [ ] Tôi có thể kết nối tất cả kiến thức trên thành một ML pipeline
Đạt ≥ 5/7? Bạn sẵn sàng cho Phase 2!
Sau Phase 1 — Tiếp theo là gì?
Hoàn thành Phase 1 nghĩa là bạn đã sẵn sàng cho Machine Learning Phase 2, nơi bạn sẽ:
- Implement thuật toán ML từ scratch (dùng kiến thức toán Phase 1)
- Xây dựng ML pipeline hoàn chỉnh (dùng kiến thức data engineering Phase 1)
- Đánh giá và tối ưu model (dùng tư duy phân tích từ EDA)
- Hiểu bias-variance tradeoff và model selection
Nhắc nhở từ Professor Tom
"Đừng vội nhảy sang model phức tạp. 80% thành công của một ML project nằm ở việc hiểu dữ liệu và chuẩn bị features — chính xác những gì Phase 1 dạy bạn."
Sẵn sàng chưa? → Bắt đầu với Bài 01: Vectors, Matrices & Tensors