Phase 1 Course Map — Nền tảng Trí tuệ Nhân tạo

🎯 Mục tiêu

Sau khi đọc bài này, bạn sẽ:

Nắm được tổng quan 7 bài học trong Phase 1 và mối liên hệ giữa chúng
Hiểu hai cụm kiến thức chính: Toán Ứng Dụng cho ML và Kỹ Thuật Dữ Liệu cho ML
Biết thứ tự học tối ưu và thời gian ước tính cho từng bài
Xác định được điểm xuất phát phù hợp với trình độ hiện tại của mình

Tổng quan Phase 1

Phase 1 xây dựng nền tảng tư duy toán học và kỹ thuật dữ liệu cần thiết trước khi bước vào Machine Learning. Thay vì học lý thuyết trừu tượng, mỗi bài đều gắn liền với ứng dụng thực tế trong ML pipeline.

Lộ trình gồm 7 bài học, chia thành 2 cụm kiến thức và 1 bài cầu nối:

Cụm	Chủ đề	Bài học	Mục tiêu
Cluster 1	Toán Ứng Dụng cho ML	01 → 02 → 03	Thành thạo vector, ma trận, tensor trong ngữ cảnh ML
Cluster 2	Kỹ Thuật Dữ Liệu cho ML	04 → 05 → 06	Khám phá, biến đổi, và xử lý dữ liệu thực tế
Bridge	Kết nối sang ML	07	Tổng hợp kiến thức, sẵn sàng cho Phase 2

Sơ đồ phụ thuộc giữa các bài học

   ┌──────────────────────────────────────────────────┐
   │         CLUSTER 1: TOÁN ỨNG DỤNG CHO ML          │
   │                                                    │
   │  [01 Vectors/       [02 Vectorization/    [03 Matrix │
   │   Matrices/    ──→   Broadcasting]   ──→   Operations]│
   │   Tensors]                                         │
   └─────────────────────────┬────────────────────────┘
                             │
                             │  Toán ứng dụng là nền tảng
                             │  cho kỹ thuật dữ liệu
                             ▼
   ┌──────────────────────────────────────────────────┐
   │       CLUSTER 2: KỸ THUẬT DỮ LIỆU CHO ML        │
   │                                                    │
   │  [04 EDA &         [05 Feature      [06 Imbalanced │
   │   Data       ──→   Engineering] ──→  Data &        │
   │   Profiling]                         Streams]       │
   └─────────────────────────┬────────────────────────┘
                             │
                             │  Tổng hợp cả hai cluster
                             ▼
                ┌───────────────────────────┐
                │  [07 Bridge → ML Blueprint]│
                │  Kết nối Phase 1 → Phase 2 │
                └───────────────────────────┘

Đọc sơ đồ

Mũi tên ngang (──→): bài sau yêu cầu kiến thức từ bài trước trong cùng cluster
Mũi tên dọc (▼): cluster sau xây dựng trên nền tảng của cluster trước
Bài 07 Bridge là điểm hội tụ, yêu cầu kiến thức từ cả hai cluster

Cluster 1: Toán Ứng Dụng cho ML

Cluster này trả lời câu hỏi: "Tại sao ML cần toán, và toán nào thực sự quan trọng?"

Bài 01 — Vectors, Matrices & Tensors

Từ con số đơn lẻ đến cấu trúc dữ liệu đa chiều

Vector là gì và tại sao mọi dữ liệu ML đều là vector
Ma trận: batch processing và biểu diễn dataset
Tensor: mở rộng cho deep learning (ảnh, video, text)
Thực hành: biểu diễn dữ liệu thực tế bằng NumPy arrays

Bài 02 — Vectorization & Broadcasting

Viết code ML nhanh gấp 100x bằng tư duy vectorized

Tại sao vòng lặp Python chậm và vectorization giải quyết như thế nào
Broadcasting rules: tính toán giữa các array khác shape
Ứng dụng: feature scaling, distance computation, batch normalization
Thực hành: chuyển đổi code loop → vectorized code

Bài 03 — Matrix Operations cho ML

Các phép toán ma trận đứng sau mọi thuật toán ML

Dot product, matrix multiplication và ý nghĩa hình học
Eigenvalues/eigenvectors: trực giác cho PCA
Matrix decomposition: SVD trong recommendation systems
Thực hành: implement thuật toán ML cơ bản bằng matrix operations

Cluster 2: Kỹ Thuật Dữ Liệu cho ML

Cluster này trả lời câu hỏi: "Dữ liệu thực tế trông như thế nào và cần xử lý ra sao?"

Bài 04 — EDA & Data Profiling

Hiểu dữ liệu trước khi cho máy học

Quy trình EDA có hệ thống: không bỏ sót pattern quan trọng
Statistical profiling: distributions, correlations, outliers
Visualization cho insight: khi nào dùng chart nào
Thực hành: EDA pipeline trên dataset thực tế

Bài 05 — Feature Engineering

Biến dữ liệu thô thành features có giá trị cho model

Feature selection vs. feature creation vs. feature transformation
Encoding strategies: categorical, ordinal, text features
Feature interaction và polynomial features
Thực hành: xây dựng feature pipeline end-to-end

Bài 06 — Imbalanced Data & Streaming Data

Xử lý dữ liệu không hoàn hảo trong thực tế

Class imbalance: SMOTE, undersampling, cost-sensitive learning
Missing data strategies nâng cao
Streaming data: online learning concepts
Thực hành: xử lý dataset imbalanced với multiple strategies

Bridge: Bài 07 — Kết nối sang ML Blueprint

Bài cầu nối

Bài 07 không dạy kiến thức mới mà tổng hợp tất cả kiến thức Phase 1 thành một ML Blueprint hoàn chỉnh — bản đồ tư duy giúp bạn biết chính xác Phase 1 chuẩn bị cho bạn những gì khi bước vào Machine Learning.

Tổng hợp: từ vector → feature → model-ready data
ML Pipeline overview: vị trí của mỗi kỹ năng Phase 1
Checklist tự đánh giá trước khi sang Phase 2
Thực hành: xây dựng mini ML pipeline end-to-end

Bảng phụ thuộc và thời gian ước tính

#	Bài học	Yêu cầu trước	Thời gian đọc	Thời gian thực hành	Tổng
01	Vectors, Matrices & Tensors	Không (điểm bắt đầu)	20 phút	40 phút	~1 giờ
02	Vectorization & Broadcasting	Bài 01	25 phút	45 phút	~1.2 giờ
03	Matrix Operations cho ML	Bài 01, 02	30 phút	50 phút	~1.5 giờ
04	EDA & Data Profiling	Bài 01 (hiểu data dạng array)	25 phút	60 phút	~1.5 giờ
05	Feature Engineering	Bài 04	30 phút	60 phút	~1.5 giờ
06	Imbalanced Data & Streams	Bài 04, 05	25 phút	45 phút	~1.2 giờ
07	Bridge → ML Blueprint	Tất cả bài 01-06	20 phút	90 phút	~2 giờ
			Tổng Phase 1		~10 giờ

Prerequisites — Yêu cầu trước khi bắt đầu

Bạn cần gì trước Phase 1?

Bắt buộc:

Python cơ bản: biến, hàm, vòng lặp, list/dict — hoàn thành Python Phase 1 là lý tưởng
Toán phổ thông: số học, hệ tọa độ, phương trình cơ bản

Nên có (không bắt buộc):

Quen thuộc với NumPy arrays (sẽ được ôn lại trong Bài 01)
Hiểu cơ bản về Pandas DataFrames (sẽ được ôn lại trong Bài 04)
Tư duy giải quyết vấn đề — xem DSA Phase 1: Course Map

Không cần:

Kinh nghiệm Machine Learning (đó là mục tiêu cuối cùng!)
Toán đại học nâng cao (linear algebra sẽ được dạy từ zero)

Thứ tự thực hành đề xuất

Sau khi hoàn thành lý thuyết, hãy luyện tập tại Practice Hub — AI theo thứ tự sau:

Bước	Bài tập	Liên kết bài học	Kỹ năng kiểm tra
1	Vector Basics	Bài 01	Tạo, truy cập, tính toán vector
2	Vectorized Computation	Bài 02	Loại bỏ loop, dùng broadcasting
3	Matrix Operations	Bài 03	Dot product, transpose, decompose
4	EDA Challenge	Bài 04	Phân tích dataset chưa biết trước
5	Feature Pipeline	Bài 05	Xây pipeline feature engineering
6	Imbalanced Dataset	Bài 06	Áp dụng strategies cho class imbalance
7	Mini ML Pipeline	Bài 07	End-to-end: data → features → model-ready

Lời khuyên thực hành

Không bỏ qua bài tập: đọc lý thuyết mà không thực hành giống như đọc sách dạy bơi mà không xuống nước
Thử sai trước khi xem đáp án: struggle là một phần quan trọng của quá trình học
Thời gian lý tưởng: hoàn thành mỗi bài tập trong 1 lần ngồi (30-60 phút)

Lộ trình học đề xuất

Tuần 1-2: Cluster 1 — Toán Ứng Dụng

Ngày 1-2:  Bài 01 (Vectors, Matrices, Tensors) + Thực hành
Ngày 3-4:  Bài 02 (Vectorization & Broadcasting) + Thực hành
Ngày 5-7:  Bài 03 (Matrix Operations) + Thực hành + Ôn lại Cluster 1

Tuần 3-4: Cluster 2 — Kỹ Thuật Dữ Liệu

Ngày 8-9:   Bài 04 (EDA & Data Profiling) + Thực hành
Ngày 10-11: Bài 05 (Feature Engineering) + Thực hành
Ngày 12-13: Bài 06 (Imbalanced Data & Streams) + Thực hành
Ngày 14:    Bài 07 (Bridge → ML Blueprint) + Mini Project

Liên kết liên quan

Checklist tự đánh giá

Trước khi sang Phase 2, hãy tự kiểm tra:

[ ] Tôi có thể giải thích vector, ma trận, tensor bằng ví dụ ML thực tế
[ ] Tôi viết được vectorized code thay vì Python loops cho tính toán số học
[ ] Tôi hiểu dot product, matrix multiplication và ứng dụng trong ML
[ ] Tôi có quy trình EDA có hệ thống khi gặp dataset mới
[ ] Tôi biết cách tạo và chọn features phù hợp cho model
[ ] Tôi biết ít nhất 2 chiến lược xử lý class imbalance
[ ] Tôi có thể kết nối tất cả kiến thức trên thành một ML pipeline

Đạt ≥ 5/7? Bạn sẵn sàng cho Phase 2!

Sau Phase 1 — Tiếp theo là gì?

Hoàn thành Phase 1 nghĩa là bạn đã sẵn sàng cho Machine Learning Phase 2, nơi bạn sẽ:

Implement thuật toán ML từ scratch (dùng kiến thức toán Phase 1)
Xây dựng ML pipeline hoàn chỉnh (dùng kiến thức data engineering Phase 1)
Đánh giá và tối ưu model (dùng tư duy phân tích từ EDA)
Hiểu bias-variance tradeoff và model selection

Nhắc nhở từ Professor Tom

"Đừng vội nhảy sang model phức tạp. 80% thành công của một ML project nằm ở việc hiểu dữ liệu và chuẩn bị features — chính xác những gì Phase 1 dạy bạn."

Sẵn sàng chưa? → Bắt đầu với Bài 01: Vectors, Matrices & Tensors

Phase 1 Course Map — Nền tảng Trí tuệ Nhân tạo ​

Tổng quan Phase 1 ​

Sơ đồ phụ thuộc giữa các bài học ​

Cluster 1: Toán Ứng Dụng cho ML ​

Bài 01 — Vectors, Matrices & Tensors ​

Bài 02 — Vectorization & Broadcasting ​

Bài 03 — Matrix Operations cho ML ​

Cluster 2: Kỹ Thuật Dữ Liệu cho ML ​

Bài 04 — EDA & Data Profiling ​

Bài 05 — Feature Engineering ​

Bài 06 — Imbalanced Data & Streaming Data ​

Bridge: Bài 07 — Kết nối sang ML Blueprint ​

Bảng phụ thuộc và thời gian ước tính ​

Prerequisites — Yêu cầu trước khi bắt đầu ​

Thứ tự thực hành đề xuất ​

Lộ trình học đề xuất ​

Tuần 1-2: Cluster 1 — Toán Ứng Dụng ​

Tuần 3-4: Cluster 2 — Kỹ Thuật Dữ Liệu ​

Liên kết liên quan ​

Checklist tự đánh giá ​

Sau Phase 1 — Tiếp theo là gì? ​