Skip to content

Phase 1 Course Map — Nền tảng Trí tuệ Nhân tạo

🎯 Mục tiêu

Sau khi đọc bài này, bạn sẽ:

  • Nắm được tổng quan 7 bài học trong Phase 1 và mối liên hệ giữa chúng
  • Hiểu hai cụm kiến thức chính: Toán Ứng Dụng cho MLKỹ Thuật Dữ Liệu cho ML
  • Biết thứ tự học tối ưu và thời gian ước tính cho từng bài
  • Xác định được điểm xuất phát phù hợp với trình độ hiện tại của mình

Tổng quan Phase 1

Phase 1 xây dựng nền tảng tư duy toán học và kỹ thuật dữ liệu cần thiết trước khi bước vào Machine Learning. Thay vì học lý thuyết trừu tượng, mỗi bài đều gắn liền với ứng dụng thực tế trong ML pipeline.

Lộ trình gồm 7 bài học, chia thành 2 cụm kiến thức1 bài cầu nối:

CụmChủ đềBài họcMục tiêu
Cluster 1Toán Ứng Dụng cho ML01 → 02 → 03Thành thạo vector, ma trận, tensor trong ngữ cảnh ML
Cluster 2Kỹ Thuật Dữ Liệu cho ML04 → 05 → 06Khám phá, biến đổi, và xử lý dữ liệu thực tế
BridgeKết nối sang ML07Tổng hợp kiến thức, sẵn sàng cho Phase 2

Sơ đồ phụ thuộc giữa các bài học

   ┌──────────────────────────────────────────────────┐
   │         CLUSTER 1: TOÁN ỨNG DỤNG CHO ML          │
   │                                                    │
   │  [01 Vectors/       [02 Vectorization/    [03 Matrix │
   │   Matrices/    ──→   Broadcasting]   ──→   Operations]│
   │   Tensors]                                         │
   └─────────────────────────┬────────────────────────┘

                             │  Toán ứng dụng là nền tảng
                             │  cho kỹ thuật dữ liệu

   ┌──────────────────────────────────────────────────┐
   │       CLUSTER 2: KỸ THUẬT DỮ LIỆU CHO ML        │
   │                                                    │
   │  [04 EDA &         [05 Feature      [06 Imbalanced │
   │   Data       ──→   Engineering] ──→  Data &        │
   │   Profiling]                         Streams]       │
   └─────────────────────────┬────────────────────────┘

                             │  Tổng hợp cả hai cluster

                ┌───────────────────────────┐
                │  [07 Bridge → ML Blueprint]│
                │  Kết nối Phase 1 → Phase 2 │
                └───────────────────────────┘

Đọc sơ đồ

  • Mũi tên ngang (──→): bài sau yêu cầu kiến thức từ bài trước trong cùng cluster
  • Mũi tên dọc (▼): cluster sau xây dựng trên nền tảng của cluster trước
  • Bài 07 Bridge là điểm hội tụ, yêu cầu kiến thức từ cả hai cluster

Cluster 1: Toán Ứng Dụng cho ML

Cluster này trả lời câu hỏi: "Tại sao ML cần toán, và toán nào thực sự quan trọng?"

Bài 01 — Vectors, Matrices & Tensors

Từ con số đơn lẻ đến cấu trúc dữ liệu đa chiều

  • Vector là gì và tại sao mọi dữ liệu ML đều là vector
  • Ma trận: batch processing và biểu diễn dataset
  • Tensor: mở rộng cho deep learning (ảnh, video, text)
  • Thực hành: biểu diễn dữ liệu thực tế bằng NumPy arrays

Bài 02 — Vectorization & Broadcasting

Viết code ML nhanh gấp 100x bằng tư duy vectorized

  • Tại sao vòng lặp Python chậm và vectorization giải quyết như thế nào
  • Broadcasting rules: tính toán giữa các array khác shape
  • Ứng dụng: feature scaling, distance computation, batch normalization
  • Thực hành: chuyển đổi code loop → vectorized code

Bài 03 — Matrix Operations cho ML

Các phép toán ma trận đứng sau mọi thuật toán ML

  • Dot product, matrix multiplication và ý nghĩa hình học
  • Eigenvalues/eigenvectors: trực giác cho PCA
  • Matrix decomposition: SVD trong recommendation systems
  • Thực hành: implement thuật toán ML cơ bản bằng matrix operations

Cluster 2: Kỹ Thuật Dữ Liệu cho ML

Cluster này trả lời câu hỏi: "Dữ liệu thực tế trông như thế nào và cần xử lý ra sao?"

Bài 04 — EDA & Data Profiling

Hiểu dữ liệu trước khi cho máy học

  • Quy trình EDA có hệ thống: không bỏ sót pattern quan trọng
  • Statistical profiling: distributions, correlations, outliers
  • Visualization cho insight: khi nào dùng chart nào
  • Thực hành: EDA pipeline trên dataset thực tế

Bài 05 — Feature Engineering

Biến dữ liệu thô thành features có giá trị cho model

  • Feature selection vs. feature creation vs. feature transformation
  • Encoding strategies: categorical, ordinal, text features
  • Feature interaction và polynomial features
  • Thực hành: xây dựng feature pipeline end-to-end

Bài 06 — Imbalanced Data & Streaming Data

Xử lý dữ liệu không hoàn hảo trong thực tế

  • Class imbalance: SMOTE, undersampling, cost-sensitive learning
  • Missing data strategies nâng cao
  • Streaming data: online learning concepts
  • Thực hành: xử lý dataset imbalanced với multiple strategies

Bridge: Bài 07 — Kết nối sang ML Blueprint

Bài cầu nối

Bài 07 không dạy kiến thức mới mà tổng hợp tất cả kiến thức Phase 1 thành một ML Blueprint hoàn chỉnh — bản đồ tư duy giúp bạn biết chính xác Phase 1 chuẩn bị cho bạn những gì khi bước vào Machine Learning.

  • Tổng hợp: từ vector → feature → model-ready data
  • ML Pipeline overview: vị trí của mỗi kỹ năng Phase 1
  • Checklist tự đánh giá trước khi sang Phase 2
  • Thực hành: xây dựng mini ML pipeline end-to-end

Bảng phụ thuộc và thời gian ước tính

#Bài họcYêu cầu trướcThời gian đọcThời gian thực hànhTổng
01Vectors, Matrices & TensorsKhông (điểm bắt đầu)20 phút40 phút~1 giờ
02Vectorization & BroadcastingBài 0125 phút45 phút~1.2 giờ
03Matrix Operations cho MLBài 01, 0230 phút50 phút~1.5 giờ
04EDA & Data ProfilingBài 01 (hiểu data dạng array)25 phút60 phút~1.5 giờ
05Feature EngineeringBài 0430 phút60 phút~1.5 giờ
06Imbalanced Data & StreamsBài 04, 0525 phút45 phút~1.2 giờ
07Bridge → ML BlueprintTất cả bài 01-0620 phút90 phút~2 giờ
Tổng Phase 1~10 giờ

Prerequisites — Yêu cầu trước khi bắt đầu

Bạn cần gì trước Phase 1?

Bắt buộc:

  • Python cơ bản: biến, hàm, vòng lặp, list/dict — hoàn thành Python Phase 1 là lý tưởng
  • Toán phổ thông: số học, hệ tọa độ, phương trình cơ bản

Nên có (không bắt buộc):

  • Quen thuộc với NumPy arrays (sẽ được ôn lại trong Bài 01)
  • Hiểu cơ bản về Pandas DataFrames (sẽ được ôn lại trong Bài 04)
  • Tư duy giải quyết vấn đề — xem DSA Phase 1: Course Map

Không cần:

  • Kinh nghiệm Machine Learning (đó là mục tiêu cuối cùng!)
  • Toán đại học nâng cao (linear algebra sẽ được dạy từ zero)

Thứ tự thực hành đề xuất

Sau khi hoàn thành lý thuyết, hãy luyện tập tại Practice Hub — AI theo thứ tự sau:

BướcBài tậpLiên kết bài họcKỹ năng kiểm tra
1Vector BasicsBài 01Tạo, truy cập, tính toán vector
2Vectorized ComputationBài 02Loại bỏ loop, dùng broadcasting
3Matrix OperationsBài 03Dot product, transpose, decompose
4EDA ChallengeBài 04Phân tích dataset chưa biết trước
5Feature PipelineBài 05Xây pipeline feature engineering
6Imbalanced DatasetBài 06Áp dụng strategies cho class imbalance
7Mini ML PipelineBài 07End-to-end: data → features → model-ready

Lời khuyên thực hành

  • Không bỏ qua bài tập: đọc lý thuyết mà không thực hành giống như đọc sách dạy bơi mà không xuống nước
  • Thử sai trước khi xem đáp án: struggle là một phần quan trọng của quá trình học
  • Thời gian lý tưởng: hoàn thành mỗi bài tập trong 1 lần ngồi (30-60 phút)

Lộ trình học đề xuất

Tuần 1-2: Cluster 1 — Toán Ứng Dụng

Ngày 1-2:  Bài 01 (Vectors, Matrices, Tensors) + Thực hành
Ngày 3-4:  Bài 02 (Vectorization & Broadcasting) + Thực hành
Ngày 5-7:  Bài 03 (Matrix Operations) + Thực hành + Ôn lại Cluster 1

Tuần 3-4: Cluster 2 — Kỹ Thuật Dữ Liệu

Ngày 8-9:   Bài 04 (EDA & Data Profiling) + Thực hành
Ngày 10-11: Bài 05 (Feature Engineering) + Thực hành
Ngày 12-13: Bài 06 (Imbalanced Data & Streams) + Thực hành
Ngày 14:    Bài 07 (Bridge → ML Blueprint) + Mini Project

Liên kết liên quan

Checklist tự đánh giá

Trước khi sang Phase 2, hãy tự kiểm tra:

  • [ ] Tôi có thể giải thích vector, ma trận, tensor bằng ví dụ ML thực tế
  • [ ] Tôi viết được vectorized code thay vì Python loops cho tính toán số học
  • [ ] Tôi hiểu dot product, matrix multiplication và ứng dụng trong ML
  • [ ] Tôi có quy trình EDA có hệ thống khi gặp dataset mới
  • [ ] Tôi biết cách tạo và chọn features phù hợp cho model
  • [ ] Tôi biết ít nhất 2 chiến lược xử lý class imbalance
  • [ ] Tôi có thể kết nối tất cả kiến thức trên thành một ML pipeline

Đạt ≥ 5/7? Bạn sẵn sàng cho Phase 2!

Sau Phase 1 — Tiếp theo là gì?

Hoàn thành Phase 1 nghĩa là bạn đã sẵn sàng cho Machine Learning Phase 2, nơi bạn sẽ:

  • Implement thuật toán ML từ scratch (dùng kiến thức toán Phase 1)
  • Xây dựng ML pipeline hoàn chỉnh (dùng kiến thức data engineering Phase 1)
  • Đánh giá và tối ưu model (dùng tư duy phân tích từ EDA)
  • Hiểu bias-variance tradeoff và model selection

Nhắc nhở từ Professor Tom

"Đừng vội nhảy sang model phức tạp. 80% thành công của một ML project nằm ở việc hiểu dữ liệu và chuẩn bị features — chính xác những gì Phase 1 dạy bạn."


Sẵn sàng chưa? → Bắt đầu với Bài 01: Vectors, Matrices & Tensors