Skip to content

Module 3: Resampling Methods 🔄

📝 Stats

  • Số lượng: 6 câu hỏi
  • Độ khó: Cao
  • Mục tiêu: "Kéo dây giày để tự nhấc mình lên" (Bootstrap).

MCQ

Q1. Bootstrapping là kỹ thuật lấy mẫu như thế nào?

  • [ ] Lấy mẫu KHÔNG hoàn lại (Sampling WITHOUT replacement).
  • [ ] Lấy mẫu CÓ hoàn lại (Sampling WITH replacement).
  • [ ] Chia dữ liệu thành k phần bằng nhau.
  • [ ] Lấy mẫu tầng (Stratified sampling).

Đáp án: Lấy mẫu CÓ hoàn lại. (Mấu chốt để giả lập population từ sample).

Q2. K-fold Cross Validation giúp giải quyết vấn đề gì?

  • [ ] Overfitting (Học vẹt dữ liệu train).
  • [ ] Underfitting.
  • [ ] Missing data.
  • [ ] Imbalanced data.

Đáp án: Overfitting (Đánh giá model khách quan hơn trên dữ liệu chưa gặp).


Coding Challenge

Challenge: Manual Bootstrap

Không dùng package boot. Hãy tự viết vòng lặp để tính khoảng tin cậy 95% cho Median của biến mpg$hwy.

  1. Lặp 1000 lần.
  2. Mỗi lần sample lại mpg$hwy (có replace).
  3. Tính median lưu vào vector.
  4. Tính quantile 2.5% và 97.5% của vector kết quả.
r
# BEST PRACTICE: Preallocate vectors before loops to avoid growing them iteratively
x <- mpg$hwy
n <- length(x)
B <- 1000
medians <- numeric(B)

set.seed(123)
for(i in 1:B) {
  # Sample with replacement
  sample_x <- sample(x, size = n, replace = TRUE)
  medians[i] <- median(sample_x)
}

# 95% CI
quantile(medians, probs = c(0.025, 0.975))