Giao diện
Module 3: Resampling Methods 🔄
📝 Stats
- Số lượng: 6 câu hỏi
- Độ khó: Cao
- Mục tiêu: "Kéo dây giày để tự nhấc mình lên" (Bootstrap).
MCQ
Q1. Bootstrapping là kỹ thuật lấy mẫu như thế nào?
- [ ] Lấy mẫu KHÔNG hoàn lại (Sampling WITHOUT replacement).
- [ ] Lấy mẫu CÓ hoàn lại (Sampling WITH replacement).
- [ ] Chia dữ liệu thành k phần bằng nhau.
- [ ] Lấy mẫu tầng (Stratified sampling).
Đáp án: Lấy mẫu CÓ hoàn lại. (Mấu chốt để giả lập population từ sample).
Q2. K-fold Cross Validation giúp giải quyết vấn đề gì?
- [ ] Overfitting (Học vẹt dữ liệu train).
- [ ] Underfitting.
- [ ] Missing data.
- [ ] Imbalanced data.
Đáp án: Overfitting (Đánh giá model khách quan hơn trên dữ liệu chưa gặp).
Coding Challenge
Challenge: Manual Bootstrap
Không dùng package boot. Hãy tự viết vòng lặp để tính khoảng tin cậy 95% cho Median của biến mpg$hwy.
- Lặp 1000 lần.
- Mỗi lần sample lại
mpg$hwy(có replace). - Tính median lưu vào vector.
- Tính quantile 2.5% và 97.5% của vector kết quả.
r
# BEST PRACTICE: Preallocate vectors before loops to avoid growing them iteratively
x <- mpg$hwy
n <- length(x)
B <- 1000
medians <- numeric(B)
set.seed(123)
for(i in 1:B) {
# Sample with replacement
sample_x <- sample(x, size = n, replace = TRUE)
medians[i] <- median(sample_x)
}
# 95% CI
quantile(medians, probs = c(0.025, 0.975))