# 本章精读 · 第 5 课 · 机器学习分册（训练诊断与特征）

## 本章定位与前情提要

本章承接 **`class-04-ml`**：算法图谱之后，聚焦「如何把模型训练得更稳」：**缺失值／标准化／划分验证集 / 交叉验证**、**过拟合 vs 欠拟合信号**、**偏差‑方差语言**、**超参数搜索的基本套路**。可以理解为：**同一个假设空间里调参与诊断的工程章节**。

### 最小术语表

- **训练／验证／测试划分**：减小「对着答案调参」的信息泄漏叙事。
- **过拟合**：训练误差很低但验证很差——记住了噪声。
- **欠拟合**：训练和验证都不好——假设空间不够或优化不到位。
- **标准化**：消除量纲差异，利于梯度类／距离类算法稳定。
- **网格／随机搜索**：在高维超参空间里近似搜索策略。

---

## 第一节 · 数据预处理叙事

缺失值：**删除／填补／单独缺失指示特征**三条路径各有假设——题干若在医疗风控语境，粗暴删除样本可能引入偏差。

标准化 vs 归一化：**语义差别题**常在考查你是否理解算法对尺度的敏感度（例如基于距离的 vs 树模型的）。

---

## 第二节 · 划分与交叉验证

单次留出运气好／坏：**k 折 CV** 通过轮换验证折叠降低偶然性叙述。

不要把测试集当成日常调参反馈回路——泄漏叙事选择题常客。

---

## 第三节 · 偏差‑方差：用语言校准直觉

简化心智：

- **高偏差**：模型欠表达。
- **高方差**：对训练抽样过分敏感。

集成方法常在语境中被说成降低方差（随机森林）或序列纠正偏差（提升）。

---

## 第四节 · 超参数搜索：预算意识

随机搜索在高维时常优于细密网格——并非玄学，而是 **同等预算下覆盖面更大** 的工程叙事。

---

## 与本章测验怎么对齐

题干若提到「验证曲线分叉」「训练误差持续走低但验证不降」，先在草稿写下四字：**过拟合**，再看对策选项是否是噪音治理组合拳（正则／剪枝／更多代表性数据／早停）。

---

## 延伸阅读

纲要 **`topic-3`**、**`topic-4`**。