{
  "slug": "class-05-ml",
  "title": "第五次课 · 机器学习",
  "subtitle": "第5课 · ML · 班级测验整理",
  "sourceFiles": [
    "docs/class_quiz/05-机器学习.md"
  ],
  "essenceTopicIds": [
    "topic-3",
    "topic-4"
  ],
  "topics": {
    "covered": [
      "训练诊断与正则化",
      "特征与验证策略"
    ],
    "followUp": [
      "交叉验证与高维数据"
    ]
  },
  "totalQuestions": 36,
  "quiz": [
    {
      "id": "class-05-ml-q1",
      "number": 1,
      "kind": "single",
      "question": "在线性回归模型中，通常使用以下哪个损失函数进行参数优化?",
      "hint": "交叉熵和对数损失主要用于分类问题，铰链损失用于SVM。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q1-A",
          "text": "交叉熵损失",
          "isCorrect": false,
          "rationale": "交叉熵损失侧重的是另一个机制或层级：与材料中强调的「在线性回归模型中」「通常使用以下哪个损失函数进行参数优化」不一致；解析核心是「均方误差(MSE)是线性回归最常用的损失函数，其连续可微且凸性良好，适合梯度下降等优化方法。交叉熵和对数损失主要用于分类问题，铰链损失用于SVM。」，因此更合适的是 C（均方误差）。"
        },
        {
          "id": "class-05-ml-q1-B",
          "text": "铰链损失",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「在线性回归模型中」「通常使用以下哪个损失函数进行参数优化」不一致；而 C 才覆盖「均方误差(MSE)是线性回归最常用的损失函数，其连续可微且凸性良好，适合梯度下降等优化方法。交叉熵和对数损失主要用于分类问题，铰链损失用于SVM。」这层判断。"
        },
        {
          "id": "class-05-ml-q1-C",
          "text": "均方误差",
          "isCorrect": true,
          "rationale": "均方误差(MSE)是线性回归最常用的损失函数，其连续可微且凸性良好，适合梯度下降等优化方法。交叉熵和对数损失主要用于分类问题，铰链损失用于SVM。"
        },
        {
          "id": "class-05-ml-q1-D",
          "text": "对数损失",
          "isCorrect": false,
          "rationale": "对数损失更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在线性回归模型中」「通常使用以下哪个损失函数进行参数优化」不一致。请以解析「均方误差(MSE)是线性回归最常用的损失函数，其连续可微且凸性良好，适合梯度下降等优化方法。交叉熵和对数损失主要用于分类问题，铰链损失用于SVM。」锁定 C。"
        }
      ],
      "sourceSnippet": "均方误差(MSE)是线性回归最常用的损失函数，其连续可微且凸性良好，适合梯度下降等优化方法。交叉熵和对数损失主要用于分类问题，铰链损失用于SVM。"
    },
    {
      "id": "class-05-ml-q2",
      "number": 2,
      "kind": "single",
      "question": "以下关于欠拟合的描述，正确的是?",
      "hint": "A描述的是过拟合。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q2-A",
          "text": "模型在训练集上表现良好，在测试集上表现差",
          "isCorrect": false,
          "rationale": "模型在训练集上表现良好，在测试集上表现差侧重的是另一个机制或层级：与材料中强调的「以下关于欠拟合的描述」「正确的是」不一致；解析核心是「欠拟合指模型未能捕捉数据中的主要规律，导致在训练集和测试集上性能均不佳。A描述的是过拟合。」，因此更合适的是 B（模型在训练集和测试集上表现都差）。"
        },
        {
          "id": "class-05-ml-q2-B",
          "text": "模型在训练集和测试集上表现都差",
          "isCorrect": true,
          "rationale": "欠拟合指模型未能捕捉数据中的主要规律，导致在训练集和测试集上性能均不佳。A描述的是过拟合。"
        },
        {
          "id": "class-05-ml-q2-C",
          "text": "模型在训练集上表现差，在测试集上表现好",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 模型在训练集上表现差，在测试集上表现好会引入多余假设或跳过关键前提；请以「欠拟合指模型未能捕捉数据中的主要规律，导致在训练集和测试集上性能均不佳。A描述的是过拟合。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q2-D",
          "text": "模型在训练集和测试集上表现都好",
          "isCorrect": false,
          "rationale": "模型在训练集和测试集上表现都好更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「以下关于欠拟合的描述」「正确的是」不一致。请以解析「欠拟合指模型未能捕捉数据中的主要规律，导致在训练集和测试集上性能均不佳。A描述的是过拟合。」锁定 B。"
        }
      ],
      "sourceSnippet": "欠拟合指模型未能捕捉数据中的主要规律，导致在训练集和测试集上性能均不佳。A描述的是过拟合。"
    },
    {
      "id": "class-05-ml-q3",
      "number": 3,
      "kind": "single",
      "question": "在SVM中，使用RBF核时，超参数γ的作用是?",
      "hint": "γ越大，高斯核的局部性越强，模型越复杂，容易过拟合;γ越小，模型越平滑。",
      "options": [
        {
          "id": "class-05-ml-q3-A",
          "text": "控制正则化强度",
          "isCorrect": false,
          "rationale": "控制正则化强度侧重的是另一个机制或层级：与材料中强调的「超参数」「的作用是」不一致；解析核心是「γ越大，高斯核的局部性越强，模型越复杂，容易过拟合;γ越小，模型越平滑。」，因此更合适的是 B（控制高斯核的宽度，影响单个样本的影响范围）。"
        },
        {
          "id": "class-05-ml-q3-B",
          "text": "控制高斯核的宽度，影响单个样本的影响范围",
          "isCorrect": true,
          "rationale": "γ越大，高斯核的局部性越强，模型越复杂，容易过拟合;γ越小，模型越平滑。"
        },
        {
          "id": "class-05-ml-q3-C",
          "text": "控制决策边界的偏移",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 控制决策边界的偏移会引入多余假设或跳过关键前提；请以「γ越大，高斯核的局部性越强，模型越复杂，容易过拟合;γ越小，模型越平滑。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q3-D",
          "text": "控制支持向量的数量",
          "isCorrect": false,
          "rationale": "控制支持向量的数量更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「超参数」「的作用是」不一致。请以解析「γ越大，高斯核的局部性越强，模型越复杂，容易过拟合;γ越小，模型越平滑。」锁定 B。"
        }
      ],
      "sourceSnippet": "γ越大，高斯核的局部性越强，模型越复杂，容易过拟合;γ越小，模型越平滑。"
    },
    {
      "id": "class-05-ml-q4",
      "number": 4,
      "kind": "single",
      "question": "KNN算法中，若将k值设置为训练集样本总数，则预测结果将是?",
      "hint": "当k等于样本总数时，所有训练样本都参与投票，因此预测结果为训练集中占多数的类别，模型严重欠拟合。",
      "options": [
        {
          "id": "class-05-ml-q4-A",
          "text": "随机类别",
          "isCorrect": false,
          "rationale": "随机类别侧重的是另一个机制或层级：与材料中强调的「算法中」「值设置为训练集样本总数」不一致；解析核心是「当k等于样本总数时，所有训练样本都参与投票，因此预测结果为训练集中占多数的类别，模型严重欠拟合。」，因此更合适的是 B（训练集中出现次数最多的类别）。"
        },
        {
          "id": "class-05-ml-q4-B",
          "text": "训练集中出现次数最多的类别",
          "isCorrect": true,
          "rationale": "当k等于样本总数时，所有训练样本都参与投票，因此预测结果为训练集中占多数的类别，模型严重欠拟合。"
        },
        {
          "id": "class-05-ml-q4-C",
          "text": "距离最近的类别",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 距离最近的类别会引入多余假设或跳过关键前提；请以「当k等于样本总数时，所有训练样本都参与投票，因此预测结果为训练集中占多数的类别，模型严重欠拟合。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q4-D",
          "text": "无法预测",
          "isCorrect": false,
          "rationale": "无法预测更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「算法中」「值设置为训练集样本总数」不一致。请以解析「当k等于样本总数时，所有训练样本都参与投票，因此预测结果为训练集中占多数的类别，模型严重欠拟合。」锁定 B。"
        }
      ],
      "sourceSnippet": "当k等于样本总数时，所有训练样本都参与投票，因此预测结果为训练集中占多数的类别，模型严重欠拟合。"
    },
    {
      "id": "class-05-ml-q5",
      "number": 5,
      "kind": "single",
      "question": "以下哪种方法主要用于解决过拟合问题?",
      "hint": "减少数据或增加复杂度会加剧过拟合。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q5-A",
          "text": "增加训练数据量",
          "isCorrect": true,
          "rationale": "增加训练数据量、降低模型复杂度、增加正则化强度或早停等都可以缓解过拟合。减少数据或增加复杂度会加剧过拟合。"
        },
        {
          "id": "class-05-ml-q5-B",
          "text": "减少训练数据量",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「增加训练数据量」「降低模型复杂度」不一致；而 A 才覆盖「增加训练数据量、降低模型复杂度、增加正则化强度或早停等都可以缓解过拟合。减少数据或增加复杂度会加剧过拟合。」这层判断。"
        },
        {
          "id": "class-05-ml-q5-C",
          "text": "增加模型复杂度",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 增加模型复杂度会引入多余假设或跳过关键前提；请以「增加训练数据量、降低模型复杂度、增加正则化强度或早停等都可以缓解过拟合。减少数据或增加复杂度会加剧过拟合。」为轴对照 A。"
        },
        {
          "id": "class-05-ml-q5-D",
          "text": "减少正则化参数",
          "isCorrect": false,
          "rationale": "减少正则化参数更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「增加训练数据量」「降低模型复杂度」不一致。请以解析「增加训练数据量、降低模型复杂度、增加正则化强度或早停等都可以缓解过拟合。减少数据或增加复杂度会加剧过拟合。」锁定 A。"
        }
      ],
      "sourceSnippet": "增加训练数据量、降低模型复杂度、增加正则化强度或早停等都可以缓解过拟合。减少数据或增加复杂度会加剧过拟合。"
    },
    {
      "id": "class-05-ml-q6",
      "number": 6,
      "kind": "single",
      "question": "在梯度下降中，学习率过大会导致?",
      "hint": "学习率过大可能导致参数更新步长过大，越过最优点，使损失函数震荡甚至发散;学习率过小则收敛缓慢。",
      "options": [
        {
          "id": "class-05-ml-q6-A",
          "text": "收敛速度变慢",
          "isCorrect": false,
          "rationale": "收敛速度变慢侧重的是另一个机制或层级：与材料中强调的「在梯度下降中」「学习率过大会导致」不一致；解析核心是「学习率过大可能导致参数更新步长过大，越过最优点，使损失函数震荡甚至发散;学习率过小则收敛缓慢。」，因此更合适的是 B（损失函数无法收敛，甚至发散）。"
        },
        {
          "id": "class-05-ml-q6-B",
          "text": "损失函数无法收敛，甚至发散",
          "isCorrect": true,
          "rationale": "学习率过大可能导致参数更新步长过大，越过最优点，使损失函数震荡甚至发散;学习率过小则收敛缓慢。"
        },
        {
          "id": "class-05-ml-q6-C",
          "text": "陷入局部极小值",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 陷入局部极小值会引入多余假设或跳过关键前提；请以「学习率过大可能导致参数更新步长过大，越过最优点，使损失函数震荡甚至发散;学习率过小则收敛缓慢。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q6-D",
          "text": "模型欠拟合",
          "isCorrect": false,
          "rationale": "模型欠拟合更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在梯度下降中」「学习率过大会导致」不一致。请以解析「学习率过大可能导致参数更新步长过大，越过最优点，使损失函数震荡甚至发散;学习率过小则收敛缓慢。」锁定 B。"
        }
      ],
      "sourceSnippet": "学习率过大可能导致参数更新步长过大，越过最优点，使损失函数震荡甚至发散;学习率过小则收敛缓慢。"
    },
    {
      "id": "class-05-ml-q7",
      "number": 7,
      "kind": "single",
      "question": "在机器学习中，有监督学习的核心特点是?",
      "hint": "选项A是无监督学习，选项C是半监督学习，选项D不是机器学习标准范式。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q7-A",
          "text": "数据没有标签，模型自行发现结构",
          "isCorrect": false,
          "rationale": "数据没有标签，模型自行发现结构侧重的是另一个机制或层级：与材料中强调的「在机器学习中」「有监督学习的核心特点是」不一致；解析核心是「有监督学习的训练数据包含输入特征(X)和对应的正确输出标签(Y)，模型通过学习这些标注数据来建立从X到Y的映射关系。选项A是无监督学习，选项C是半监督学习，选项D不是机器学习标准范式。」，因此更合适的是 B（数据有输入特征和对应的输出标签，模型学习从输入到输出的映射）。"
        },
        {
          "id": "class-05-ml-q7-B",
          "text": "数据有输入特征和对应的输出标签，模型学习从输入到输出的映射",
          "isCorrect": true,
          "rationale": "有监督学习的训练数据包含输入特征(X)和对应的正确输出标签(Y)，模型通过学习这些标注数据来建立从X到Y的映射关系。选项A是无监督学习，选项C是半监督学习，选项D不是机器学习标准范式。"
        },
        {
          "id": "class-05-ml-q7-C",
          "text": "只有部分数据有标签，其余无标签",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 只有部分数据有标签，其余无标签会引入多余假设或跳过关键前提；请以「有监督学习的训练数据包含输入特征(X)和对应的正确输出标签(Y)，模型通过学习这些标注数据来建立从X到Y的映射关系。选项A是无监督学习，选项C是半监督学习，选项D不是机器学习标准范式。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q7-D",
          "text": "模型不需要训练数据，直接通过规则推理",
          "isCorrect": false,
          "rationale": "模型不需要训练数据，直接通过规则推理更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在机器学习中」「有监督学习的核心特点是」不一致。请以解析「有监督学习的训练数据包含输入特征(X)和对应的正确输出标签(Y)，模型通过学习这些标注数据来建立从X到Y的映射关系。选项A是无监督学习，选项C是半监督学习，选项D不是机器学习标准范式。」锁定 B。"
        }
      ],
      "sourceSnippet": "有监督学习的训练数据包含输入特征(X)和对应的正确输出标签(Y)，模型通过学习这些标注数据来建立从X到Y的映射关系。选项A是无监督学习，选项C是半监督学习，选项D不是机器学习标准范式。"
    },
    {
      "id": "class-05-ml-q8",
      "number": 8,
      "kind": "single",
      "question": "SVM算法中，超参数C的作用是?",
      "hint": "C越大，对误分类惩罚越重，决策边界越复杂，容易过拟合;C越小，边界越平滑。",
      "options": [
        {
          "id": "class-05-ml-q8-A",
          "text": "控制核函数的类型",
          "isCorrect": false,
          "rationale": "控制核函数的类型侧重的是另一个机制或层级：与材料中强调的「算法中」「超参数」不一致；解析核心是「C越大，对误分类惩罚越重，决策边界越复杂，容易过拟合;C越小，边界越平滑。」，因此更合适的是 B（控制对误分类样本的惩罚程度）。"
        },
        {
          "id": "class-05-ml-q8-B",
          "text": "控制对误分类样本的惩罚程度",
          "isCorrect": true,
          "rationale": "C越大，对误分类惩罚越重，决策边界越复杂，容易过拟合;C越小，边界越平滑。"
        },
        {
          "id": "class-05-ml-q8-C",
          "text": "控制特征空间的维度",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 控制特征空间的维度会引入多余假设或跳过关键前提；请以「C越大，对误分类惩罚越重，决策边界越复杂，容易过拟合;C越小，边界越平滑。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q8-D",
          "text": "控制支持向量的个数",
          "isCorrect": false,
          "rationale": "控制支持向量的个数更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「算法中」「超参数」不一致。请以解析「C越大，对误分类惩罚越重，决策边界越复杂，容易过拟合;C越小，边界越平滑。」锁定 B。"
        }
      ],
      "sourceSnippet": "C越大，对误分类惩罚越重，决策边界越复杂，容易过拟合;C越小，边界越平滑。"
    },
    {
      "id": "class-05-ml-q9",
      "number": 9,
      "kind": "single",
      "question": "在模型评估中，如果测试集被反复用于调优，会导致什么后果?",
      "hint": "测试集只能用于最终评估，若反复用于调优，模型会逐渐“记住”测试集特征，导致泛化误差估计过于乐观。",
      "options": [
        {
          "id": "class-05-ml-q9-A",
          "text": "模型泛化能力被高估",
          "isCorrect": true,
          "rationale": "测试集只能用于最终评估，若反复用于调优，模型会逐渐“记住”测试集特征，导致泛化误差估计过于乐观。"
        },
        {
          "id": "class-05-ml-q9-B",
          "text": "模型泛化能力被低估",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「在模型评估中」「如果测试集被反复用于调优」不一致；而 A 才覆盖「测试集只能用于最终评估，若反复用于调优，模型会逐渐“记住”测试集特征，导致泛化误差估计过于乐观。」这层判断。"
        },
        {
          "id": "class-05-ml-q9-C",
          "text": "训练时间增加",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 训练时间增加会引入多余假设或跳过关键前提；请以「测试集只能用于最终评估，若反复用于调优，模型会逐渐“记住”测试集特征，导致泛化误差估计过于乐观。」为轴对照 A。"
        },
        {
          "id": "class-05-ml-q9-D",
          "text": "过拟合减轻",
          "isCorrect": false,
          "rationale": "过拟合减轻更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在模型评估中」「如果测试集被反复用于调优」不一致。请以解析「测试集只能用于最终评估，若反复用于调优，模型会逐渐“记住”测试集特征，导致泛化误差估计过于乐观。」锁定 A。"
        }
      ],
      "sourceSnippet": "测试集只能用于最终评估，若反复用于调优，模型会逐渐“记住”测试集特征，导致泛化误差估计过于乐观。"
    },
    {
      "id": "class-05-ml-q10",
      "number": 10,
      "kind": "single",
      "question": "对于KNN算法，若特征维度很高(如1000维)，通常需要先进行?",
      "hint": "高维空间中距离度量会失效(维度灾难)，常用PCA等降维方法提取主要特征，同时标准化也是必要步骤，但降维是首要应对策略。",
      "options": [
        {
          "id": "class-05-ml-q10-A",
          "text": "数据标准化",
          "isCorrect": false,
          "rationale": "数据标准化侧重的是另一个机制或层级：与材料中强调的「若特征维度很高」「通常需要先进行」不一致；解析核心是「高维空间中距离度量会失效(维度灾难)，常用PCA等降维方法提取主要特征，同时标准化也是必要步骤，但降维是首要应对策略。」，因此更合适的是 B（特征降维）。"
        },
        {
          "id": "class-05-ml-q10-B",
          "text": "特征降维",
          "isCorrect": true,
          "rationale": "高维空间中距离度量会失效(维度灾难)，常用PCA等降维方法提取主要特征，同时标准化也是必要步骤，但降维是首要应对策略。"
        },
        {
          "id": "class-05-ml-q10-C",
          "text": "增加k值",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 增加k值会引入多余假设或跳过关键前提；请以「高维空间中距离度量会失效(维度灾难)，常用PCA等降维方法提取主要特征，同时标准化也是必要步骤，但降维是首要应对策略。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q10-D",
          "text": "使用曼哈顿距离",
          "isCorrect": false,
          "rationale": "使用曼哈顿距离更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「若特征维度很高」「通常需要先进行」不一致。请以解析「高维空间中距离度量会失效(维度灾难)，常用PCA等降维方法提取主要特征，同时标准化也是必要步骤，但降维是首要应对策略。」锁定 B。"
        }
      ],
      "sourceSnippet": "高维空间中距离度量会失效(维度灾难)，常用PCA等降维方法提取主要特征，同时标准化也是必要步骤，但降维是首要应对策略。"
    },
    {
      "id": "class-05-ml-q11",
      "number": 11,
      "kind": "single",
      "question": "场景:某电商使用线性回归预测用户消费金额，训练集R²=0.98，测试集R²=0.65。 模型最可能出现什么情况?",
      "hint": "需降低模型复杂度、增加正则化或更多数据。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q11-A",
          "text": "欠拟合",
          "isCorrect": false,
          "rationale": "欠拟合侧重的是另一个机制或层级：与材料中强调的「某电商使用线性回归预测用户消费金额」「训练集」不一致；解析核心是「训练集表现远优于测试集，典型过拟合症状。需降低模型复杂度、增加正则化或更多数据。」，因此更合适的是 B（过拟合）。"
        },
        {
          "id": "class-05-ml-q11-B",
          "text": "过拟合",
          "isCorrect": true,
          "rationale": "训练集表现远优于测试集，典型过拟合症状。需降低模型复杂度、增加正则化或更多数据。"
        },
        {
          "id": "class-05-ml-q11-C",
          "text": "数据泄露",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 数据泄露会引入多余假设或跳过关键前提；请以「训练集表现远优于测试集，典型过拟合症状。需降低模型复杂度、增加正则化或更多数据。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q11-D",
          "text": "类别不平衡",
          "isCorrect": false,
          "rationale": "类别不平衡更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某电商使用线性回归预测用户消费金额」「训练集」不一致。请以解析「训练集表现远优于测试集，典型过拟合症状。需降低模型复杂度、增加正则化或更多数据。」锁定 B。"
        }
      ],
      "sourceSnippet": "训练集表现远优于测试集，典型过拟合症状。需降低模型复杂度、增加正则化或更多数据。"
    },
    {
      "id": "class-05-ml-q12",
      "number": 12,
      "kind": "single",
      "question": "场景:医生使用SVM诊断罕见病，数据集中99%为健康人，1%为患者。训练后模型将所有样本预测为健康。 最可能的问题是?",
      "hint": "可通过过采样、欠采样或设置class_weight='balanced'解决。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q12-A",
          "text": "模型过拟合",
          "isCorrect": false,
          "rationale": "模型过拟合侧重的是另一个机制或层级：与材料中强调的「医生使用」「诊断罕见病」不一致；解析核心是「正负样本极度不平衡，模型倾向于预测多数类。可通过过采样、欠采样或设置class_weight='balanced'解决。」，因此更合适的是 B（类别不平衡）。"
        },
        {
          "id": "class-05-ml-q12-B",
          "text": "类别不平衡",
          "isCorrect": true,
          "rationale": "正负样本极度不平衡，模型倾向于预测多数类。可通过过采样、欠采样或设置class_weight='balanced'解决。"
        },
        {
          "id": "class-05-ml-q12-C",
          "text": "学习率过大",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 学习率过大会引入多余假设或跳过关键前提；请以「正负样本极度不平衡，模型倾向于预测多数类。可通过过采样、欠采样或设置class_weight='balanced'解决。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q12-D",
          "text": "核函数选择错误",
          "isCorrect": false,
          "rationale": "核函数选择错误更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「医生使用」「诊断罕见病」不一致。请以解析「正负样本极度不平衡，模型倾向于预测多数类。可通过过采样、欠采样或设置class_weight='balanced'解决。」锁定 B。"
        }
      ],
      "sourceSnippet": "正负样本极度不平衡，模型倾向于预测多数类。可通过过采样、欠采样或设置class_weight='balanced'解决。"
    },
    {
      "id": "class-05-ml-q13",
      "number": 13,
      "kind": "single",
      "question": "场景:训练一个KNN分类器(k=3)，发现训练集准确率100%，测试集准确率70%。 以下哪种调整最可能提升测试集性能?",
      "hint": "增大k可使模型更平滑，降低方差，提升泛化能力。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q13-A",
          "text": "增大k值",
          "isCorrect": true,
          "rationale": "k=3时模型较复杂，可能过拟合。增大k可使模型更平滑，降低方差，提升泛化能力。"
        },
        {
          "id": "class-05-ml-q13-B",
          "text": "减小k值",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「训练一个」「分类器」不一致；而 A 才覆盖「k=3时模型较复杂，可能过拟合。增大k可使模型更平滑，降低方差，提升泛化能力。」这层判断。"
        },
        {
          "id": "class-05-ml-q13-C",
          "text": "使用曼哈顿距离",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 使用曼哈顿距离会引入多余假设或跳过关键前提；请以「k=3时模型较复杂，可能过拟合。增大k可使模型更平滑，降低方差，提升泛化能力。」为轴对照 A。"
        },
        {
          "id": "class-05-ml-q13-D",
          "text": "不做任何处理",
          "isCorrect": false,
          "rationale": "不做任何处理更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「训练一个」「分类器」不一致。请以解析「k=3时模型较复杂，可能过拟合。增大k可使模型更平滑，降低方差，提升泛化能力。」锁定 A。"
        }
      ],
      "sourceSnippet": "k=3时模型较复杂，可能过拟合。增大k可使模型更平滑，降低方差，提升泛化能力。"
    },
    {
      "id": "class-05-ml-q14",
      "number": 14,
      "kind": "single",
      "question": "场景:某房价预测任务中，特征包括房间数、面积、地段评分等。训练线性回归后，发现测试集误差较大，且模型系数非常大。 最有效的改进方法是?",
      "hint": "岭回归通过惩罚大系数缓解该问题。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q14-A",
          "text": "增加多项式特征",
          "isCorrect": false,
          "rationale": "增加多项式特征侧重的是另一个机制或层级：与材料中强调的「某房价预测任务中」「特征包括房间数」不一致；解析核心是「系数过大表明模型对训练数据过度敏感，可能存在多重共线性或过拟合。岭回归通过惩罚大系数缓解该问题。」，因此更合适的是 B（使用L2正则化(岭回归)）。"
        },
        {
          "id": "class-05-ml-q14-B",
          "text": "使用L2正则化(岭回归)",
          "isCorrect": true,
          "rationale": "系数过大表明模型对训练数据过度敏感，可能存在多重共线性或过拟合。岭回归通过惩罚大系数缓解该问题。"
        },
        {
          "id": "class-05-ml-q14-C",
          "text": "使用KNN代替线性回归",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 使用KNN代替线性回归会引入多余假设或跳过关键前提；请以「系数过大表明模型对训练数据过度敏感，可能存在多重共线性或过拟合。岭回归通过惩罚大系数缓解该问题。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q14-D",
          "text": "减少训练数据",
          "isCorrect": false,
          "rationale": "减少训练数据更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某房价预测任务中」「特征包括房间数」不一致。请以解析「系数过大表明模型对训练数据过度敏感，可能存在多重共线性或过拟合。岭回归通过惩罚大系数缓解该问题。」锁定 B。"
        }
      ],
      "sourceSnippet": "系数过大表明模型对训练数据过度敏感，可能存在多重共线性或过拟合。岭回归通过惩罚大系数缓解该问题。"
    },
    {
      "id": "class-05-ml-q15",
      "number": 15,
      "kind": "single",
      "question": "场景:使用SVM(RBF核)对手写数字分类，通过网格搜索得到最佳C=1000，γ=0.01。但测试集准确率低于验证集。 最可能的原因是?",
      "hint": "可尝试降低C或增大γ的搜索范围，或增加正则化。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q15-A",
          "text": "验证集和测试集分布不一致",
          "isCorrect": false,
          "rationale": "验证集和测试集分布不一致侧重的是另一个机制或层级：与材料中强调的「对手写数字分类」「通过网格搜索得到最佳」不一致；解析核心是「即使通过交叉验证选择了参数，若模型复杂度过高仍可能过拟合。可尝试降低C或增大γ的搜索范围，或增加正则化。」，因此更合适的是 B（模型仍然过拟合）。"
        },
        {
          "id": "class-05-ml-q15-B",
          "text": "模型仍然过拟合",
          "isCorrect": true,
          "rationale": "即使通过交叉验证选择了参数，若模型复杂度过高仍可能过拟合。可尝试降低C或增大γ的搜索范围，或增加正则化。"
        },
        {
          "id": "class-05-ml-q15-C",
          "text": "训练数据太少",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 训练数据太少会引入多余假设或跳过关键前提；请以「即使通过交叉验证选择了参数，若模型复杂度过高仍可能过拟合。可尝试降低C或增大γ的搜索范围，或增加正则化。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q15-D",
          "text": "学习率设置错误",
          "isCorrect": false,
          "rationale": "学习率设置错误更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「对手写数字分类」「通过网格搜索得到最佳」不一致。请以解析「即使通过交叉验证选择了参数，若模型复杂度过高仍可能过拟合。可尝试降低C或增大γ的搜索范围，或增加正则化。」锁定 B。"
        }
      ],
      "sourceSnippet": "即使通过交叉验证选择了参数，若模型复杂度过高仍可能过拟合。可尝试降低C或增大γ的搜索范围，或增加正则化。"
    },
    {
      "id": "class-05-ml-q16",
      "number": 16,
      "kind": "single",
      "question": "场景:线性回归模型在训练集和测试集上的均方误差分别为0.2和0.8。 以下哪项操作最可能缩小两者差距?",
      "hint": "增加正则化强度(如增大岭回归的α)可以抑制模型复杂度。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q16-A",
          "text": "增加特征数量",
          "isCorrect": false,
          "rationale": "增加特征数量侧重的是另一个机制或层级：与材料中强调的「线性回归模型在训练集和测试集上的均方误差分别为」「过拟合导致训练误差远小于测试误差」不一致；解析核心是「过拟合导致训练误差远小于测试误差。增加正则化强度(如增大岭回归的α)可以抑制模型复杂度。」，因此更合适的是 C（增加正则化参数）。"
        },
        {
          "id": "class-05-ml-q16-B",
          "text": "使用更复杂的模型(如多项式回归)",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「线性回归模型在训练集和测试集上的均方误差分别为」「过拟合导致训练误差远小于测试误差」不一致；而 C 才覆盖「过拟合导致训练误差远小于测试误差。增加正则化强度(如增大岭回归的α)可以抑制模型复杂度。」这层判断。"
        },
        {
          "id": "class-05-ml-q16-C",
          "text": "增加正则化参数",
          "isCorrect": true,
          "rationale": "过拟合导致训练误差远小于测试误差。增加正则化强度(如增大岭回归的α)可以抑制模型复杂度。"
        },
        {
          "id": "class-05-ml-q16-D",
          "text": "降低正则化参数",
          "isCorrect": false,
          "rationale": "降低正则化参数更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「线性回归模型在训练集和测试集上的均方误差分别为」「过拟合导致训练误差远小于测试误差」不一致。请以解析「过拟合导致训练误差远小于测试误差。增加正则化强度(如增大岭回归的α)可以抑制模型复杂度。」锁定 C。"
        }
      ],
      "sourceSnippet": "过拟合导致训练误差远小于测试误差。增加正则化强度(如增大岭回归的α)可以抑制模型复杂度。"
    },
    {
      "id": "class-05-ml-q17",
      "number": 17,
      "kind": "single",
      "question": "场景:某公司使用KNN推荐商品，用户特征包含年龄、收入、浏览历史(高维稀疏)。模型预测速度很慢。 以下哪种方法对提升预测速度最有效?",
      "hint": "降维可减少计算量并可能提升效果。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q17-A",
          "text": "增大k值",
          "isCorrect": false,
          "rationale": "增大k值侧重的是另一个机制或层级：与材料中强调的「某公司使用」「推荐商品」不一致；解析核心是「KNN预测需计算待测样本与所有训练样本的距离，高维数据计算量大。降维可减少计算量并可能提升效果。」，因此更合适的是 B（使用PCA降维）。"
        },
        {
          "id": "class-05-ml-q17-B",
          "text": "使用PCA降维",
          "isCorrect": true,
          "rationale": "KNN预测需计算待测样本与所有训练样本的距离，高维数据计算量大。降维可减少计算量并可能提升效果。"
        },
        {
          "id": "class-05-ml-q17-C",
          "text": "使用欧氏距离",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 使用欧氏距离会引入多余假设或跳过关键前提；请以「KNN预测需计算待测样本与所有训练样本的距离，高维数据计算量大。降维可减少计算量并可能提升效果。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q17-D",
          "text": "增加训练样本",
          "isCorrect": false,
          "rationale": "增加训练样本更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某公司使用」「推荐商品」不一致。请以解析「KNN预测需计算待测样本与所有训练样本的距离，高维数据计算量大。降维可减少计算量并可能提升效果。」锁定 B。"
        }
      ],
      "sourceSnippet": "KNN预测需计算待测样本与所有训练样本的距离，高维数据计算量大。降维可减少计算量并可能提升效果。"
    },
    {
      "id": "class-05-ml-q18",
      "number": 18,
      "kind": "single",
      "question": "场景:训练逻辑回归(二分类)时，损失函数值在初始下降后出现剧烈震荡。 最可能的原因是?",
      "hint": "减小学习率可缓解。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q18-A",
          "text": "学习率过大",
          "isCorrect": true,
          "rationale": "学习率过大会导致参数更新步长过大，使损失函数在最优值附近震荡不收敛。减小学习率可缓解。"
        },
        {
          "id": "class-05-ml-q18-B",
          "text": "学习率过小",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「训练逻辑回归」「二分类」不一致；而 A 才覆盖「学习率过大会导致参数更新步长过大，使损失函数在最优值附近震荡不收敛。减小学习率可缓解。」这层判断。"
        },
        {
          "id": "class-05-ml-q18-C",
          "text": "特征未标准化",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 特征未标准化会引入多余假设或跳过关键前提；请以「学习率过大会导致参数更新步长过大，使损失函数在最优值附近震荡不收敛。减小学习率可缓解。」为轴对照 A。"
        },
        {
          "id": "class-05-ml-q18-D",
          "text": "过拟合",
          "isCorrect": false,
          "rationale": "过拟合更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「训练逻辑回归」「二分类」不一致。请以解析「学习率过大会导致参数更新步长过大，使损失函数在最优值附近震荡不收敛。减小学习率可缓解。」锁定 A。"
        }
      ],
      "sourceSnippet": "学习率过大会导致参数更新步长过大，使损失函数在最优值附近震荡不收敛。减小学习率可缓解。"
    },
    {
      "id": "class-05-ml-q19",
      "number": 19,
      "kind": "single",
      "question": "场景:使用线性回归预测气温，发现模型在训练集和测试集上R²都很低(约0.3)。 该模型处于什么状态?",
      "hint": "可尝试增加特征或使用非线性模型。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q19-A",
          "text": "过拟合",
          "isCorrect": false,
          "rationale": "过拟合侧重的是另一个机制或层级：与材料中强调的「使用线性回归预测气温」「发现模型在训练集和测试集上」不一致；解析核心是「训练集和测试集表现均差，说明模型未能捕捉数据规律，属于欠拟合。可尝试增加特征或使用非线性模型。」，因此更合适的是 B（欠拟合）。"
        },
        {
          "id": "class-05-ml-q19-B",
          "text": "欠拟合",
          "isCorrect": true,
          "rationale": "训练集和测试集表现均差，说明模型未能捕捉数据规律，属于欠拟合。可尝试增加特征或使用非线性模型。"
        },
        {
          "id": "class-05-ml-q19-C",
          "text": "完美拟合",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 完美拟合会引入多余假设或跳过关键前提；请以「训练集和测试集表现均差，说明模型未能捕捉数据规律，属于欠拟合。可尝试增加特征或使用非线性模型。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q19-D",
          "text": "数据泄露",
          "isCorrect": false,
          "rationale": "数据泄露更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「使用线性回归预测气温」「发现模型在训练集和测试集上」不一致。请以解析「训练集和测试集表现均差，说明模型未能捕捉数据规律，属于欠拟合。可尝试增加特征或使用非线性模型。」锁定 B。"
        }
      ],
      "sourceSnippet": "训练集和测试集表现均差，说明模型未能捕捉数据规律，属于欠拟合。可尝试增加特征或使用非线性模型。"
    },
    {
      "id": "class-05-ml-q20",
      "number": 20,
      "kind": "single",
      "question": "场景:人脸识别任务中，使用PCA降维至20维，再用SVM分类。训练准确率100%，测试准确率95%。 以下说法正确的是?",
      "hint": "训练和测试准确率接近且都很高，说明模型泛化能力良好，不存在明显过拟合或欠拟合。",
      "options": [
        {
          "id": "class-05-ml-q20-A",
          "text": "模型严重过拟合",
          "isCorrect": false,
          "rationale": "模型严重过拟合侧重的是另一个机制或层级：与材料中强调的「人脸识别任务中」「降维至」不一致；解析核心是「训练和测试准确率接近且都很高，说明模型泛化能力良好，不存在明显过拟合或欠拟合。」，因此更合适的是 B（模型泛化能力良好）。"
        },
        {
          "id": "class-05-ml-q20-B",
          "text": "模型泛化能力良好",
          "isCorrect": true,
          "rationale": "训练和测试准确率接近且都很高，说明模型泛化能力良好，不存在明显过拟合或欠拟合。"
        },
        {
          "id": "class-05-ml-q20-C",
          "text": "PCA降维维度太低",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 PCA降维维度太低会引入多余假设或跳过关键前提；请以「训练和测试准确率接近且都很高，说明模型泛化能力良好，不存在明显过拟合或欠拟合。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q20-D",
          "text": "应使用更多主成分",
          "isCorrect": false,
          "rationale": "应使用更多主成分更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「人脸识别任务中」「降维至」不一致。请以解析「训练和测试准确率接近且都很高，说明模型泛化能力良好，不存在明显过拟合或欠拟合。」锁定 B。"
        }
      ],
      "sourceSnippet": "训练和测试准确率接近且都很高，说明模型泛化能力良好，不存在明显过拟合或欠拟合。"
    },
    {
      "id": "class-05-ml-q21",
      "number": 21,
      "kind": "single",
      "question": "以下哪项不是监督学习算法?",
      "hint": "其他三项均为监督学习。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q21-A",
          "text": "线性回归",
          "isCorrect": false,
          "rationale": "线性回归侧重的是另一个机制或层级：与材料中强调的「是无监督聚类算法」「不使用标签」不一致；解析核心是「K-Means是无监督聚类算法，不使用标签。其他三项均为监督学习。」，因此更合适的是 C（K-Means）。"
        },
        {
          "id": "class-05-ml-q21-B",
          "text": "KNN",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「是无监督聚类算法」「不使用标签」不一致；而 C 才覆盖「K-Means是无监督聚类算法，不使用标签。其他三项均为监督学习。」这层判断。"
        },
        {
          "id": "class-05-ml-q21-C",
          "text": "K-Means",
          "isCorrect": true,
          "rationale": "K-Means是无监督聚类算法，不使用标签。其他三项均为监督学习。 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。"
        },
        {
          "id": "class-05-ml-q21-D",
          "text": "SVM",
          "isCorrect": false,
          "rationale": "SVM更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「是无监督聚类算法」「不使用标签」不一致。请以解析「K-Means是无监督聚类算法，不使用标签。其他三项均为监督学习。」锁定 C。"
        }
      ],
      "sourceSnippet": "K-Means是无监督聚类算法，不使用标签。其他三项均为监督学习。"
    },
    {
      "id": "class-05-ml-q22",
      "number": 22,
      "kind": "single",
      "question": "在SVM中，支持向量是指?",
      "hint": "支持向量是距离决策边界最近的样本点，它们决定了最大间隔超平面。",
      "options": [
        {
          "id": "class-05-ml-q22-A",
          "text": "所有训练样本",
          "isCorrect": false,
          "rationale": "所有训练样本侧重的是另一个机制或层级：与材料中强调的「支持向量是指」「支持向量是距离决策边界最近的样本点」不一致；解析核心是「支持向量是距离决策边界最近的样本点，它们决定了最大间隔超平面。」，因此更合适的是 B（靠近决策边界的样本）。"
        },
        {
          "id": "class-05-ml-q22-B",
          "text": "靠近决策边界的样本",
          "isCorrect": true,
          "rationale": "支持向量是距离决策边界最近的样本点，它们决定了最大间隔超平面。 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。"
        },
        {
          "id": "class-05-ml-q22-C",
          "text": "被正确分类的样本",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 被正确分类的样本会引入多余假设或跳过关键前提；请以「支持向量是距离决策边界最近的样本点，它们决定了最大间隔超平面。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q22-D",
          "text": "远离决策边界的样本",
          "isCorrect": false,
          "rationale": "远离决策边界的样本更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「支持向量是指」「支持向量是距离决策边界最近的样本点」不一致。请以解析「支持向量是距离决策边界最近的样本点，它们决定了最大间隔超平面。」锁定 B。"
        }
      ],
      "sourceSnippet": "支持向量是距离决策边界最近的样本点，它们决定了最大间隔超平面。"
    },
    {
      "id": "class-05-ml-q23",
      "number": 23,
      "kind": "single",
      "question": "以下关于交叉验证的说法，正确的是?",
      "hint": "交叉验证用于评估模型泛化能力和选择超参数，最终模型仍需用全部训练数据重新训练。",
      "options": [
        {
          "id": "class-05-ml-q23-A",
          "text": "交叉验证可以减少训练数据量",
          "isCorrect": false,
          "rationale": "交叉验证可以减少训练数据量侧重的是另一个机制或层级：与材料中强调的「以下关于交叉验证的说法」「正确的是」不一致；解析核心是「交叉验证用于评估模型泛化能力和选择超参数，最终模型仍需用全部训练数据重新训练。」，因此更合适的是 B（交叉验证用于超参数选择，不用于模型最终训练）。"
        },
        {
          "id": "class-05-ml-q23-B",
          "text": "交叉验证用于超参数选择，不用于模型最终训练",
          "isCorrect": true,
          "rationale": "交叉验证用于评估模型泛化能力和选择超参数，最终模型仍需用全部训练数据重新训练。"
        },
        {
          "id": "class-05-ml-q23-C",
          "text": "交叉验证只能用于分类问题",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 交叉验证只能用于分类问题会引入多余假设或跳过关键前提；请以「交叉验证用于评估模型泛化能力和选择超参数，最终模型仍需用全部训练数据重新训练。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q23-D",
          "text": "交叉验证会导致数据泄露",
          "isCorrect": false,
          "rationale": "交叉验证会导致数据泄露更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「以下关于交叉验证的说法」「正确的是」不一致。请以解析「交叉验证用于评估模型泛化能力和选择超参数，最终模型仍需用全部训练数据重新训练。」锁定 B。"
        }
      ],
      "sourceSnippet": "交叉验证用于评估模型泛化能力和选择超参数，最终模型仍需用全部训练数据重新训练。"
    },
    {
      "id": "class-05-ml-q24",
      "number": 24,
      "kind": "single",
      "question": "在线性回归模型中，常用的参数估计方法是?",
      "hint": "最大间隔法是SVM的思想，铰链损失是SVM的损失函数，基尼系数用于决策树。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q24-A",
          "text": "最大间隔法",
          "isCorrect": false,
          "rationale": "最大间隔法侧重的是另一个机制或层级：与材料中强调的「在线性回归模型中」「常用的参数估计方法是」不一致；解析核心是「线性回归通常使用最小二乘法，即最小化残差平方和来估计参数。最大间隔法是SVM的思想，铰链损失是SVM的损失函数，基尼系数用于决策树。」，因此更合适的是 B（最小二乘法(OLS)）。"
        },
        {
          "id": "class-05-ml-q24-B",
          "text": "最小二乘法(OLS)",
          "isCorrect": true,
          "rationale": "线性回归通常使用最小二乘法，即最小化残差平方和来估计参数。最大间隔法是SVM的思想，铰链损失是SVM的损失函数，基尼系数用于决策树。"
        },
        {
          "id": "class-05-ml-q24-C",
          "text": "铰链损失最小化",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 铰链损失最小化会引入多余假设或跳过关键前提；请以「线性回归通常使用最小二乘法，即最小化残差平方和来估计参数。最大间隔法是SVM的思想，铰链损失是SVM的损失函数，基尼系数用于决策树。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q24-D",
          "text": "基尼系数最小化",
          "isCorrect": false,
          "rationale": "基尼系数最小化更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在线性回归模型中」「常用的参数估计方法是」不一致。请以解析「线性回归通常使用最小二乘法，即最小化残差平方和来估计参数。最大间隔法是SVM的思想，铰链损失是SVM的损失函数，基尼系数用于决策树。」锁定 B。"
        }
      ],
      "sourceSnippet": "线性回归通常使用最小二乘法，即最小化残差平方和来估计参数。最大间隔法是SVM的思想，铰链损失是SVM的损失函数，基尼系数用于决策树。"
    },
    {
      "id": "class-05-ml-q25",
      "number": 25,
      "kind": "single",
      "question": "以下哪个指标最适合评估极度不平衡分类问题(如欺诈检测)?",
      "hint": "均方误差用于回归。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q25-A",
          "text": "准确率",
          "isCorrect": false,
          "rationale": "准确率侧重的是另一个机制或层级：与材料中强调的「如欺诈检测」「准确率容易被多数类主导」不一致；解析核心是「准确率容易被多数类主导;F1分数综合了精确率和召回率，更适合不平衡问题。均方误差用于回归。」，因此更合适的是 C（F1分数）。"
        },
        {
          "id": "class-05-ml-q25-B",
          "text": "召回率",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「如欺诈检测」「准确率容易被多数类主导」不一致；而 C 才覆盖「准确率容易被多数类主导;F1分数综合了精确率和召回率，更适合不平衡问题。均方误差用于回归。」这层判断。"
        },
        {
          "id": "class-05-ml-q25-C",
          "text": "F1分数",
          "isCorrect": true,
          "rationale": "准确率容易被多数类主导;F1分数综合了精确率和召回率，更适合不平衡问题。均方误差用于回归。"
        },
        {
          "id": "class-05-ml-q25-D",
          "text": "均方误差",
          "isCorrect": false,
          "rationale": "均方误差更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「如欺诈检测」「准确率容易被多数类主导」不一致。请以解析「准确率容易被多数类主导;F1分数综合了精确率和召回率，更适合不平衡问题。均方误差用于回归。」锁定 C。"
        }
      ],
      "sourceSnippet": "准确率容易被多数类主导;F1分数综合了精确率和召回率，更适合不平衡问题。均方误差用于回归。"
    },
    {
      "id": "class-05-ml-q26",
      "number": 26,
      "kind": "single",
      "question": "场景:某文本分类任务使用线性SVM，训练集和测试集准确率分别为98%和97%。 以下哪项最可能是模型状态?",
      "hint": "训练与测试性能接近且较高，说明模型泛化能力强，没有明显过拟合或欠拟合。",
      "options": [
        {
          "id": "class-05-ml-q26-A",
          "text": "过拟合",
          "isCorrect": false,
          "rationale": "过拟合侧重的是另一个机制或层级：与材料中强调的「某文本分类任务使用线性」「训练集和测试集准确率分别为」不一致；解析核心是「训练与测试性能接近且较高，说明模型泛化能力强，没有明显过拟合或欠拟合。」，因此更合适的是 C（拟合良好）。"
        },
        {
          "id": "class-05-ml-q26-B",
          "text": "欠拟合",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「某文本分类任务使用线性」「训练集和测试集准确率分别为」不一致；而 C 才覆盖「训练与测试性能接近且较高，说明模型泛化能力强，没有明显过拟合或欠拟合。」这层判断。"
        },
        {
          "id": "class-05-ml-q26-C",
          "text": "拟合良好",
          "isCorrect": true,
          "rationale": "训练与测试性能接近且较高，说明模型泛化能力强，没有明显过拟合或欠拟合。 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。"
        },
        {
          "id": "class-05-ml-q26-D",
          "text": "数据泄露",
          "isCorrect": false,
          "rationale": "数据泄露更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某文本分类任务使用线性」「训练集和测试集准确率分别为」不一致。请以解析「训练与测试性能接近且较高，说明模型泛化能力强，没有明显过拟合或欠拟合。」锁定 C。"
        }
      ],
      "sourceSnippet": "训练与测试性能接近且较高，说明模型泛化能力强，没有明显过拟合或欠拟合。"
    },
    {
      "id": "class-05-ml-q27",
      "number": 27,
      "kind": "single",
      "question": "场景:使用KNN预测股票涨跌，特征包括过去5天的价格和交易量。模型在训练集上准确率85%，测试集上55%。 以下哪项操作最有可能提升测试集性能?",
      "hint": "标准化是关键步骤。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q27-A",
          "text": "减小k值",
          "isCorrect": false,
          "rationale": "减小k值侧重的是另一个机制或层级：与材料中强调的「预测股票涨跌」「特征包括过去」不一致；解析核心是「金融数据不同特征量纲差异大(如价格vs交易量)，未标准化会导致欧氏距离被量纲大的特征主导。标准化是关键步骤。」，因此更合适的是 C（对特征进行标准化）。"
        },
        {
          "id": "class-05-ml-q27-B",
          "text": "增加更多历史特征",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「预测股票涨跌」「特征包括过去」不一致；而 C 才覆盖「金融数据不同特征量纲差异大(如价格vs交易量)，未标准化会导致欧氏距离被量纲大的特征主导。标准化是关键步骤。」这层判断。"
        },
        {
          "id": "class-05-ml-q27-C",
          "text": "对特征进行标准化",
          "isCorrect": true,
          "rationale": "金融数据不同特征量纲差异大(如价格vs交易量)，未标准化会导致欧氏距离被量纲大的特征主导。标准化是关键步骤。"
        },
        {
          "id": "class-05-ml-q27-D",
          "text": "使用欧氏距离",
          "isCorrect": false,
          "rationale": "使用欧氏距离更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「预测股票涨跌」「特征包括过去」不一致。请以解析「金融数据不同特征量纲差异大(如价格vs交易量)，未标准化会导致欧氏距离被量纲大的特征主导。标准化是关键步骤。」锁定 C。"
        }
      ],
      "sourceSnippet": "金融数据不同特征量纲差异大(如价格vs交易量)，未标准化会导致欧氏距离被量纲大的特征主导。标准化是关键步骤。"
    },
    {
      "id": "class-05-ml-q28",
      "number": 28,
      "kind": "single",
      "question": "逻辑回归(Logistic Regression)主要用于解决哪类问题?",
      "hint": "选项A是线性回归的任务。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q28-A",
          "text": "连续值预测(回归)",
          "isCorrect": false,
          "rationale": "连续值预测(回归)侧重的是另一个机制或层级：与材料中强调的「逻辑回归」「主要用于解决哪类问题」不一致；解析核心是「逻辑回归虽然名字中有“回归”，但实际上是一种广义线性模型，主要用于二分类任务，输出属于某个类别的概率。选项A是线性回归的任务。」，因此更合适的是 B（二分类问题）。"
        },
        {
          "id": "class-05-ml-q28-B",
          "text": "二分类问题",
          "isCorrect": true,
          "rationale": "逻辑回归虽然名字中有“回归”，但实际上是一种广义线性模型，主要用于二分类任务，输出属于某个类别的概率。选项A是线性回归的任务。"
        },
        {
          "id": "class-05-ml-q28-C",
          "text": "多标签分类",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 多标签分类会引入多余假设或跳过关键前提；请以「逻辑回归虽然名字中有“回归”，但实际上是一种广义线性模型，主要用于二分类任务，输出属于某个类别的概率。选项A是线性回归的任务。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q28-D",
          "text": "聚类",
          "isCorrect": false,
          "rationale": "聚类更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「逻辑回归」「主要用于解决哪类问题」不一致。请以解析「逻辑回归虽然名字中有“回归”，但实际上是一种广义线性模型，主要用于二分类任务，输出属于某个类别的概率。选项A是线性回归的任务。」锁定 B。"
        }
      ],
      "sourceSnippet": "逻辑回归虽然名字中有“回归”，但实际上是一种广义线性模型，主要用于二分类任务，输出属于某个类别的概率。选项A是线性回归的任务。"
    },
    {
      "id": "class-05-ml-q29",
      "number": 29,
      "kind": "single",
      "question": "ROC曲线下的面积(AUC)用于评估分类模型时，AUC值越接近1表示?",
      "hint": "AUC(Area Under Curve)衡量二分类模型区分正负类的能力，AUC越接近1，说明模型能更好地区分正负样本;0.5表示随机猜测。",
      "options": [
        {
          "id": "class-05-ml-q29-A",
          "text": "模型区分正负样本的能力越弱",
          "isCorrect": false,
          "rationale": "模型区分正负样本的能力越弱侧重的是另一个机制或层级：与材料中强调的「曲线下的面积」「用于评估分类模型时」不一致；解析核心是「AUC(Area Under Curve)衡量二分类模型区分正负类的能力，AUC越接近1，说明模型能更好地区分正负样本;0.5表示随机猜测。」，因此更合适的是 B（模型区分正负样本的能力越强）。"
        },
        {
          "id": "class-05-ml-q29-B",
          "text": "模型区分正负样本的能力越强",
          "isCorrect": true,
          "rationale": "AUC(Area Under Curve)衡量二分类模型区分正负类的能力，AUC越接近1，说明模型能更好地区分正负样本;0.5表示随机猜测。"
        },
        {
          "id": "class-05-ml-q29-C",
          "text": "模型欠拟合",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 模型欠拟合会引入多余假设或跳过关键前提；请以「AUC(Area Under Curve)衡量二分类模型区分正负类的能力，AUC越接近1，说明模型能更好地区分正负样本;0.5表示随机猜测。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q29-D",
          "text": "模型过拟合",
          "isCorrect": false,
          "rationale": "模型过拟合更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「曲线下的面积」「用于评估分类模型时」不一致。请以解析「AUC(Area Under Curve)衡量二分类模型区分正负类的能力，AUC越接近1，说明模型能更好地区分正负样本;0.5表示随机猜测。」锁定 B。"
        }
      ],
      "sourceSnippet": "AUC(Area Under Curve)衡量二分类模型区分正负类的能力，AUC越接近1，说明模型能更好地区分正负样本;0.5表示随机猜测。"
    },
    {
      "id": "class-05-ml-q30",
      "number": 30,
      "kind": "single",
      "question": "场景:使用SVM(线性核)对新闻文章分类(特征维度5000，样本数2000)，训练时间很长。 以下哪种方法最可能减少训练时间?",
      "hint": "RBF核反而更慢。减小C不直接影响训练时间。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q30-A",
          "text": "改用RBF核",
          "isCorrect": false,
          "rationale": "改用RBF核侧重的是另一个机制或层级：与材料中强调的「线性核」「对新闻文章分类」不一致；解析核心是「线性SVM训练复杂度与特征维度有关，降维可显著减少计算量。RBF核反而更慢。减小C不直接影响训练时间。」，因此更合适的是 C（使用PCA将特征降至100维）。"
        },
        {
          "id": "class-05-ml-q30-B",
          "text": "使用更小的C",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「线性核」「对新闻文章分类」不一致；而 C 才覆盖「线性SVM训练复杂度与特征维度有关，降维可显著减少计算量。RBF核反而更慢。减小C不直接影响训练时间。」这层判断。"
        },
        {
          "id": "class-05-ml-q30-C",
          "text": "使用PCA将特征降至100维",
          "isCorrect": true,
          "rationale": "线性SVM训练复杂度与特征维度有关，降维可显著减少计算量。RBF核反而更慢。减小C不直接影响训练时间。"
        },
        {
          "id": "class-05-ml-q30-D",
          "text": "增加训练样本",
          "isCorrect": false,
          "rationale": "增加训练样本更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「线性核」「对新闻文章分类」不一致。请以解析「线性SVM训练复杂度与特征维度有关，降维可显著减少计算量。RBF核反而更慢。减小C不直接影响训练时间。」锁定 C。"
        }
      ],
      "sourceSnippet": "线性SVM训练复杂度与特征维度有关，降维可显著减少计算量。RBF核反而更慢。减小C不直接影响训练时间。"
    },
    {
      "id": "class-05-ml-q31",
      "number": 31,
      "kind": "single",
      "question": "在线性回归的梯度下降训练中，学习率(learning rate)属于?",
      "hint": "它不能从数据中学习，需人工设定或通过调优确定。学习率过大可能导致发散，过小则收敛缓慢。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q31-A",
          "text": "模型参数，由训练数据自动优化",
          "isCorrect": false,
          "rationale": "模型参数，由训练数据自动优化侧重的是另一个机制或层级：与材料中强调的「在线性回归的梯度下降训练中」「学习率」不一致；解析核心是「学习率是优化算法的超参数，控制参数更新的步长。它不能从数据中学习，需人工设定或通过调优确定。学习率过大可能导致发散，过小则收敛缓慢。」，因此更合适的是 B（超参数，需要在训练前设定，且影响收敛速度和稳定性）。"
        },
        {
          "id": "class-05-ml-q31-B",
          "text": "超参数，需要在训练前设定，且影响收敛速度和稳定性",
          "isCorrect": true,
          "rationale": "学习率是优化算法的超参数，控制参数更新的步长。它不能从数据中学习，需人工设定或通过调优确定。学习率过大可能导致发散，过小则收敛缓慢。"
        },
        {
          "id": "class-05-ml-q31-C",
          "text": "损失函数的一部分",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 损失函数的一部分会引入多余假设或跳过关键前提；请以「学习率是优化算法的超参数，控制参数更新的步长。它不能从数据中学习，需人工设定或通过调优确定。学习率过大可能导致发散，过小则收敛缓慢。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q31-D",
          "text": "正则化项",
          "isCorrect": false,
          "rationale": "正则化项更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在线性回归的梯度下降训练中」「学习率」不一致。请以解析「学习率是优化算法的超参数，控制参数更新的步长。它不能从数据中学习，需人工设定或通过调优确定。学习率过大可能导致发散，过小则收敛缓慢。」锁定 B。"
        }
      ],
      "sourceSnippet": "学习率是优化算法的超参数，控制参数更新的步长。它不能从数据中学习，需人工设定或通过调优确定。学习率过大可能导致发散，过小则收敛缓慢。"
    },
    {
      "id": "class-05-ml-q32",
      "number": 32,
      "kind": "single",
      "question": "场景:某公司使用线性SVM对用户评论进行情感分类(正面/负面)。特征维度为5000，样本量为10000。训练完成后，模型在测试集上准确率85%，但发现很多支持向量的权重系数接近零。 以下说法正确的是?",
      "hint": "部分权重接近零表明对应特征对分类贡献小，可能是冗余特征。线性SVM不隐含使用RBF核;权重稀疏不一定欠拟合;增大C会使模型更复杂，但不会使所有权重非零(仍可能稀疏)。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q32-A",
          "text": "该SVM使用的核函数一定是RBF核",
          "isCorrect": false,
          "rationale": "该SVM使用的核函数一定是RBF核侧重的是另一个机制或层级：与材料中强调的「某公司使用线性」「对用户评论进行情感分类」不一致；解析核心是「线性SVM的决策函数为 ，权重 w 是模型参数。部分权重接近零表明对应特征对分类贡献小，可能是冗余特征。线性SVM不隐含使用RBF核;权重稀疏不一定欠拟合;增大C会使模型更复杂，但不会使所有权重非零(仍可能稀疏)。」，因此更合适的是 C（线性SVM的模型参数就是特征权重和偏置，稀疏权重可能暗示特征冗余）。"
        },
        {
          "id": "class-05-ml-q32-B",
          "text": "权重系数接近零说明模型欠拟合",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「某公司使用线性」「对用户评论进行情感分类」不一致；而 C 才覆盖「线性SVM的决策函数为 ，权重 w 是模型参数。部分权重接近零表明对应特征对分类贡献小，可能是冗余特征。线性SVM不隐含使用RBF核;权重稀疏不一定欠拟合;增大C会使模型更复杂，但不会使所有权重非零(仍可能稀疏)。」这层判断。"
        },
        {
          "id": "class-05-ml-q32-C",
          "text": "线性SVM的模型参数就是特征权重和偏置，稀疏权重可能暗示特征冗余",
          "isCorrect": true,
          "rationale": "线性SVM的决策函数为 ，权重 w 是模型参数。部分权重接近零表明对应特征对分类贡献小，可能是冗余特征。线性SVM不隐含使用RBF核;权重稀疏不一定欠拟合;增大C会使模型更复杂，但不会使所有权重非零(仍可能稀疏)。"
        },
        {
          "id": "class-05-ml-q32-D",
          "text": "增加惩罚系数C可以使所有权重非零",
          "isCorrect": false,
          "rationale": "增加惩罚系数C可以使所有权重非零更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某公司使用线性」「对用户评论进行情感分类」不一致。请以解析「线性SVM的决策函数为 ，权重 w 是模型参数。部分权重接近零表明对应特征对分类贡献小，可能是冗余特征。线性SVM不隐含使用RBF核;权重稀疏不一定欠拟合;增大C会使模型更复杂，但不会使所有权重非零(仍可能稀疏)。」锁定 C。"
        }
      ],
      "sourceSnippet": "线性SVM的决策函数为 ，权重 w 是模型参数。部分权重接近零表明对应特征对分类贡献小，可能是冗余特征。线性SVM不隐含使用RBF核;权重稀疏不一定欠拟合;增大C会使模型更复杂，但不会使所有权重非零(仍可能稀疏)。"
    },
    {
      "id": "class-05-ml-q33",
      "number": 33,
      "kind": "single",
      "question": "场景:你正在使用SVM(RBF核)对手写数字(10类)进行分类。通过交叉验证，你发现当 C=1, γ=0.1 时验证集准确率90%，当 C=1000, γ=10 时验证集准确率99%。 选择 C=1000, γ=10 的模型后，在测试集上准确率下降至80%。最可能的原因是?",
      "hint": "应选择更小的C和γ来提升泛化能力。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q33-A",
          "text": "模型欠拟合",
          "isCorrect": false,
          "rationale": "模型欠拟合侧重的是另一个机制或层级：与材料中强调的「你正在使用」「对手写数字」不一致；解析核心是「C和γ都很大时，模型极度复杂，容易记住训练数据(过拟合)，导致验证集上的高准确率不能泛化到测试集。应选择更小的C和γ来提升泛化能力。」，因此更合适的是 B（模型过拟合）。"
        },
        {
          "id": "class-05-ml-q33-B",
          "text": "模型过拟合",
          "isCorrect": true,
          "rationale": "C和γ都很大时，模型极度复杂，容易记住训练数据(过拟合)，导致验证集上的高准确率不能泛化到测试集。应选择更小的C和γ来提升泛化能力。"
        },
        {
          "id": "class-05-ml-q33-C",
          "text": "学习率设置错误",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 学习率设置错误会引入多余假设或跳过关键前提；请以「C和γ都很大时，模型极度复杂，容易记住训练数据(过拟合)，导致验证集上的高准确率不能泛化到测试集。应选择更小的C和γ来提升泛化能力。」为轴对照 B。"
        },
        {
          "id": "class-05-ml-q33-D",
          "text": "核函数选择错误",
          "isCorrect": false,
          "rationale": "核函数选择错误更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「你正在使用」「对手写数字」不一致。请以解析「C和γ都很大时，模型极度复杂，容易记住训练数据(过拟合)，导致验证集上的高准确率不能泛化到测试集。应选择更小的C和γ来提升泛化能力。」锁定 B。"
        }
      ],
      "sourceSnippet": "C和γ都很大时，模型极度复杂，容易记住训练数据(过拟合)，导致验证集上的高准确率不能泛化到测试集。应选择更小的C和γ来提升泛化能力。"
    },
    {
      "id": "class-05-ml-q34",
      "number": 34,
      "kind": "single",
      "question": "场景:你在训练一个线性回归模型，使用批量梯度下降(BGD)。你发现随着迭代次数增加，损失函数值先快速下降，然后开始震荡并缓慢上升。 最可能的原因是?",
      "hint": "应减小学习率。学习率过小只会收敛缓慢，不会震荡;特征未标准化可能导致梯度方向不理想，但通常不会引起震荡上升;收敛时损失应平稳或微降。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q34-A",
          "text": "学习率设置过大",
          "isCorrect": true,
          "rationale": "损失函数震荡且上升是学习率过大的典型表现，参数更新步长太大，跳过了最优值区域。应减小学习率。学习率过小只会收敛缓慢，不会震荡;特征未标准化可能导致梯度方向不理想，但通常不会引起震荡上升;收敛时损失应平稳或微降。"
        },
        {
          "id": "class-05-ml-q34-B",
          "text": "学习率设置过小",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「你在训练一个线性回归模型」「使用批量梯度下降」不一致；而 A 才覆盖「损失函数震荡且上升是学习率过大的典型表现，参数更新步长太大，跳过了最优值区域。应减小学习率。学习率过小只会收敛缓慢，不会震荡;特征未标准化可能导致梯度方向不理想，但通常不会引起震荡上升;收敛时损失应平稳或微降。」这层判断。"
        },
        {
          "id": "class-05-ml-q34-C",
          "text": "特征未标准化导致梯度爆炸",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 特征未标准化导致梯度爆炸会引入多余假设或跳过关键前提；请以「损失函数震荡且上升是学习率过大的典型表现，参数更新步长太大，跳过了最优值区域。应减小学习率。学习率过小只会收敛缓慢，不会震荡;特征未标准化可能导致梯度方向不理想，但通常不会引起震荡上升;收敛时损失应…」为轴对照 A。"
        },
        {
          "id": "class-05-ml-q34-D",
          "text": "模型已经收敛",
          "isCorrect": false,
          "rationale": "模型已经收敛更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「你在训练一个线性回归模型」「使用批量梯度下降」不一致。请以解析「损失函数震荡且上升是学习率过大的典型表现，参数更新步长太大，跳过了最优值区域。应减小学习率。学习率过小只会收敛缓慢，不会震荡;特征未标准化可能导致梯度方向不理想，但通常不会引起震荡上升;收敛时损失应平稳或微降。」锁定 A。"
        }
      ],
      "sourceSnippet": "损失函数震荡且上升是学习率过大的典型表现，参数更新步长太大，跳过了最优值区域。应减小学习率。学习率过小只会收敛缓慢，不会震荡;特征未标准化可能导致梯度方向不理想，但通常不会引起震荡上升;收敛时损失应平稳或微降。"
    },
    {
      "id": "class-05-ml-q35",
      "number": 35,
      "kind": "single",
      "question": "在岭回归(Ridge Regression)中，正则化参数 λ 属于超参数，其作用描述正确的是?",
      "hint": "λ越大，对大系数的惩罚越重，参数值趋向于更小，模型复杂度降低，有助于缓解过拟合。选项A说反了;选项B也反了;选项C描述的是Lasso(L1正则化)。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q35-A",
          "text": "λ 越大，模型参数越不受惩罚，模型越复杂",
          "isCorrect": false,
          "rationale": "λ 越大，模型参数越不受惩罚，模型越复杂侧重的是另一个机制或层级：与材料中强调的「在岭回归」「正则化参数」不一致；解析核心是「岭回归使用L2正则化，损失函数为 MSE + λ∑w²。λ越大，对大系数的惩罚越重，参数值趋向于更小，模型复杂度降低，有助于缓解过拟合。选项A说反了;选项B也反了;选项C描述的是Lasso(L1正则化)。」，因此更合适的是 D（λ 控制L2惩罚的强度，λ越大，参数值越小，模型越平滑）。"
        },
        {
          "id": "class-05-ml-q35-B",
          "text": "λ 越小，模型参数越被压缩向零，模型越简单",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「在岭回归」「正则化参数」不一致；而 D 才覆盖「岭回归使用L2正则化，损失函数为 MSE + λ∑w²。λ越大，对大系数的惩罚越重，参数值趋向于更小，模型复杂度降低，有助于缓解过拟合。选项A说反了;选项B也反了;选项C描述的是Lasso(L1正则化)。」这层判断。"
        },
        {
          "id": "class-05-ml-q35-C",
          "text": "λ 控制L1惩罚的强度，可使部分参数变为零",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 λ 控制L1惩罚的强度，可使部分参数变为零会引入多余假设或跳过关键前提；请以「岭回归使用L2正则化，损失函数为 MSE + λ∑w²。λ越大，对大系数的惩罚越重，参数值趋向于更小，模型复杂度降低，有助于缓解过拟合。选项A说反了;选项B也反了;选项C描述的是Lasso(L1正则…」为轴对照 D。"
        },
        {
          "id": "class-05-ml-q35-D",
          "text": "λ 控制L2惩罚的强度，λ越大，参数值越小，模型越平滑",
          "isCorrect": true,
          "rationale": "岭回归使用L2正则化，损失函数为 MSE + λ∑w²。λ越大，对大系数的惩罚越重，参数值趋向于更小，模型复杂度降低，有助于缓解过拟合。选项A说反了;选项B也反了;选项C描述的是Lasso(L1正则化)。"
        }
      ],
      "sourceSnippet": "岭回归使用L2正则化，损失函数为 MSE + λ∑w²。λ越大，对大系数的惩罚越重，参数值趋向于更小，模型复杂度降低，有助于缓解过拟合。选项A说反了;选项B也反了;选项C描述的是Lasso(L1正则化)。"
    },
    {
      "id": "class-05-ml-q36",
      "number": 36,
      "kind": "single",
      "question": "线性回归模型中，解析解形式为 θ = (XᵀX)⁻¹Xᵀy，其存在的必要条件是?",
      "hint": "当特征之间存在多重共线性或特征数多于样本数时，XᵀX 不可逆。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-05-ml-q36-A",
          "text": "特征数量大于样本数量",
          "isCorrect": false,
          "rationale": "特征数量大于样本数量侧重的是另一个机制或层级：与材料中强调的「线性回归模型中」「解析解形式为」不一致；解析核心是「解析解要求 XᵀX 满秩(可逆)。当特征之间存在多重共线性或特征数多于样本数时，XᵀX 不可逆。」，因此更合适的是 C（XᵀX 可逆）。"
        },
        {
          "id": "class-05-ml-q36-B",
          "text": "样本数量大于特征数量",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「线性回归模型中」「解析解形式为」不一致；而 C 才覆盖「解析解要求 XᵀX 满秩(可逆)。当特征之间存在多重共线性或特征数多于样本数时，XᵀX 不可逆。」这层判断。"
        },
        {
          "id": "class-05-ml-q36-C",
          "text": "XᵀX 可逆",
          "isCorrect": true,
          "rationale": "解析解要求 XᵀX 满秩(可逆)。当特征之间存在多重共线性或特征数多于样本数时，XᵀX 不可逆。"
        },
        {
          "id": "class-05-ml-q36-D",
          "text": "损失函数为绝对值误差",
          "isCorrect": false,
          "rationale": "损失函数为绝对值误差更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「线性回归模型中」「解析解形式为」不一致。请以解析「解析解要求 XᵀX 满秩(可逆)。当特征之间存在多重共线性或特征数多于样本数时，XᵀX 不可逆。」锁定 C。"
        }
      ],
      "sourceSnippet": "解析解要求 XᵀX 满秩(可逆)。当特征之间存在多重共线性或特征数多于样本数时，XᵀX 不可逆。"
    }
  ]
}