{
  "slug": "class-07",
  "title": "第七次课选择题",
  "subtitle": "第7课 · 深度学习基础 · 班级测验整理",
  "sourceFiles": [
    "docs/class_quiz/07.md"
  ],
  "essenceTopicIds": [
    "topic-5"
  ],
  "topics": {
    "covered": [
      "前向传播与张量形状",
      "激活与梯度行为",
      "优化器与正则化"
    ],
    "followUp": [
      "序列模型与注意力（延伸）"
    ]
  },
  "totalQuestions": 35,
  "quiz": [
    {
      "id": "class-07-q1",
      "number": 1,
      "kind": "single",
      "question": "关于激活函数的作用，以下哪项描述最准确?",
      "hint": "若无激活函数，多层神经网络将退化为线性模型。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q1-A",
          "text": "加快模型训练速度",
          "isCorrect": false,
          "rationale": "加快模型训练速度侧重的是另一个机制或层级：与材料中强调的「关于激活函数的作用」「激活函数通过引入非线性变换」不一致；解析核心是「激活函数通过引入非线性变换，使神经网络能够学习和表示复杂模式(如异或问题)。若无激活函数，多层神经网络将退化为线性模型。」，因此更合适的是 B（增加模型的非线性能力）。"
        },
        {
          "id": "class-07-q1-B",
          "text": "增加模型的非线性能力",
          "isCorrect": true,
          "rationale": "激活函数通过引入非线性变换，使神经网络能够学习和表示复杂模式(如异或问题)。若无激活函数，多层神经网络将退化为线性模型。"
        },
        {
          "id": "class-07-q1-C",
          "text": "防止梯度爆炸",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 防止梯度爆炸会引入多余假设或跳过关键前提；请以「激活函数通过引入非线性变换，使神经网络能够学习和表示复杂模式(如异或问题)。若无激活函数，多层神经网络将退化为线性模型。」为轴对照 B。"
        },
        {
          "id": "class-07-q1-D",
          "text": "减少计算量",
          "isCorrect": false,
          "rationale": "减少计算量更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「关于激活函数的作用」「激活函数通过引入非线性变换」不一致。请以解析「激活函数通过引入非线性变换，使神经网络能够学习和表示复杂模式(如异或问题)。若无激活函数，多层神经网络将退化为线性模型。」锁定 B。"
        }
      ],
      "sourceSnippet": "激活函数通过引入非线性变换，使神经网络能够学习和表示复杂模式(如异或问题)。若无激活函数，多层神经网络将退化为线性模型。"
    },
    {
      "id": "class-07-q2",
      "number": 2,
      "kind": "single",
      "question": "梯度下降法中，学习率过大可能导致:",
      "hint": "学习率过大会使参数更新步长过大，导致损失函数在最优解附近震荡甚至发散，无法收敛。",
      "options": [
        {
          "id": "class-07-q2-A",
          "text": "训练速度过慢",
          "isCorrect": false,
          "rationale": "训练速度过慢侧重的是另一个机制或层级：与材料中强调的「梯度下降法中」「学习率过大可能导致」不一致；解析核心是「学习率过大会使参数更新步长过大，导致损失函数在最优解附近震荡甚至发散，无法收敛。」，因此更合适的是 D（损失函数震荡或不收敛）。"
        },
        {
          "id": "class-07-q2-B",
          "text": "陷入局部最优解",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「梯度下降法中」「学习率过大可能导致」不一致；而 D 才覆盖「学习率过大会使参数更新步长过大，导致损失函数在最优解附近震荡甚至发散，无法收敛。」这层判断。"
        },
        {
          "id": "class-07-q2-C",
          "text": "梯度消失",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 梯度消失会引入多余假设或跳过关键前提；请以「学习率过大会使参数更新步长过大，导致损失函数在最优解附近震荡甚至发散，无法收敛。」为轴对照 D。"
        },
        {
          "id": "class-07-q2-D",
          "text": "损失函数震荡或不收敛",
          "isCorrect": true,
          "rationale": "学习率过大会使参数更新步长过大，导致损失函数在最优解附近震荡甚至发散，无法收敛。"
        }
      ],
      "sourceSnippet": "学习率过大会使参数更新步长过大，导致损失函数在最优解附近震荡甚至发散，无法收敛。"
    },
    {
      "id": "class-07-q3",
      "number": 3,
      "kind": "single",
      "question": "全连接层中，某一层有5个输入神经元和3个输出神经元，其权重参数的形状是:",
      "hint": "每个输出神经元需与所有输入神经元相连，因此权重矩阵形状为(3,5)。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q3-A",
          "text": "(5,3)",
          "isCorrect": false,
          "rationale": "(5,3)侧重的是另一个机制或层级：与材料中强调的「全连接层中」「某一层有」不一致；解析核心是「权重矩阵的形状为(输出维度, 输入维度)。每个输出神经元需与所有输入神经元相连，因此权重矩阵形状为(3,5)。」，因此更合适的是 B（(3,5)）。"
        },
        {
          "id": "class-07-q3-B",
          "text": "(3,5)",
          "isCorrect": true,
          "rationale": "权重矩阵的形状为(输出维度, 输入维度)。每个输出神经元需与所有输入神经元相连，因此权重矩阵形状为(3,5)。"
        },
        {
          "id": "class-07-q3-C",
          "text": "(5,1)",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 (5,1)会引入多余假设或跳过关键前提；请以「权重矩阵的形状为(输出维度, 输入维度)。每个输出神经元需与所有输入神经元相连，因此权重矩阵形状为(3,5)。」为轴对照 B。"
        },
        {
          "id": "class-07-q3-D",
          "text": "(3,1)",
          "isCorrect": false,
          "rationale": "(3,1)更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「全连接层中」「某一层有」不一致。请以解析「权重矩阵的形状为(输出维度, 输入维度)。每个输出神经元需与所有输入神经元相连，因此权重矩阵形状为(3,5)。」锁定 B。"
        }
      ],
      "sourceSnippet": "权重矩阵的形状为(输出维度, 输入维度)。每个输出神经元需与所有输入神经元相连，因此权重矩阵形状为(3,5)。"
    },
    {
      "id": "class-07-q4",
      "number": 4,
      "kind": "single",
      "question": "以下哪种激活函数容易出现梯度消失问题?",
      "hint": "Sigmoid函数在输入值较大或较小时梯度接近0，反向传播时梯度会逐层衰减，导致深层网络参数更新缓慢。",
      "options": [
        {
          "id": "class-07-q4-A",
          "text": "ReLU",
          "isCorrect": false,
          "rationale": "ReLU侧重的是另一个机制或层级：与材料中强调的「函数在输入值较大或较小时梯度接近」「反向传播时梯度会逐层衰减」不一致；解析核心是「Sigmoid函数在输入值较大或较小时梯度接近0，反向传播时梯度会逐层衰减，导致深层网络参数更新缓慢。」，因此更合适的是 B（Sigmoid）。"
        },
        {
          "id": "class-07-q4-B",
          "text": "Sigmoid",
          "isCorrect": true,
          "rationale": "Sigmoid函数在输入值较大或较小时梯度接近0，反向传播时梯度会逐层衰减，导致深层网络参数更新缓慢。"
        },
        {
          "id": "class-07-q4-C",
          "text": "Leaky ReLU",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 Leaky ReLU会引入多余假设或跳过关键前提；请以「Sigmoid函数在输入值较大或较小时梯度接近0，反向传播时梯度会逐层衰减，导致深层网络参数更新缓慢。」为轴对照 B。"
        },
        {
          "id": "class-07-q4-D",
          "text": "Tanh",
          "isCorrect": false,
          "rationale": "Tanh更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「函数在输入值较大或较小时梯度接近」「反向传播时梯度会逐层衰减」不一致。请以解析「Sigmoid函数在输入值较大或较小时梯度接近0，反向传播时梯度会逐层衰减，导致深层网络参数更新缓慢。」锁定 B。"
        }
      ],
      "sourceSnippet": "Sigmoid函数在输入值较大或较小时梯度接近0，反向传播时梯度会逐层衰减，导致深层网络参数更新缓慢。"
    },
    {
      "id": "class-07-q5",
      "number": 5,
      "kind": "single",
      "question": "随机梯度下降(SGD)与批量梯度下降的主要区别是:",
      "hint": "SGD每次随机选择一个样本计算梯度并更新参数，而批量梯度下降使用全部数据计算平均梯度。",
      "options": [
        {
          "id": "class-07-q5-A",
          "text": "使用激活函数不同",
          "isCorrect": false,
          "rationale": "使用激活函数不同侧重的是另一个机制或层级：与材料中强调的「随机梯度下降」「与批量梯度下降的主要区别是」不一致；解析核心是「SGD每次随机选择一个样本计算梯度并更新参数，而批量梯度下降使用全部数据计算平均梯度。」，因此更合适的是 B（每次迭代使用一个样本更新参数）。"
        },
        {
          "id": "class-07-q5-B",
          "text": "每次迭代使用一个样本更新参数",
          "isCorrect": true,
          "rationale": "SGD每次随机选择一个样本计算梯度并更新参数，而批量梯度下降使用全部数据计算平均梯度。"
        },
        {
          "id": "class-07-q5-C",
          "text": "计算所有样本的平均梯度",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 计算所有样本的平均梯度会引入多余假设或跳过关键前提；请以「SGD每次随机选择一个样本计算梯度并更新参数，而批量梯度下降使用全部数据计算平均梯度。」为轴对照 B。"
        },
        {
          "id": "class-07-q5-D",
          "text": "无需计算梯度",
          "isCorrect": false,
          "rationale": "无需计算梯度更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「随机梯度下降」「与批量梯度下降的主要区别是」不一致。请以解析「SGD每次随机选择一个样本计算梯度并更新参数，而批量梯度下降使用全部数据计算平均梯度。」锁定 B。"
        }
      ],
      "sourceSnippet": "SGD每次随机选择一个样本计算梯度并更新参数，而批量梯度下降使用全部数据计算平均梯度。"
    },
    {
      "id": "class-07-q6",
      "number": 6,
      "kind": "single",
      "question": "全连接层的前向传播公式是:",
      "hint": "前向传播包括线性变换()和激活函数()两步，其中为权重，为偏置。",
      "options": [
        {
          "id": "class-07-q6-A",
          "text": "先计算线性部分 \\(z = Wx + b\\)，再对 \\(z\\) 施加激活 \\(\\sigma\\)（即 \\(a=\\sigma(z)\\)）；这是全连接层单步常用的前向写法。",
          "isCorrect": true,
          "rationale": "前向传播包括线性变换()和激活函数()两步，其中为权重，为偏置。 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。"
        },
        {
          "id": "class-07-q6-B",
          "text": "仅用 \\(\\sigma(x)\\) 而缺少显式的仿射变换 \\(Wx+b\\)，不能完整表达「线性变换→激活」的两阶段。",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「全连接层的前向传播公式是」「前向传播包括线性变换」不一致；而 A 才覆盖「前向传播包括线性变换()和激活函数()两步，其中为权重，为偏置。」这层判断。"
        },
        {
          "id": "class-07-q6-C",
          "text": "写成 \\(y = Wx\\) 且完全不使用激活时，多层网络会退化为线性模型，无法满足非线性建模需求。",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 写成 \\(y = Wx\\) 且完全不使用激活时，多层网络会退化为线性模型，无法满足非线性建模需求。会引入多余假设或跳过关键前提；请以「前向传播包括线性变换()和激活函数()两步，其中为权重，为偏置。」为轴对照 A。"
        },
        {
          "id": "class-07-q6-D",
          "text": "把池化/卷积当作全连接前向公式的全部，概念层级错位；题干问的是全连接层的前向计算链。",
          "isCorrect": false,
          "rationale": "把池化/卷积当作全连接前向公式的全部，概念层级错位；题干问的是全连接层的前向计算链。更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「全连接层的前向传播公式是」「前向传播包括线性变换」不一致。请以解析「前向传播包括线性变换()和激活函数()两步，其中为权重，为偏置。」锁定 A。"
        }
      ],
      "sourceSnippet": "前向传播包括线性变换()和激活函数()两步，其中为权重，为偏置。"
    },
    {
      "id": "class-07-q7",
      "number": 7,
      "kind": "single",
      "question": "ReLU激活函数的公式是:",
      "hint": "ReLU函数在输入大于0时输出原值，小于0时输出0，简单且能缓解梯度消失。",
      "options": [
        {
          "id": "class-07-q7-A",
          "text": "\\(f(x)=\\sigma(x)=\\frac{1}{1+e^{-x}}\\)（Sigmoid），输出在 \\((0,1)\\)。",
          "isCorrect": false,
          "rationale": "\\(f(x)=\\sigma(x)=\\frac{1}{1+e^{-x}}\\)（Sigmoid），输出在 \\((0…侧重的是另一个机制或层级：与材料中强调的「激活函数的公式是」「函数在输入大于」不一致；解析核心是「ReLU函数在输入大于0时输出原值，小于0时输出0，简单且能缓解梯度消失。」，因此更合适的是 B（\\(f(x)=\\max(0,x)\\)（ReLU）：负半轴为 0、正半轴恒等，计…）。"
        },
        {
          "id": "class-07-q7-B",
          "text": "\\(f(x)=\\max(0,x)\\)（ReLU）：负半轴为 0、正半轴恒等，计算简单且可缓解部分梯度消失。",
          "isCorrect": true,
          "rationale": "ReLU函数在输入大于0时输出原值，小于0时输出0，简单且能缓解梯度消失。"
        },
        {
          "id": "class-07-q7-C",
          "text": "\\(f(x)=\\tanh(x)\\)，输出在 \\((-1,1)\\)。",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 \\(f(x)=\\tanh(x)\\)，输出在 \\((-1,1)\\)。会引入多余假设或跳过关键前提；请以「ReLU函数在输入大于0时输出原值，小于0时输出0，简单且能缓解梯度消失。」为轴对照 B。"
        },
        {
          "id": "class-07-q7-D",
          "text": "\\(f(x)=|x|\\) 或类似非标准表达，并非课程中 ReLU 的标准定义。",
          "isCorrect": false,
          "rationale": "\\(f(x)=|x|\\) 或类似非标准表达，并非课程中 ReLU 的标准定义。更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「激活函数的公式是」「函数在输入大于」不一致。请以解析「ReLU函数在输入大于0时输出原值，小于0时输出0，简单且能缓解梯度消失。」锁定 B。"
        }
      ],
      "sourceSnippet": "ReLU函数在输入大于0时输出原值，小于0时输出0，简单且能缓解梯度消失。"
    },
    {
      "id": "class-07-q8",
      "number": 8,
      "kind": "single",
      "question": "梯度下降中“梯度”指的是:",
      "hint": "梯度是损失函数对每个参数的偏导数向量，指示参数更新方向以使损失最快下降。",
      "options": [
        {
          "id": "class-07-q8-A",
          "text": "损失函数对模型参数的偏导数",
          "isCorrect": true,
          "rationale": "梯度是损失函数对每个参数的偏导数向量，指示参数更新方向以使损失最快下降。"
        },
        {
          "id": "class-07-q8-B",
          "text": "输入数据的方差",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「梯度下降中」「指的是」不一致；而 A 才覆盖「梯度是损失函数对每个参数的偏导数向量，指示参数更新方向以使损失最快下降。」这层判断。"
        },
        {
          "id": "class-07-q8-C",
          "text": "激活函数的输出",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 激活函数的输出会引入多余假设或跳过关键前提；请以「梯度是损失函数对每个参数的偏导数向量，指示参数更新方向以使损失最快下降。」为轴对照 A。"
        },
        {
          "id": "class-07-q8-D",
          "text": "权重矩阵的迹",
          "isCorrect": false,
          "rationale": "权重矩阵的迹更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「梯度下降中」「指的是」不一致。请以解析「梯度是损失函数对每个参数的偏导数向量，指示参数更新方向以使损失最快下降。」锁定 A。"
        }
      ],
      "sourceSnippet": "梯度是损失函数对每个参数的偏导数向量，指示参数更新方向以使损失最快下降。"
    },
    {
      "id": "class-07-q9",
      "number": 9,
      "kind": "single",
      "question": "全连接层中，偏置(bias)的作用是:",
      "hint": "例如在中，改变神经元的激活阈值。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q9-A",
          "text": "增加模型复杂度",
          "isCorrect": false,
          "rationale": "增加模型复杂度侧重的是另一个机制或层级：与材料中强调的「全连接层中」「的作用是」不一致；解析核心是「偏置允许激活函数曲线平移，增强模型拟合能力。例如在中，改变神经元的激活阈值。」，因此更合适的是 B（调整激活函数的阈值）。"
        },
        {
          "id": "class-07-q9-B",
          "text": "调整激活函数的阈值",
          "isCorrect": true,
          "rationale": "偏置允许激活函数曲线平移，增强模型拟合能力。例如在中，改变神经元的激活阈值。"
        },
        {
          "id": "class-07-q9-C",
          "text": "加速计算",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 加速计算会引入多余假设或跳过关键前提；请以「偏置允许激活函数曲线平移，增强模型拟合能力。例如在中，改变神经元的激活阈值。」为轴对照 B。"
        },
        {
          "id": "class-07-q9-D",
          "text": "减少参数数量",
          "isCorrect": false,
          "rationale": "减少参数数量更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「全连接层中」「的作用是」不一致。请以解析「偏置允许激活函数曲线平移，增强模型拟合能力。例如在中，改变神经元的激活阈值。」锁定 B。"
        }
      ],
      "sourceSnippet": "偏置允许激活函数曲线平移，增强模型拟合能力。例如在中，改变神经元的激活阈值。"
    },
    {
      "id": "class-07-q10",
      "number": 10,
      "kind": "single",
      "question": "以下哪项不是梯度下降的变体?",
      "hint": "ReLU是激活函数，而动量法、Adam、RMSProp均为梯度下降的优化算法，用于调整学习率或更新方向。",
      "options": [
        {
          "id": "class-07-q10-A",
          "text": "动量法(Momentum)",
          "isCorrect": false,
          "rationale": "动量法(Momentum)侧重的是另一个机制或层级：与材料中强调的「是激活函数」「而动量法」不一致；解析核心是「ReLU是激活函数，而动量法、Adam、RMSProp均为梯度下降的优化算法，用于调整学习率或更新方向。」，因此更合适的是 C（ReLU）。"
        },
        {
          "id": "class-07-q10-B",
          "text": "Adam",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「是激活函数」「而动量法」不一致；而 C 才覆盖「ReLU是激活函数，而动量法、Adam、RMSProp均为梯度下降的优化算法，用于调整学习率或更新方向。」这层判断。"
        },
        {
          "id": "class-07-q10-C",
          "text": "ReLU",
          "isCorrect": true,
          "rationale": "ReLU是激活函数，而动量法、Adam、RMSProp均为梯度下降的优化算法，用于调整学习率或更新方向。"
        },
        {
          "id": "class-07-q10-D",
          "text": "RMSProp",
          "isCorrect": false,
          "rationale": "RMSProp更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「是激活函数」「而动量法」不一致。请以解析「ReLU是激活函数，而动量法、Adam、RMSProp均为梯度下降的优化算法，用于调整学习率或更新方向。」锁定 C。"
        }
      ],
      "sourceSnippet": "ReLU是激活函数，而动量法、Adam、RMSProp均为梯度下降的优化算法，用于调整学习率或更新方向。"
    },
    {
      "id": "class-07-q11",
      "number": 11,
      "kind": "single",
      "question": "使用交叉熵损失函数时，通常配合哪种输出层激活函数?",
      "hint": "Sigmoid用于二分类，Softmax用于多分类，两者能将输出映射为概率分布，与交叉熵损失结合时梯度计算更高效。",
      "options": [
        {
          "id": "class-07-q11-A",
          "text": "ReLU",
          "isCorrect": false,
          "rationale": "ReLU侧重的是另一个机制或层级：与材料中强调的「使用交叉熵损失函数时」「通常配合哪种输出层激活函数」不一致；解析核心是「Sigmoid用于二分类，Softmax用于多分类，两者能将输出映射为概率分布，与交叉熵损失结合时梯度计算更高效。」，因此更合适的是 B（Sigmoid或Softmax）。"
        },
        {
          "id": "class-07-q11-B",
          "text": "Sigmoid或Softmax",
          "isCorrect": true,
          "rationale": "Sigmoid用于二分类，Softmax用于多分类，两者能将输出映射为概率分布，与交叉熵损失结合时梯度计算更高效。"
        },
        {
          "id": "class-07-q11-C",
          "text": "Tanh",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 Tanh会引入多余假设或跳过关键前提；请以「Sigmoid用于二分类，Softmax用于多分类，两者能将输出映射为概率分布，与交叉熵损失结合时梯度计算更高效。」为轴对照 B。"
        },
        {
          "id": "class-07-q11-D",
          "text": "Leaky ReLU",
          "isCorrect": false,
          "rationale": "Leaky ReLU更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「使用交叉熵损失函数时」「通常配合哪种输出层激活函数」不一致。请以解析「Sigmoid用于二分类，Softmax用于多分类，两者能将输出映射为概率分布，与交叉熵损失结合时梯度计算更高效。」锁定 B。"
        }
      ],
      "sourceSnippet": "Sigmoid用于二分类，Softmax用于多分类，两者能将输出映射为概率分布，与交叉熵损失结合时梯度计算更高效。"
    },
    {
      "id": "class-07-q12",
      "number": 12,
      "kind": "single",
      "question": "全连接层在图像处理中的主要缺点是:",
      "hint": "全连接层的参数量取决于输入和输出维度，对于高维数据(如图像展平后的向量)，易产生巨大参数量，导致过拟合和计算负担。",
      "options": [
        {
          "id": "class-07-q12-A",
          "text": "无法处理非线性问题",
          "isCorrect": false,
          "rationale": "无法处理非线性问题侧重的是另一个机制或层级：与材料中强调的「全连接层在图像处理中的主要缺点是」「全连接层的参数量取决于输入和输出维度」不一致；解析核心是「全连接层的参数量取决于输入和输出维度，对于高维数据(如图像展平后的向量)，易产生巨大参数量，导致过拟合和计算负担。」，因此更合适的是 B（参数量过大导致计算成本高）。"
        },
        {
          "id": "class-07-q12-B",
          "text": "参数量过大导致计算成本高",
          "isCorrect": true,
          "rationale": "全连接层的参数量取决于输入和输出维度，对于高维数据(如图像展平后的向量)，易产生巨大参数量，导致过拟合和计算负担。"
        },
        {
          "id": "class-07-q12-C",
          "text": "不能使用梯度下降",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 不能使用梯度下降会引入多余假设或跳过关键前提；请以「全连接层的参数量取决于输入和输出维度，对于高维数据(如图像展平后的向量)，易产生巨大参数量，导致过拟合和计算负担。」为轴对照 B。"
        },
        {
          "id": "class-07-q12-D",
          "text": "必须与卷积层共用",
          "isCorrect": false,
          "rationale": "必须与卷积层共用更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「全连接层在图像处理中的主要缺点是」「全连接层的参数量取决于输入和输出维度」不一致。请以解析「全连接层的参数量取决于输入和输出维度，对于高维数据(如图像展平后的向量)，易产生巨大参数量，导致过拟合和计算负担。」锁定 B。"
        }
      ],
      "sourceSnippet": "全连接层的参数量取决于输入和输出维度，对于高维数据(如图像展平后的向量)，易产生巨大参数量，导致过拟合和计算负担。"
    },
    {
      "id": "class-07-q13",
      "number": 13,
      "kind": "single",
      "question": "梯度下降中“批量大小”指:",
      "hint": "批量大小决定每次参数更新时使用的样本数量，影响梯度估计的准确性和训练速度。",
      "options": [
        {
          "id": "class-07-q13-A",
          "text": "模型参数总数",
          "isCorrect": false,
          "rationale": "模型参数总数侧重的是另一个机制或层级：与材料中强调的「梯度下降中」「批量大小」不一致；解析核心是「批量大小决定每次参数更新时使用的样本数量，影响梯度估计的准确性和训练速度。」，因此更合适的是 B（一次迭代使用的样本数）。"
        },
        {
          "id": "class-07-q13-B",
          "text": "一次迭代使用的样本数",
          "isCorrect": true,
          "rationale": "批量大小决定每次参数更新时使用的样本数量，影响梯度估计的准确性和训练速度。"
        },
        {
          "id": "class-07-q13-C",
          "text": "学习率衰减步长",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 学习率衰减步长会引入多余假设或跳过关键前提；请以「批量大小决定每次参数更新时使用的样本数量，影响梯度估计的准确性和训练速度。」为轴对照 B。"
        },
        {
          "id": "class-07-q13-D",
          "text": "隐藏层数量",
          "isCorrect": false,
          "rationale": "隐藏层数量更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「梯度下降中」「批量大小」不一致。请以解析「批量大小决定每次参数更新时使用的样本数量，影响梯度估计的准确性和训练速度。」锁定 B。"
        }
      ],
      "sourceSnippet": "批量大小决定每次参数更新时使用的样本数量，影响梯度估计的准确性和训练速度。"
    },
    {
      "id": "class-07-q14",
      "number": 14,
      "kind": "single",
      "question": "激活函数Tanh的输出范围是:",
      "hint": "Tanh函数将输入压缩到(-1,1)之间，输出均值为0，有助于中心化数据，但同样存在梯度消失问题。",
      "options": [
        {
          "id": "class-07-q14-A",
          "text": "(0,1)",
          "isCorrect": false,
          "rationale": "(0,1)侧重的是另一个机制或层级：与材料中强调的「激活函数」「的输出范围是」不一致；解析核心是「Tanh函数将输入压缩到(-1,1)之间，输出均值为0，有助于中心化数据，但同样存在梯度消失问题。」，因此更合适的是 B（(-1,1)）。"
        },
        {
          "id": "class-07-q14-B",
          "text": "(-1,1)",
          "isCorrect": true,
          "rationale": "Tanh函数将输入压缩到(-1,1)之间，输出均值为0，有助于中心化数据，但同样存在梯度消失问题。"
        },
        {
          "id": "class-07-q14-C",
          "text": "[0,∞)",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 [0,∞)会引入多余假设或跳过关键前提；请以「Tanh函数将输入压缩到(-1,1)之间，输出均值为0，有助于中心化数据，但同样存在梯度消失问题。」为轴对照 B。"
        },
        {
          "id": "class-07-q14-D",
          "text": "(-∞,∞)",
          "isCorrect": false,
          "rationale": "(-∞,∞)更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「激活函数」「的输出范围是」不一致。请以解析「Tanh函数将输入压缩到(-1,1)之间，输出均值为0，有助于中心化数据，但同样存在梯度消失问题。」锁定 B。"
        }
      ],
      "sourceSnippet": "Tanh函数将输入压缩到(-1,1)之间，输出均值为0，有助于中心化数据，但同样存在梯度消失问题。"
    },
    {
      "id": "class-07-q15",
      "number": 15,
      "kind": "single",
      "question": "反向传播的核心目的是:",
      "hint": "反向传播通过链式法则从输出层到输入层逐层计算梯度，为参数更新提供依据。",
      "options": [
        {
          "id": "class-07-q15-A",
          "text": "提高模型准确率",
          "isCorrect": false,
          "rationale": "提高模型准确率侧重的是另一个机制或层级：与材料中强调的「反向传播的核心目的是」「反向传播通过链式法则从输出层到输入层逐层计算梯度」不一致；解析核心是「反向传播通过链式法则从输出层到输入层逐层计算梯度，为参数更新提供依据。」，因此更合适的是 B（计算损失函数对参数的梯度）。"
        },
        {
          "id": "class-07-q15-B",
          "text": "计算损失函数对参数的梯度",
          "isCorrect": true,
          "rationale": "反向传播通过链式法则从输出层到输入层逐层计算梯度，为参数更新提供依据。 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。"
        },
        {
          "id": "class-07-q15-C",
          "text": "初始化权重",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 初始化权重会引入多余假设或跳过关键前提；请以「反向传播通过链式法则从输出层到输入层逐层计算梯度，为参数更新提供依据。」为轴对照 B。"
        },
        {
          "id": "class-07-q15-D",
          "text": "选择优化器",
          "isCorrect": false,
          "rationale": "选择优化器更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「反向传播的核心目的是」「反向传播通过链式法则从输出层到输入层逐层计算梯度」不一致。请以解析「反向传播通过链式法则从输出层到输入层逐层计算梯度，为参数更新提供依据。」锁定 B。"
        }
      ],
      "sourceSnippet": "反向传播通过链式法则从输出层到输入层逐层计算梯度，为参数更新提供依据。"
    },
    {
      "id": "class-07-q16",
      "number": 16,
      "kind": "single",
      "question": "在深度学习中，下列哪种激活函数通常用于多分类问题的输出层?",
      "hint": "Sigmoid 常用于二分类输出层或门控机制。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q16-A",
          "text": "ReLU",
          "isCorrect": false,
          "rationale": "ReLU侧重的是另一个机制或层级：与材料中强调的「在深度学习中」「下列哪种激活函数通常用于多分类问题的输出层」不一致；解析核心是「Softmax 函数将输出转换为概率分布(所有输出之和为 1，每个值在 0~1 之间)，适用于多分类任务。Sigmoid 常用于二分类输出层或门控机制。」，因此更合适的是 D（Softmax）。"
        },
        {
          "id": "class-07-q16-B",
          "text": "Sigmoid",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「在深度学习中」「下列哪种激活函数通常用于多分类问题的输出层」不一致；而 D 才覆盖「Softmax 函数将输出转换为概率分布(所有输出之和为 1，每个值在 0~1 之间)，适用于多分类任务。Sigmoid 常用于二分类输出层或门控机制。」这层判断。"
        },
        {
          "id": "class-07-q16-C",
          "text": "Tanh",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 Tanh会引入多余假设或跳过关键前提；请以「Softmax 函数将输出转换为概率分布(所有输出之和为 1，每个值在 0~1 之间)，适用于多分类任务。Sigmoid 常用于二分类输出层或门控机制。」为轴对照 D。"
        },
        {
          "id": "class-07-q16-D",
          "text": "Softmax",
          "isCorrect": true,
          "rationale": "Softmax 函数将输出转换为概率分布(所有输出之和为 1，每个值在 0~1 之间)，适用于多分类任务。Sigmoid 常用于二分类输出层或门控机制。"
        }
      ],
      "sourceSnippet": "Softmax 函数将输出转换为概率分布(所有输出之和为 1，每个值在 0~1 之间)，适用于多分类任务。Sigmoid 常用于二分类输出层或门控机制。"
    },
    {
      "id": "class-07-q17",
      "number": 17,
      "kind": "single",
      "question": "当训练深度神经网络时，如果训练集误差很低但验证集误差很高，最可能的原因是?",
      "hint": "过拟合指模型过度学习了训练集中的噪声和细节，导致泛化能力下降，表现为训练误差低而验证误差高。",
      "options": [
        {
          "id": "class-07-q17-A",
          "text": "梯度消失",
          "isCorrect": false,
          "rationale": "梯度消失侧重的是另一个机制或层级：与材料中强调的「当训练深度神经网络时」「如果训练集误差很低但验证集误差很高」不一致；解析核心是「过拟合指模型过度学习了训练集中的噪声和细节，导致泛化能力下降，表现为训练误差低而验证误差高。」，因此更合适的是 C（模型过拟合）。"
        },
        {
          "id": "class-07-q17-B",
          "text": "模型欠拟合",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「当训练深度神经网络时」「如果训练集误差很低但验证集误差很高」不一致；而 C 才覆盖「过拟合指模型过度学习了训练集中的噪声和细节，导致泛化能力下降，表现为训练误差低而验证误差高。」这层判断。"
        },
        {
          "id": "class-07-q17-C",
          "text": "模型过拟合",
          "isCorrect": true,
          "rationale": "过拟合指模型过度学习了训练集中的噪声和细节，导致泛化能力下降，表现为训练误差低而验证误差高。"
        },
        {
          "id": "class-07-q17-D",
          "text": "学习率过小",
          "isCorrect": false,
          "rationale": "学习率过小更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「当训练深度神经网络时」「如果训练集误差很低但验证集误差很高」不一致。请以解析「过拟合指模型过度学习了训练集中的噪声和细节，导致泛化能力下降，表现为训练误差低而验证误差高。」锁定 C。"
        }
      ],
      "sourceSnippet": "过拟合指模型过度学习了训练集中的噪声和细节，导致泛化能力下降，表现为训练误差低而验证误差高。"
    },
    {
      "id": "class-07-q18",
      "number": 18,
      "kind": "single",
      "question": "深度神经网络通常需要正则化的最主要原因是?",
      "hint": "加速收敛和减少训练时间不是正则化的主要目的，梯度消失由激活函数和网络深度引起。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q18-A",
          "text": "加速模型收敛",
          "isCorrect": false,
          "rationale": "加速模型收敛侧重的是另一个机制或层级：与材料中强调的「深度神经网络通常需要正则化的最主要原因是」「深度神经网络参数量大」不一致；解析核心是「深度神经网络参数量大，容易过拟合训练数据中的噪声，正则化通过约束模型复杂度来提升泛化能力。加速收敛和减少训练时间不是正则化的主要目的，梯度消失由激活函数和网络深度引起。」，因此更合适的是 B（防止模型过拟合，提高泛化能力）。"
        },
        {
          "id": "class-07-q18-B",
          "text": "防止模型过拟合，提高泛化能力",
          "isCorrect": true,
          "rationale": "深度神经网络参数量大，容易过拟合训练数据中的噪声，正则化通过约束模型复杂度来提升泛化能力。加速收敛和减少训练时间不是正则化的主要目的，梯度消失由激活函数和网络深度引起。"
        },
        {
          "id": "class-07-q18-C",
          "text": "减少训练时间",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 减少训练时间会引入多余假设或跳过关键前提；请以「深度神经网络参数量大，容易过拟合训练数据中的噪声，正则化通过约束模型复杂度来提升泛化能力。加速收敛和减少训练时间不是正则化的主要目的，梯度消失由激活函数和网络深度引起。」为轴对照 B。"
        },
        {
          "id": "class-07-q18-D",
          "text": "避免梯度消失",
          "isCorrect": false,
          "rationale": "避免梯度消失更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「深度神经网络通常需要正则化的最主要原因是」「深度神经网络参数量大」不一致。请以解析「深度神经网络参数量大，容易过拟合训练数据中的噪声，正则化通过约束模型复杂度来提升泛化能力。加速收敛和减少训练时间不是正则化的主要目的，梯度消失由激活函数和网络深度引起。」锁定 B。"
        }
      ],
      "sourceSnippet": "深度神经网络参数量大，容易过拟合训练数据中的噪声，正则化通过约束模型复杂度来提升泛化能力。加速收敛和减少训练时间不是正则化的主要目的，梯度消失由激活函数和网络深度引起。"
    },
    {
      "id": "class-07-q19",
      "number": 19,
      "kind": "single",
      "question": "关于感知机模型的描述，以下哪个是正确的?",
      "hint": "对于线性不可分数据，感知机算法不收敛，也无法解决异或问题。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q19-A",
          "text": "感知机可以解决异或问题",
          "isCorrect": false,
          "rationale": "感知机可以解决异或问题侧重的是另一个机制或层级：与材料中强调的「关于感知机模型的描述」「感知机是线性分类模型」不一致；解析核心是「感知机是线性分类模型，使用阶跃激活函数，只能处理线性可分数据。对于线性不可分数据，感知机算法不收敛，也无法解决异或问题。」，因此更合适的是 B（感知机是一种线性分类器，只能处理线性可分数据）。"
        },
        {
          "id": "class-07-q19-B",
          "text": "感知机是一种线性分类器，只能处理线性可分数据",
          "isCorrect": true,
          "rationale": "感知机是线性分类模型，使用阶跃激活函数，只能处理线性可分数据。对于线性不可分数据，感知机算法不收敛，也无法解决异或问题。"
        },
        {
          "id": "class-07-q19-C",
          "text": "感知机的激活函数必须是 Sigmoid 函数",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 感知机的激活函数必须是 Sigmoid 函数会引入多余假设或跳过关键前提；请以「感知机是线性分类模型，使用阶跃激活函数，只能处理线性可分数据。对于线性不可分数据，感知机算法不收敛，也无法解决异或问题。」为轴对照 B。"
        },
        {
          "id": "class-07-q19-D",
          "text": "感知机学习算法总是能收敛，无论数据是否线性可分",
          "isCorrect": false,
          "rationale": "感知机学习算法总是能收敛，无论数据是否线性可分更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「关于感知机模型的描述」「感知机是线性分类模型」不一致。请以解析「感知机是线性分类模型，使用阶跃激活函数，只能处理线性可分数据。对于线性不可分数据，感知机算法不收敛，也无法解决异或问题。」锁定 B。"
        }
      ],
      "sourceSnippet": "感知机是线性分类模型，使用阶跃激活函数，只能处理线性可分数据。对于线性不可分数据，感知机算法不收敛，也无法解决异或问题。"
    },
    {
      "id": "class-07-q20",
      "number": 20,
      "kind": "single",
      "question": "在深度神经网络中，通常使用 ReLU 作为隐藏层激活函数，其主要原因是?",
      "hint": "Sigmoid 等函数存在饱和区，易导致梯度消失。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q20-A",
          "text": "输出范围在 (0,1)，适合概率输出",
          "isCorrect": false,
          "rationale": "输出范围在 (0,1)，适合概率输出侧重的是另一个机制或层级：与材料中强调的「在深度神经网络中」「通常使用」不一致；解析核心是「ReLU 在正区间导数恒为 1，避免了梯度消失问题，同时计算简单。Sigmoid 等函数存在饱和区，易导致梯度消失。」，因此更合适的是 B（导数计算简单且能缓解梯度消失问题）。"
        },
        {
          "id": "class-07-q20-B",
          "text": "导数计算简单且能缓解梯度消失问题",
          "isCorrect": true,
          "rationale": "ReLU 在正区间导数恒为 1，避免了梯度消失问题，同时计算简单。Sigmoid 等函数存在饱和区，易导致梯度消失。"
        },
        {
          "id": "class-07-q20-C",
          "text": "具有软饱和特性，使训练稳定",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 具有软饱和特性，使训练稳定会引入多余假设或跳过关键前提；请以「ReLU 在正区间导数恒为 1，避免了梯度消失问题，同时计算简单。Sigmoid 等函数存在饱和区，易导致梯度消失。」为轴对照 B。"
        },
        {
          "id": "class-07-q20-D",
          "text": "强制输出均值为 0，加速收敛",
          "isCorrect": false,
          "rationale": "强制输出均值为 0，加速收敛更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在深度神经网络中」「通常使用」不一致。请以解析「ReLU 在正区间导数恒为 1，避免了梯度消失问题，同时计算简单。Sigmoid 等函数存在饱和区，易导致梯度消失。」锁定 B。"
        }
      ],
      "sourceSnippet": "ReLU 在正区间导数恒为 1，避免了梯度消失问题，同时计算简单。Sigmoid 等函数存在饱和区，易导致梯度消失。"
    },
    {
      "id": "class-07-q21",
      "number": 21,
      "kind": "single",
      "question": "当训练一个深度神经网络时，发现损失函数在训练集上不断下降，但在验证集上逐渐上升，这种现象称为?",
      "hint": "训练误差下降而验证误差上升是过拟合的典型标志，表明模型过度学习了训练集中的噪声。",
      "options": [
        {
          "id": "class-07-q21-A",
          "text": "梯度消失",
          "isCorrect": false,
          "rationale": "梯度消失侧重的是另一个机制或层级：与材料中强调的「当训练一个深度神经网络时」「发现损失函数在训练集上不断下降」不一致；解析核心是「训练误差下降而验证误差上升是过拟合的典型标志，表明模型过度学习了训练集中的噪声。」，因此更合适的是 B（过拟合）。"
        },
        {
          "id": "class-07-q21-B",
          "text": "过拟合",
          "isCorrect": true,
          "rationale": "训练误差下降而验证误差上升是过拟合的典型标志，表明模型过度学习了训练集中的噪声。"
        },
        {
          "id": "class-07-q21-C",
          "text": "欠拟合",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 欠拟合会引入多余假设或跳过关键前提；请以「训练误差下降而验证误差上升是过拟合的典型标志，表明模型过度学习了训练集中的噪声。」为轴对照 B。"
        },
        {
          "id": "class-07-q21-D",
          "text": "局部最优",
          "isCorrect": false,
          "rationale": "局部最优更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「当训练一个深度神经网络时」「发现损失函数在训练集上不断下降」不一致。请以解析「训练误差下降而验证误差上升是过拟合的典型标志，表明模型过度学习了训练集中的噪声。」锁定 B。"
        }
      ],
      "sourceSnippet": "训练误差下降而验证误差上升是过拟合的典型标志，表明模型过度学习了训练集中的噪声。"
    },
    {
      "id": "class-07-q22",
      "number": 22,
      "kind": "single",
      "question": "感知机权重更新规则中，当实际输出与期望输出不一致时，权重的更新量为? (η是学习率)",
      "hint": "感知机规则为 ，其中 为真实标签， 为预测输出。",
      "options": [
        {
          "id": "class-07-q22-A",
          "text": "η * (期望输出 - 实际输出) * 输入特征向量",
          "isCorrect": true,
          "rationale": "感知机规则为 ，其中 为真实标签， 为预测输出。 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。"
        },
        {
          "id": "class-07-q22-B",
          "text": "η * (实际输出 - 期望输出) * 输入特征向量",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「感知机权重更新规则中」「当实际输出与期望输出不一致时」不一致；而 A 才覆盖「感知机规则为 ，其中 为真实标签， 为预测输出。」这层判断。"
        },
        {
          "id": "class-07-q22-C",
          "text": "η * (期望输出 - 实际输出)",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 η * (期望输出 - 实际输出)会引入多余假设或跳过关键前提；请以「感知机规则为 ，其中 为真实标签， 为预测输出。」为轴对照 A。"
        },
        {
          "id": "class-07-q22-D",
          "text": "η * (实际输出 - 期望输出)",
          "isCorrect": false,
          "rationale": "η * (实际输出 - 期望输出)更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「感知机权重更新规则中」「当实际输出与期望输出不一致时」不一致。请以解析「感知机规则为 ，其中 为真实标签， 为预测输出。」锁定 A。"
        }
      ],
      "sourceSnippet": "感知机规则为 ，其中 为真实标签， 为预测输出。"
    },
    {
      "id": "class-07-q23",
      "number": 23,
      "kind": "single",
      "question": "对于图像分类任务，通常采用深度卷积神经网络而不是浅层全连接网络，最主要的原因是?",
      "hint": "CNN 通过局部连接和权值共享大幅减少参数，并能提取层次化特征，更适合图像数据。",
      "options": [
        {
          "id": "class-07-q23-A",
          "text": "深度全连接网络不能使用反向传播",
          "isCorrect": false,
          "rationale": "深度全连接网络不能使用反向传播侧重的是另一个机制或层级：与材料中强调的「对于图像分类任务」「通常采用深度卷积神经网络而不是浅层全连接网络」不一致；解析核心是「CNN 通过局部连接和权值共享大幅减少参数，并能提取层次化特征，更适合图像数据。」，因此更合适的是 B（卷积神经网络具有平移等变性和参数共享，适合处理网格结构数据）。"
        },
        {
          "id": "class-07-q23-B",
          "text": "卷积神经网络具有平移等变性和参数共享，适合处理网格结构数据",
          "isCorrect": true,
          "rationale": "CNN 通过局部连接和权值共享大幅减少参数，并能提取层次化特征，更适合图像数据。"
        },
        {
          "id": "class-07-q23-C",
          "text": "浅层网络无法使用非线性激活函数",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 浅层网络无法使用非线性激活函数会引入多余假设或跳过关键前提；请以「CNN 通过局部连接和权值共享大幅减少参数，并能提取层次化特征，更适合图像数据。」为轴对照 B。"
        },
        {
          "id": "class-07-q23-D",
          "text": "深度卷积神经网络训练一定更快",
          "isCorrect": false,
          "rationale": "深度卷积神经网络训练一定更快更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「对于图像分类任务」「通常采用深度卷积神经网络而不是浅层全连接网络」不一致。请以解析「CNN 通过局部连接和权值共享大幅减少参数，并能提取层次化特征，更适合图像数据。」锁定 B。"
        }
      ],
      "sourceSnippet": "CNN 通过局部连接和权值共享大幅减少参数，并能提取层次化特征，更适合图像数据。"
    },
    {
      "id": "class-07-q24",
      "number": 24,
      "kind": "single",
      "question": "关于多层感知机(MLP)，以下说法错误的是?",
      "hint": "MLP 中各层可以使用不同的激活函数，例如隐藏层用 ReLU，输出层用 Softmax。",
      "options": [
        {
          "id": "class-07-q24-A",
          "text": "MLP 至少包含一个隐藏层",
          "isCorrect": false,
          "rationale": "MLP 至少包含一个隐藏层侧重的是另一个机制或层级：与材料中强调的「关于多层感知机」「以下说法错误的是」不一致；解析核心是「MLP 中各层可以使用不同的激活函数，例如隐藏层用 ReLU，输出层用 Softmax。」，因此更合适的是 D（MLP 中所有层之间必须使用相同的激活函数）。"
        },
        {
          "id": "class-07-q24-B",
          "text": "MLP 的隐藏层必须使用非线性激活函数，否则等价于单层线性模型",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「关于多层感知机」「以下说法错误的是」不一致；而 D 才覆盖「MLP 中各层可以使用不同的激活函数，例如隐藏层用 ReLU，输出层用 Softmax。」这层判断。"
        },
        {
          "id": "class-07-q24-C",
          "text": "MLP 可以解决异或问题",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 MLP 可以解决异或问题会引入多余假设或跳过关键前提；请以「MLP 中各层可以使用不同的激活函数，例如隐藏层用 ReLU，输出层用 Softmax。」为轴对照 D。"
        },
        {
          "id": "class-07-q24-D",
          "text": "MLP 中所有层之间必须使用相同的激活函数",
          "isCorrect": true,
          "rationale": "MLP 中各层可以使用不同的激活函数，例如隐藏层用 ReLU，输出层用 Softmax。"
        }
      ],
      "sourceSnippet": "MLP 中各层可以使用不同的激活函数，例如隐藏层用 ReLU，输出层用 Softmax。"
    },
    {
      "id": "class-07-q25",
      "number": 25,
      "kind": "single",
      "question": "假设你有一个二分类问题，特征维度为 5，训练样本数量为 2000，数据线性不可分，但存在复杂的非线性决策边界。你应该选择以下哪种模型?",
      "hint": "样本量适中，非线性问题，浅层神经网络足够且不易过拟合;深度网络参数过多容易过拟合且训练成本高。",
      "options": [
        {
          "id": "class-07-q25-A",
          "text": "单层感知机",
          "isCorrect": false,
          "rationale": "单层感知机侧重的是另一个机制或层级：与材料中强调的「假设你有一个二分类问题」「特征维度为」不一致；解析核心是「样本量适中，非线性问题，浅层神经网络足够且不易过拟合;深度网络参数过多容易过拟合且训练成本高。」，因此更合适的是 C（含一个隐藏层(10 个神经元)的多层感知机）。"
        },
        {
          "id": "class-07-q25-B",
          "text": "逻辑回归",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「假设你有一个二分类问题」「特征维度为」不一致；而 C 才覆盖「样本量适中，非线性问题，浅层神经网络足够且不易过拟合;深度网络参数过多容易过拟合且训练成本高。」这层判断。"
        },
        {
          "id": "class-07-q25-C",
          "text": "含一个隐藏层(10 个神经元)的多层感知机",
          "isCorrect": true,
          "rationale": "样本量适中，非线性问题，浅层神经网络足够且不易过拟合;深度网络参数过多容易过拟合且训练成本高。"
        },
        {
          "id": "class-07-q25-D",
          "text": "50 层的深度残差网络",
          "isCorrect": false,
          "rationale": "50 层的深度残差网络更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「假设你有一个二分类问题」「特征维度为」不一致。请以解析「样本量适中，非线性问题，浅层神经网络足够且不易过拟合;深度网络参数过多容易过拟合且训练成本高。」锁定 C。"
        }
      ],
      "sourceSnippet": "样本量适中，非线性问题，浅层神经网络足够且不易过拟合;深度网络参数过多容易过拟合且训练成本高。"
    },
    {
      "id": "class-07-q26",
      "number": 26,
      "kind": "single",
      "question": "在深度学习中，表示学习(Representation Learning)的核心思想是?",
      "hint": "深度学习通过多层非线性变换自动从数据中提取有用的特征表示，无需人工特征工程。",
      "options": [
        {
          "id": "class-07-q26-A",
          "text": "手工设计特征",
          "isCorrect": false,
          "rationale": "手工设计特征侧重的是另一个机制或层级：与材料中强调的「在深度学习中」「表示学习」不一致；解析核心是「深度学习通过多层非线性变换自动从数据中提取有用的特征表示，无需人工特征工程。」，因此更合适的是 B（从数据中自动学习特征表示）。"
        },
        {
          "id": "class-07-q26-B",
          "text": "从数据中自动学习特征表示",
          "isCorrect": true,
          "rationale": "深度学习通过多层非线性变换自动从数据中提取有用的特征表示，无需人工特征工程。"
        },
        {
          "id": "class-07-q26-C",
          "text": "只使用浅层模型提取特征",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 只使用浅层模型提取特征会引入多余假设或跳过关键前提；请以「深度学习通过多层非线性变换自动从数据中提取有用的特征表示，无需人工特征工程。」为轴对照 B。"
        },
        {
          "id": "class-07-q26-D",
          "text": "使用线性变换提取特征",
          "isCorrect": false,
          "rationale": "使用线性变换提取特征更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在深度学习中」「表示学习」不一致。请以解析「深度学习通过多层非线性变换自动从数据中提取有用的特征表示，无需人工特征工程。」锁定 B。"
        }
      ],
      "sourceSnippet": "深度学习通过多层非线性变换自动从数据中提取有用的特征表示，无需人工特征工程。"
    },
    {
      "id": "class-07-q27",
      "number": 27,
      "kind": "single",
      "question": "在训练深度神经网络时，使用交叉熵损失函数相比于均方误差损失函数的优势是什么?",
      "hint": "交叉熵损失与 Softmax 结合，梯度形式为预测值减目标值，避免了均方误差在输出饱和区的梯度消失问题，更适合分类。",
      "options": [
        {
          "id": "class-07-q27-A",
          "text": "交叉熵损失函数总是凸函数",
          "isCorrect": false,
          "rationale": "交叉熵损失函数总是凸函数侧重的是另一个机制或层级：与材料中强调的「在训练深度神经网络时」「使用交叉熵损失函数相比于均方误差损失函数的优势是什么」不一致；解析核心是「交叉熵损失与 Softmax 结合，梯度形式为预测值减目标值，避免了均方误差在输出饱和区的梯度消失问题，更适合分类。」，因此更合适的是 B（交叉熵结合 Softmax 能加速分类问题的训练，梯度更新更有效）。"
        },
        {
          "id": "class-07-q27-B",
          "text": "交叉熵结合 Softmax 能加速分类问题的训练，梯度更新更有效",
          "isCorrect": true,
          "rationale": "交叉熵损失与 Softmax 结合，梯度形式为预测值减目标值，避免了均方误差在输出饱和区的梯度消失问题，更适合分类。"
        },
        {
          "id": "class-07-q27-C",
          "text": "交叉熵损失函数计算更快",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 交叉熵损失函数计算更快会引入多余假设或跳过关键前提；请以「交叉熵损失与 Softmax 结合，梯度形式为预测值减目标值，避免了均方误差在输出饱和区的梯度消失问题，更适合分类。」为轴对照 B。"
        },
        {
          "id": "class-07-q27-D",
          "text": "均方误差不能用于分类问题",
          "isCorrect": false,
          "rationale": "均方误差不能用于分类问题更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在训练深度神经网络时」「使用交叉熵损失函数相比于均方误差损失函数的优势是什么」不一致。请以解析「交叉熵损失与 Softmax 结合，梯度形式为预测值减目标值，避免了均方误差在输出饱和区的梯度消失问题，更适合分类。」锁定 B。"
        }
      ],
      "sourceSnippet": "交叉熵损失与 Softmax 结合，梯度形式为预测值减目标值，避免了均方误差在输出饱和区的梯度消失问题，更适合分类。"
    },
    {
      "id": "class-07-q28",
      "number": 28,
      "kind": "single",
      "question": "某团队在 MNIST 手写数字识别任务上(6 万训练样本，10 类)比较浅层网络(1 个隐藏层，300 个神经元)和深层网络(5 个隐藏层，每层 100 个神经元)。训练后发现深层网络测试准确率略低于浅层网络，最可能的原因是?",
      "hint": "MNIST 相对简单，深层网络参数量可能更大(即使每层 100，5 层加连接参数可能比 300 神经元单隐层多)，容易过拟合或优化困难。",
      "options": [
        {
          "id": "class-07-q28-A",
          "text": "深层网络发生了欠拟合",
          "isCorrect": false,
          "rationale": "深层网络发生了欠拟合侧重的是另一个机制或层级：与材料中强调的「某团队在」「手写数字识别任务上」不一致；解析核心是「MNIST 相对简单，深层网络参数量可能更大(即使每层 100，5 层加连接参数可能比 300 神经元单隐层多)，容易过拟合或优化困难。」，因此更合适的是 B（深层网络参数过多导致过拟合，且没有足够正则化）。"
        },
        {
          "id": "class-07-q28-B",
          "text": "深层网络参数过多导致过拟合，且没有足够正则化",
          "isCorrect": true,
          "rationale": "MNIST 相对简单，深层网络参数量可能更大(即使每层 100，5 层加连接参数可能比 300 神经元单隐层多)，容易过拟合或优化困难。"
        },
        {
          "id": "class-07-q28-C",
          "text": "MNIST 任务过于简单，深度网络难以优化",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 MNIST 任务过于简单，深度网络难以优化会引入多余假设或跳过关键前提；请以「MNIST 相对简单，深层网络参数量可能更大(即使每层 100，5 层加连接参数可能比 300 神经元单隐层多)，容易过拟合或优化困难。」为轴对照 B。"
        },
        {
          "id": "class-07-q28-D",
          "text": "深层网络使用了错误的激活函数",
          "isCorrect": false,
          "rationale": "深层网络使用了错误的激活函数更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某团队在」「手写数字识别任务上」不一致。请以解析「MNIST 相对简单，深层网络参数量可能更大(即使每层 100，5 层加连接参数可能比 300 神经元单隐层多)，容易过拟合或优化困难。」锁定 B。"
        }
      ],
      "sourceSnippet": "MNIST 相对简单，深层网络参数量可能更大(即使每层 100，5 层加连接参数可能比 300 神经元单隐层多)，容易过拟合或优化困难。"
    },
    {
      "id": "class-07-q29",
      "number": 29,
      "kind": "single",
      "question": "在训练一个深度神经网络时，如果学习率设置过大，可能会导致?",
      "hint": "学习率过大可能导致参数更新步长太大，越过最优点，导致损失震荡甚至发散。",
      "options": [
        {
          "id": "class-07-q29-A",
          "text": "收敛速度变慢",
          "isCorrect": false,
          "rationale": "收敛速度变慢侧重的是另一个机制或层级：与材料中强调的「在训练一个深度神经网络时」「如果学习率设置过大」不一致；解析核心是「学习率过大可能导致参数更新步长太大，越过最优点，导致损失震荡甚至发散。」，因此更合适的是 B（损失函数震荡不下降或发散）。"
        },
        {
          "id": "class-07-q29-B",
          "text": "损失函数震荡不下降或发散",
          "isCorrect": true,
          "rationale": "学习率过大可能导致参数更新步长太大，越过最优点，导致损失震荡甚至发散。 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。"
        },
        {
          "id": "class-07-q29-C",
          "text": "梯度消失",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 梯度消失会引入多余假设或跳过关键前提；请以「学习率过大可能导致参数更新步长太大，越过最优点，导致损失震荡甚至发散。」为轴对照 B。"
        },
        {
          "id": "class-07-q29-D",
          "text": "过拟合",
          "isCorrect": false,
          "rationale": "过拟合更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在训练一个深度神经网络时」「如果学习率设置过大」不一致。请以解析「学习率过大可能导致参数更新步长太大，越过最优点，导致损失震荡甚至发散。」锁定 B。"
        }
      ],
      "sourceSnippet": "学习率过大可能导致参数更新步长太大，越过最优点，导致损失震荡甚至发散。"
    },
    {
      "id": "class-07-q30",
      "number": 30,
      "kind": "single",
      "question": "感知机与逻辑回归的主要区别是?",
      "hint": "两者都可用梯度下降训练，逻辑回归也可扩展到多分类。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q30-A",
          "text": "感知机使用线性激活函数，逻辑回归使用 Sigmoid",
          "isCorrect": false,
          "rationale": "感知机使用线性激活函数，逻辑回归使用 Sigmoid侧重的是另一个机制或层级：与材料中强调的「感知机与逻辑回归的主要区别是」「感知机使用阶跃函数输出」不一致；解析核心是「感知机使用阶跃函数输出 +1/-1;逻辑回归输出 0-1 概率。两者都可用梯度下降训练，逻辑回归也可扩展到多分类。」，因此更合适的是 B（感知机输出是离散值(-1 或 1)，逻辑回归输出概率值）。"
        },
        {
          "id": "class-07-q30-B",
          "text": "感知机输出是离散值(-1 或 1)，逻辑回归输出概率值",
          "isCorrect": true,
          "rationale": "感知机使用阶跃函数输出 +1/-1;逻辑回归输出 0-1 概率。两者都可用梯度下降训练，逻辑回归也可扩展到多分类。"
        },
        {
          "id": "class-07-q30-C",
          "text": "感知机不能使用梯度下降训练",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 感知机不能使用梯度下降训练会引入多余假设或跳过关键前提；请以「感知机使用阶跃函数输出 +1/-1;逻辑回归输出 0-1 概率。两者都可用梯度下降训练，逻辑回归也可扩展到多分类。」为轴对照 B。"
        },
        {
          "id": "class-07-q30-D",
          "text": "逻辑回归只能用于二分类",
          "isCorrect": false,
          "rationale": "逻辑回归只能用于二分类更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「感知机与逻辑回归的主要区别是」「感知机使用阶跃函数输出」不一致。请以解析「感知机使用阶跃函数输出 +1/-1;逻辑回归输出 0-1 概率。两者都可用梯度下降训练，逻辑回归也可扩展到多分类。」锁定 B。"
        }
      ],
      "sourceSnippet": "感知机使用阶跃函数输出 +1/-1;逻辑回归输出 0-1 概率。两者都可用梯度下降训练，逻辑回归也可扩展到多分类。"
    },
    {
      "id": "class-07-q31",
      "number": 31,
      "kind": "single",
      "question": "某深度学习项目在训练初期，损失值下降迅速，但很快停滞，训练误差仍较高，验证误差也很高。这可能是因为?",
      "hint": "可考虑增加模型复杂度。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q31-A",
          "text": "模型过于复杂，过拟合",
          "isCorrect": false,
          "rationale": "模型过于复杂，过拟合侧重的是另一个机制或层级：与材料中强调的「某深度学习项目在训练初期」「损失值下降迅速」不一致；解析核心是「损失下降停滞在较高水平，训练误差高，表明模型表达能力不足，欠拟合。可考虑增加模型复杂度。」，因此更合适的是 B（模型过于简单，欠拟合）。"
        },
        {
          "id": "class-07-q31-B",
          "text": "模型过于简单，欠拟合",
          "isCorrect": true,
          "rationale": "损失下降停滞在较高水平，训练误差高，表明模型表达能力不足，欠拟合。可考虑增加模型复杂度。"
        },
        {
          "id": "class-07-q31-C",
          "text": "学习率过大导致跳过最优点",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 学习率过大导致跳过最优点会引入多余假设或跳过关键前提；请以「损失下降停滞在较高水平，训练误差高，表明模型表达能力不足，欠拟合。可考虑增加模型复杂度。」为轴对照 B。"
        },
        {
          "id": "class-07-q31-D",
          "text": "梯度爆炸",
          "isCorrect": false,
          "rationale": "梯度爆炸更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某深度学习项目在训练初期」「损失值下降迅速」不一致。请以解析「损失下降停滞在较高水平，训练误差高，表明模型表达能力不足，欠拟合。可考虑增加模型复杂度。」锁定 B。"
        }
      ],
      "sourceSnippet": "损失下降停滞在较高水平，训练误差高，表明模型表达能力不足，欠拟合。可考虑增加模型复杂度。"
    },
    {
      "id": "class-07-q32",
      "number": 32,
      "kind": "single",
      "question": "在深度神经网络中使用 Dropout 技术，其主要作用是什么?",
      "hint": "Dropout 随机失活神经元，使得网络不依赖于特定神经元，提高泛化能力，防止过拟合。",
      "options": [
        {
          "id": "class-07-q32-A",
          "text": "加快前向传播速度",
          "isCorrect": false,
          "rationale": "加快前向传播速度侧重的是另一个机制或层级：与材料中强调的「在深度神经网络中使用」「其主要作用是什么」不一致；解析核心是「Dropout 随机失活神经元，使得网络不依赖于特定神经元，提高泛化能力，防止过拟合。」，因此更合适的是 B（防止过拟合）。"
        },
        {
          "id": "class-07-q32-B",
          "text": "防止过拟合",
          "isCorrect": true,
          "rationale": "Dropout 随机失活神经元，使得网络不依赖于特定神经元，提高泛化能力，防止过拟合。"
        },
        {
          "id": "class-07-q32-C",
          "text": "缓解梯度消失",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 缓解梯度消失会引入多余假设或跳过关键前提；请以「Dropout 随机失活神经元，使得网络不依赖于特定神经元，提高泛化能力，防止过拟合。」为轴对照 B。"
        },
        {
          "id": "class-07-q32-D",
          "text": "减少参数数量",
          "isCorrect": false,
          "rationale": "减少参数数量更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在深度神经网络中使用」「其主要作用是什么」不一致。请以解析「Dropout 随机失活神经元，使得网络不依赖于特定神经元，提高泛化能力，防止过拟合。」锁定 B。"
        }
      ],
      "sourceSnippet": "Dropout 随机失活神经元，使得网络不依赖于特定神经元，提高泛化能力，防止过拟合。"
    },
    {
      "id": "class-07-q33",
      "number": 33,
      "kind": "single",
      "question": "深度学习中的“端到端学习”指的是什么?",
      "hint": "端到端学习指模型直接从原始数据映射到任务目标，整个流程统一优化，避免手工设计特征。",
      "options": [
        {
          "id": "class-07-q33-A",
          "text": "从原始输入直接学习到最终输出，无需分阶段手工设计特征",
          "isCorrect": true,
          "rationale": "端到端学习指模型直接从原始数据映射到任务目标，整个流程统一优化，避免手工设计特征。"
        },
        {
          "id": "class-07-q33-B",
          "text": "输入和输出之间只有一层网络",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「深度学习中的」「端到端学习」不一致；而 A 才覆盖「端到端学习指模型直接从原始数据映射到任务目标，整个流程统一优化，避免手工设计特征。」这层判断。"
        },
        {
          "id": "class-07-q33-C",
          "text": "不使用反向传播",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 不使用反向传播会引入多余假设或跳过关键前提；请以「端到端学习指模型直接从原始数据映射到任务目标，整个流程统一优化，避免手工设计特征。」为轴对照 A。"
        },
        {
          "id": "class-07-q33-D",
          "text": "必须使用卷积神经网络",
          "isCorrect": false,
          "rationale": "必须使用卷积神经网络更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「深度学习中的」「端到端学习」不一致。请以解析「端到端学习指模型直接从原始数据映射到任务目标，整个流程统一优化，避免手工设计特征。」锁定 A。"
        }
      ],
      "sourceSnippet": "端到端学习指模型直接从原始数据映射到任务目标，整个流程统一优化，避免手工设计特征。"
    },
    {
      "id": "class-07-q34",
      "number": 34,
      "kind": "single",
      "question": "场景题:你正在训练一个深度神经网络进行房价预测(回归任务)，发现训练误差和验证误差都很高，且两者数值相近。你应该首先尝试?",
      "hint": "应增加模型复杂度;增加 Dropout 会进一步降低拟合能力，减少数据或降低学习率无益。…（可先想：哪一选项与该句直接矛盾？）",
      "options": [
        {
          "id": "class-07-q34-A",
          "text": "增加模型复杂度(如增加层数或神经元数量)",
          "isCorrect": true,
          "rationale": "训练误差高且验证误差也高，两者相近，是典型的欠拟合，说明模型表达能力不足。应增加模型复杂度;增加 Dropout 会进一步降低拟合能力，减少数据或降低学习率无益。"
        },
        {
          "id": "class-07-q34-B",
          "text": "增加 Dropout 率",
          "isCorrect": false,
          "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「场景题」「你正在训练一个深度神经网络进行房价预测」不一致；而 A 才覆盖「训练误差高且验证误差也高，两者相近，是典型的欠拟合，说明模型表达能力不足。应增加模型复杂度;增加 Dropout 会进一步降低拟合能力，减少数据或降低学习率无益。」这层判断。"
        },
        {
          "id": "class-07-q34-C",
          "text": "减少训练数据",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 减少训练数据会引入多余假设或跳过关键前提；请以「训练误差高且验证误差也高，两者相近，是典型的欠拟合，说明模型表达能力不足。应增加模型复杂度;增加 Dropout 会进一步降低拟合能力，减少数据或降低学习率无益。」为轴对照 A。"
        },
        {
          "id": "class-07-q34-D",
          "text": "降低学习率",
          "isCorrect": false,
          "rationale": "降低学习率更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「场景题」「你正在训练一个深度神经网络进行房价预测」不一致。请以解析「训练误差高且验证误差也高，两者相近，是典型的欠拟合，说明模型表达能力不足。应增加模型复杂度;增加 Dropout 会进一步降低拟合能力，减少数据或降低学习率无益。」锁定 A。"
        }
      ],
      "sourceSnippet": "训练误差高且验证误差也高，两者相近，是典型的欠拟合，说明模型表达能力不足。应增加模型复杂度;增加 Dropout 会进一步降低拟合能力，减少数据或降低学习率无益。"
    },
    {
      "id": "class-07-q35",
      "number": 35,
      "kind": "multi",
      "question": "下列哪些属于深度学习中常用的正则化方法?(多选)",
      "hint": "· A. Dropout:训练时随机丢弃神经元，防止过拟合，是标准正则化技术。",
      "options": [
        {
          "id": "class-07-q35-A",
          "text": "Dropout",
          "isCorrect": true,
          "rationale": "· A. Dropout:训练时随机丢弃神经元，防止过拟合，是标准正则化技术。 （多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）"
        },
        {
          "id": "class-07-q35-B",
          "text": "L2 权重衰减(Weight Decay)",
          "isCorrect": true,
          "rationale": "· A. Dropout:训练时随机丢弃神经元，防止过拟合，是标准正则化技术。 （多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）"
        },
        {
          "id": "class-07-q35-C",
          "text": "学习率衰减(Learning Rate Decay)",
          "isCorrect": false,
          "rationale": "易混点往往在概念边界：此处 学习率衰减(Learning Rate Decay)会引入多余假设或跳过关键前提；请以「· A. Dropout:训练时随机丢弃神经元，防止过拟合，是标准正则化技术。」为轴对照 ABD。"
        },
        {
          "id": "class-07-q35-D",
          "text": "早停(Early Stopping)",
          "isCorrect": true,
          "rationale": "· A. Dropout:训练时随机丢弃神经元，防止过拟合，是标准正则化技术。 （多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）"
        }
      ],
      "sourceSnippet": "· A. Dropout:训练时随机丢弃神经元，防止过拟合，是标准正则化技术。"
    }
  ]
}