{ "slug": "class-06", "title": "第六次课选择题", "subtitle": "第6课 · 班级测验整理", "sourceFiles": [ "docs/class_quiz/06.md" ], "essenceTopicIds": [ "topic-3" ], "topics": { "covered": [ "回归与评估指标", "聚类与无监督评价", "PCA 与维度约简" ], "followUp": [ "高级聚类与其限制" ] }, "totalQuestions": 32, "quiz": [ { "id": "class-06-q1", "number": 1, "kind": "single", "question": "下列关于无监督学习的说法，正确的是( )", "hint": "无监督学习不使用标签，旨在发现数据内在结构;可包括聚类、降维、关联规则等多种任务;效果优劣取决于具体问题。", "options": [ { "id": "class-06-q1-A", "text": "无监督学习需要大量人工标注的标签数据", "isCorrect": false, "rationale": "无监督学习需要大量人工标注的标签数据侧重的是另一个机制或层级：与材料中强调的「下列关于无监督学习的说法」「正确的是」不一致；解析核心是「无监督学习不使用标签，旨在发现数据内在结构;可包括聚类、降维、关联规则等多种任务;效果优劣取决于具体问题。」，因此更合适的是 B（无监督学习的目标是从未标记数据中发现隐藏的结构或模式）。" }, { "id": "class-06-q1-B", "text": "无监督学习的目标是从未标记数据中发现隐藏的结构或模式", "isCorrect": true, "rationale": "无监督学习不使用标签，旨在发现数据内在结构;可包括聚类、降维、关联规则等多种任务;效果优劣取决于具体问题。" }, { "id": "class-06-q1-C", "text": "无监督学习只能用于聚类任务，不能用于降维", "isCorrect": false, "rationale": "易混点往往在概念边界：此处无监督学习只能用于聚类任务，不能用于降维会引入多余假设或跳过关键前提；请以「无监督学习不使用标签，旨在发现数据内在结构;可包括聚类、降维、关联规则等多种任务;效果优劣取决于具体问题。」为轴对照 B。" }, { "id": "class-06-q1-D", "text": "无监督学习的效果一定优于监督学习", "isCorrect": false, "rationale": "无监督学习的效果一定优于监督学习更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「下列关于无监督学习的说法」「正确的是」不一致。请以解析「无监督学习不使用标签，旨在发现数据内在结构;可包括聚类、降维、关联规则等多种任务;效果优劣取决于具体问题。」锁定 B。" } ], "sourceSnippet": "无监督学习不使用标签，旨在发现数据内在结构;可包括聚类、降维、关联规则等多种任务;效果优劣取决于具体问题。" }, { "id": "class-06-q2", "number": 2, "kind": "single", "question": "以下哪个场景最适合使用无监督学习?", "hint": "顾客分群没有预先标签，属于聚类任务，是无监督学习的典型应用;A、B、D 均为监督学习(回归或分类)。", "options": [ { "id": "class-06-q2-A", "text": "根据历史房价和面积预测未来房价", "isCorrect": false, "rationale": "根据历史房价和面积预测未来房价侧重的是另一个机制或层级：与材料中强调的「顾客分群没有预先标签」「属于聚类任务」不一致；解析核心是「顾客分群没有预先标签，属于聚类任务，是无监督学习的典型应用;A、B、D 均为监督学习(回归或分类)。」，因此更合适的是 C（对商场顾客进行分群，以便实施个性化营销）。" }, { "id": "class-06-q2-B", "text": "识别邮件是否为垃圾邮件(已有大量已标注邮件)", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「顾客分群没有预先标签」「属于聚类任务」不一致；而 C 才覆盖「顾客分群没有预先标签，属于聚类任务，是无监督学习的典型应用;A、B、D 均为监督学习(回归或分类)。」这层判断。" }, { "id": "class-06-q2-C", "text": "对商场顾客进行分群，以便实施个性化营销", "isCorrect": true, "rationale": "顾客分群没有预先标签，属于聚类任务，是无监督学习的典型应用;A、B、D 均为监督学习(回归或分类)。" }, { "id": "class-06-q2-D", "text": "识别图片中的猫和狗(已有标注图片)", "isCorrect": false, "rationale": "识别图片中的猫和狗(已有标注图片)更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「顾客分群没有预先标签」「属于聚类任务」不一致。请以解析「顾客分群没有预先标签，属于聚类任务，是无监督学习的典型应用;A、B、D 均为监督学习(回归或分类)。」锁定 C。" } ], "sourceSnippet": "顾客分群没有预先标签，属于聚类任务，是无监督学习的典型应用;A、B、D 均为监督学习(回归或分类)。" }, { "id": "class-06-q3", "number": 3, "kind": "single", "question": "在回归模型中，均方误差(MSE)的计算公式为( )", "hint": "MSE 是预测误差平方的平均值;A 是 MAE，C 是 RMSE，D 是 R²。", "options": [ { "id": "class-06-q3-A", "text": "平均绝对误差 MAE：\\(\\frac{1}{n}\\sum_{i=1}^{n}|y_i-\\hat{y}_i|\\)。", "isCorrect": false, "rationale": "平均绝对误差 MAE：\\(\\frac{1}{n}\\sum_{i=1}^{n}|y_i-\\hat{y}_i|\\)。侧重的是另一个机制或层级：与材料中强调的「在回归模型中」「均方误差」不一致；解析核心是「MSE 是预测误差平方的平均值;A 是 MAE，C 是 RMSE，D 是 R²。」，因此更合适的是 B（均方误差 MSE：\\(\\frac{1}{n}\\sum_{i=1}^{n}(y_…）。" }, { "id": "class-06-q3-B", "text": "均方误差 MSE：\\(\\frac{1}{n}\\sum_{i=1}^{n}(y_i-\\hat{y}_i)^2\\)（预测误差平方的平均）。", "isCorrect": true, "rationale": "MSE 是预测误差平方的平均值;A 是 MAE，C 是 RMSE，D 是 R²。" }, { "id": "class-06-q3-C", "text": "均方根误差 RMSE：\\(\\sqrt{\\frac{1}{n}\\sum_{i=1}^{n}(y_i-\\hat{y}_i)^2}\\)。", "isCorrect": false, "rationale": "易混点往往在概念边界：此处均方根误差 RMSE：\\(\\sqrt{\\frac{1}{n}\\sum_{i=1}^{n}(y_i-\\hat{y…会引入多余假设或跳过关键前提；请以「MSE 是预测误差平方的平均值;A 是 MAE，C 是 RMSE，D 是 R²。」为轴对照 B。" }, { "id": "class-06-q3-D", "text": "决定系数 \\(R^2\\)：反映模型解释方差的比例，不是 MSE 本身。", "isCorrect": false, "rationale": "决定系数 \\(R^2\\)：反映模型解释方差的比例，不是 MSE 本身。更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在回归模型中」「均方误差」不一致。请以解析「MSE 是预测误差平方的平均值;A 是 MAE，C 是 RMSE，D 是 R²。」锁定 B。" } ], "sourceSnippet": "MSE 是预测误差平方的平均值;A 是 MAE，C 是 RMSE，D 是 R²。" }, { "id": "class-06-q4", "number": 4, "kind": "single", "question": "关于 R²(决定系数)的说法，错误的是( )", "hint": "添加特征会使 R² 非减(通常增加或不变)，但可能因过拟合而降低泛化能力，且调整 R² 会惩罚多余特征;C 选项“一定会增加”不严谨(可能不变)，但通常题目视作错误表述。", "options": [ { "id": "class-06-q4-A", "text": "R² 的取值范围通常是 [0,1]", "isCorrect": false, "rationale": "R² 的取值范围通常是 [0,1]侧重的是另一个机制或层级：与材料中强调的「决定系数」「的说法」不一致；解析核心是「添加特征会使 R² 非减(通常增加或不变)，但可能因过拟合而降低泛化能力，且调整 R² 会惩罚多余特征;C 选项“一定会增加”不严谨(可能不变)，但通常题目视作错误表述。」，因此更合适的是 C（向模型中添加任何新特征，R² 一定会增加）。" }, { "id": "class-06-q4-B", "text": "R² 越接近 1，说明模型拟合越好", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「决定系数」「的说法」不一致；而 C 才覆盖「添加特征会使 R² 非减(通常增加或不变)，但可能因过拟合而降低泛化能力，且调整 R² 会惩罚多余特征;C 选项“一定会增加”不严谨(可能不变)，但通常题目视作错误表述。」这层判断。" }, { "id": "class-06-q4-C", "text": "向模型中添加任何新特征，R² 一定会增加", "isCorrect": true, "rationale": "添加特征会使 R² 非减(通常增加或不变)，但可能因过拟合而降低泛化能力，且调整 R² 会惩罚多余特征;C 选项“一定会增加”不严谨(可能不变)，但通常题目视作错误表述。" }, { "id": "class-06-q4-D", "text": "R² 可以用于比较不同量纲的回归模型", "isCorrect": false, "rationale": "R² 可以用于比较不同量纲的回归模型更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「决定系数」「的说法」不一致。请以解析「添加特征会使 R² 非减(通常增加或不变)，但可能因过拟合而降低泛化能力，且调整 R² 会惩罚多余特征;C 选项“一定会增加”不严谨(可能不变)，但通常题目视作错误表述。」锁定 C。" } ], "sourceSnippet": "添加特征会使 R² 非减(通常增加或不变)，但可能因过拟合而降低泛化能力，且调整 R² 会惩罚多余特征;C 选项“一定会增加”不严谨(可能不变)，但通常题目视作错误表述。" }, { "id": "class-06-q5", "number": 5, "kind": "single", "question": "下列哪种方法常用于无监督学习中的降维?", "hint": "PCA 是无监督降维方法;其他三项均为监督学习算法。", "options": [ { "id": "class-06-q5-A", "text": "线性回归", "isCorrect": false, "rationale": "线性回归侧重的是另一个机制或层级：与材料中强调的「下列哪种方法常用于无监督学习中的降维」「是无监督降维方法」不一致；解析核心是「PCA 是无监督降维方法;其他三项均为监督学习算法。」，因此更合适的是 C（主成分分析(PCA)）。" }, { "id": "class-06-q5-B", "text": "决策树", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「下列哪种方法常用于无监督学习中的降维」「是无监督降维方法」不一致；而 C 才覆盖「PCA 是无监督降维方法;其他三项均为监督学习算法。」这层判断。" }, { "id": "class-06-q5-C", "text": "主成分分析(PCA)", "isCorrect": true, "rationale": "PCA 是无监督降维方法;其他三项均为监督学习算法。请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。" }, { "id": "class-06-q5-D", "text": "支持向量机", "isCorrect": false, "rationale": "支持向量机更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「下列哪种方法常用于无监督学习中的降维」「是无监督降维方法」不一致。请以解析「PCA 是无监督降维方法;其他三项均为监督学习算法。」锁定 C。" } ], "sourceSnippet": "PCA 是无监督降维方法;其他三项均为监督学习算法。" }, { "id": "class-06-q6", "number": 6, "kind": "single", "question": "在 K-Means 聚类算法中，以下哪个步骤是正确的?", "hint": "K-Means 标准流程:初始化中心 → 分配样本到最近中心 → 更新中心 → 重复直到收敛。", "options": [ { "id": "class-06-q6-A", "text": "随机指定每个样本的类别，然后更新簇中心", "isCorrect": false, "rationale": "随机指定每个样本的类别，然后更新簇中心侧重的是另一个机制或层级：与材料中强调的「聚类算法中」「标准流程」不一致；解析核心是「K-Means 标准流程:初始化中心 → 分配样本到最近中心 → 更新中心 → 重复直到收敛。」，因此更合适的是 C（随机初始化簇中心，然后迭代分配样本并更新中心）。" }, { "id": "class-06-q6-B", "text": "先计算所有样本的均值，再随机分配簇", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「聚类算法中」「标准流程」不一致；而 C 才覆盖「K-Means 标准流程:初始化中心 → 分配样本到最近中心 → 更新中心 → 重复直到收敛。」这层判断。" }, { "id": "class-06-q6-C", "text": "随机初始化簇中心，然后迭代分配样本并更新中心", "isCorrect": true, "rationale": "K-Means 标准流程:初始化中心 → 分配样本到最近中心 → 更新中心 → 重复直到收敛。" }, { "id": "class-06-q6-D", "text": "先指定簇的个数，然后直接输出聚类结果", "isCorrect": false, "rationale": "先指定簇的个数，然后直接输出聚类结果更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「聚类算法中」「标准流程」不一致。请以解析「K-Means 标准流程:初始化中心 → 分配样本到最近中心 → 更新中心 → 重复直到收敛。」锁定 C。" } ], "sourceSnippet": "K-Means 标准流程:初始化中心 → 分配样本到最近中心 → 更新中心 → 重复直到收敛。" }, { "id": "class-06-q7", "number": 7, "kind": "single", "question": "使用“肘部法则”选择 K 值时，我们观察的指标是( )", "hint": "肘部法则绘制不同 K 对应的 WSS(或 SSE)，寻找下降速度变缓的拐点。", "options": [ { "id": "class-06-q7-A", "text": "轮廓系数", "isCorrect": false, "rationale": "轮廓系数侧重的是另一个机制或层级：与材料中强调的「肘部法则」「我们观察的指标是」不一致；解析核心是「肘部法则绘制不同 K 对应的 WSS(或 SSE)，寻找下降速度变缓的拐点。」，因此更合适的是 B（簇内平方和(WSS)）。" }, { "id": "class-06-q7-B", "text": "簇内平方和(WSS)", "isCorrect": true, "rationale": "肘部法则绘制不同 K 对应的 WSS(或 SSE)，寻找下降速度变缓的拐点。" }, { "id": "class-06-q7-C", "text": "互信息", "isCorrect": false, "rationale": "易混点往往在概念边界：此处互信息会引入多余假设或跳过关键前提；请以「肘部法则绘制不同 K 对应的 WSS(或 SSE)，寻找下降速度变缓的拐点。」为轴对照 B。" }, { "id": "class-06-q7-D", "text": "调整兰德指数", "isCorrect": false, "rationale": "调整兰德指数更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「肘部法则」「我们观察的指标是」不一致。请以解析「肘部法则绘制不同 K 对应的 WSS(或 SSE)，寻找下降速度变缓的拐点。」锁定 B。" } ], "sourceSnippet": "肘部法则绘制不同 K 对应的 WSS(或 SSE)，寻找下降速度变缓的拐点。" }, { "id": "class-06-q8", "number": 8, "kind": "single", "question": "关于回归模型中的过拟合，下列说法正确的是( )", "hint": "过拟合是模型过于复杂，记住了训练数据噪声，导致训练误差小但泛化(测试)误差大;缓解方法是降低复杂度、正则化、增加数据等。", "options": [ { "id": "class-06-q8-A", "text": "过拟合表现为训练误差大，测试误差也大", "isCorrect": false, "rationale": "过拟合表现为训练误差大，测试误差也大侧重的是另一个机制或层级：与材料中强调的「关于回归模型中的过拟合」「下列说法正确的是」不一致；解析核心是「过拟合是模型过于复杂，记住了训练数据噪声，导致训练误差小但泛化(测试)误差大;缓解方法是降低复杂度、正则化、增加数据等。」，因此更合适的是 B（过拟合表现为训练误差小，但测试误差大）。" }, { "id": "class-06-q8-B", "text": "过拟合表现为训练误差小，但测试误差大", "isCorrect": true, "rationale": "过拟合是模型过于复杂，记住了训练数据噪声，导致训练误差小但泛化(测试)误差大;缓解方法是降低复杂度、正则化、增加数据等。" }, { "id": "class-06-q8-C", "text": "过拟合可以通过增加模型复杂度来缓解", "isCorrect": false, "rationale": "易混点往往在概念边界：此处过拟合可以通过增加模型复杂度来缓解会引入多余假设或跳过关键前提；请以「过拟合是模型过于复杂，记住了训练数据噪声，导致训练误差小但泛化(测试)误差大;缓解方法是降低复杂度、正则化、增加数据等。」为轴对照 B。" }, { "id": "class-06-q8-D", "text": "过拟合只发生在非线性模型中", "isCorrect": false, "rationale": "过拟合只发生在非线性模型中更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「关于回归模型中的过拟合」「下列说法正确的是」不一致。请以解析「过拟合是模型过于复杂，记住了训练数据噪声，导致训练误差小但泛化(测试)误差大;缓解方法是降低复杂度、正则化、增加数据等。」锁定 B。" } ], "sourceSnippet": "过拟合是模型过于复杂，记住了训练数据噪声，导致训练误差小但泛化(测试)误差大;缓解方法是降低复杂度、正则化、增加数据等。" }, { "id": "class-06-q9", "number": 9, "kind": "single", "question": "以下哪个指标对异常值最不敏感?", "hint": "MAE 使用绝对值，对离群点的惩罚远小于 MSE/RMSE(平方误差会放大离群影响)。", "options": [ { "id": "class-06-q9-A", "text": "均方误差(MSE)", "isCorrect": false, "rationale": "均方误差(MSE)侧重的是另一个机制或层级：与材料中强调的「使用绝对值」「对离群点的惩罚远小于」不一致；解析核心是「MAE 使用绝对值，对离群点的惩罚远小于 MSE/RMSE(平方误差会放大离群影响)。」，因此更合适的是 C（平均绝对误差(MAE)）。" }, { "id": "class-06-q9-B", "text": "均方根误差(RMSE)", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「使用绝对值」「对离群点的惩罚远小于」不一致；而 C 才覆盖「MAE 使用绝对值，对离群点的惩罚远小于 MSE/RMSE(平方误差会放大离群影响)。」这层判断。" }, { "id": "class-06-q9-C", "text": "平均绝对误差(MAE)", "isCorrect": true, "rationale": "MAE 使用绝对值，对离群点的惩罚远小于 MSE/RMSE(平方误差会放大离群影响)。" }, { "id": "class-06-q9-D", "text": "三者敏感度相同", "isCorrect": false, "rationale": "三者敏感度相同更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「使用绝对值」「对离群点的惩罚远小于」不一致。请以解析「MAE 使用绝对值，对离群点的惩罚远小于 MSE/RMSE(平方误差会放大离群影响)。」锁定 C。" } ], "sourceSnippet": "MAE 使用绝对值，对离群点的惩罚远小于 MSE/RMSE(平方误差会放大离群影响)。" }, { "id": "class-06-q10", "number": 10, "kind": "single", "question": "以下哪种距离度量在 KNN 中常用于处理二进制特征(如词袋模型)?", "hint": "汉明距离用于比较两个等长二进制字符串的差异位数，适合二进制特征;余弦相似度常用于文本向量，但不是严格距离(可转换为余弦距离)。", "options": [ { "id": "class-06-q10-A", "text": "欧氏距离", "isCorrect": false, "rationale": "欧氏距离侧重的是另一个机制或层级：与材料中强调的「中常用于处理二进制特征」「如词袋模型」不一致；解析核心是「汉明距离用于比较两个等长二进制字符串的差异位数，适合二进制特征;余弦相似度常用于文本向量，但不是严格距离(可转换为余弦距离)。」，因此更合适的是 C（汉明距离）。" }, { "id": "class-06-q10-B", "text": "曼哈顿距离", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「中常用于处理二进制特征」「如词袋模型」不一致；而 C 才覆盖「汉明距离用于比较两个等长二进制字符串的差异位数，适合二进制特征;余弦相似度常用于文本向量，但不是严格距离(可转换为余弦距离)。」这层判断。" }, { "id": "class-06-q10-C", "text": "汉明距离", "isCorrect": true, "rationale": "汉明距离用于比较两个等长二进制字符串的差异位数，适合二进制特征;余弦相似度常用于文本向量，但不是严格距离(可转换为余弦距离)。" }, { "id": "class-06-q10-D", "text": "余弦相似度", "isCorrect": false, "rationale": "余弦相似度更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「中常用于处理二进制特征」「如词袋模型」不一致。请以解析「汉明距离用于比较两个等长二进制字符串的差异位数，适合二进制特征;余弦相似度常用于文本向量，但不是严格距离(可转换为余弦距离)。」锁定 C。" } ], "sourceSnippet": "汉明距离用于比较两个等长二进制字符串的差异位数，适合二进制特征;余弦相似度常用于文本向量，但不是严格距离(可转换为余弦距离)。" }, { "id": "class-06-q11", "number": 11, "kind": "single", "question": "关于回归问题与线性回归模型的应用场景，下列说法正确的是?", "hint": "C…（可先想：题干最强调的判据是哪一条？）", "options": [ { "id": "class-06-q11-A", "text": "预测明天是否会下雨是一个回归问题", "isCorrect": false, "rationale": "预测明天是否会下雨是一个回归问题侧重的是另一个机制或层级：与材料中强调的「关于回归问题与线性回归模型的应用场景」「下列说法正确的是」不一致；解析核心是「C」，因此更合适的是 C（在波士顿房价预测中，使用线性回归模型时需要对特征进行标准化，否则模型可能无法收…）。" }, { "id": "class-06-q11-B", "text": "线性回归模型假设特征与目标变量之间存在线性关系，因此当关系为非线性时完全不可用", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「关于回归问题与线性回归模型的应用场景」「下列说法正确的是」不一致；而 C 才覆盖「C」这层判断。" }, { "id": "class-06-q11-C", "text": "在波士顿房价预测中，使用线性回归模型时需要对特征进行标准化，否则模型可能无法收敛或系数解释不合理", "isCorrect": true, "rationale": "C 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。" }, { "id": "class-06-q11-D", "text": "线性回归模型天然支持分类任务，只需将类别标签映射为0和1即可", "isCorrect": false, "rationale": "线性回归模型天然支持分类任务，只需将类别标签映射为0和1即可更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「关于回归问题与线性回归模型的应用场景」「下列说法正确的是」不一致。请以解析「C」锁定 C。" } ], "sourceSnippet": "C" }, { "id": "class-06-q12", "number": 12, "kind": "single", "question": "在机器学习实践中，关于回归任务(如房价预测)的模型选择，下列说法正确的是?", "hint": "C…（可先想：题干最强调的判据是哪一条？）", "options": [ { "id": "class-06-q12-A", "text": "线性回归只能用于分类问题，不能预测房价", "isCorrect": false, "rationale": "线性回归只能用于分类问题，不能预测房价侧重的是另一个机制或层级：与材料中强调的「在机器学习实践中」「关于回归任务」不一致；解析核心是「C」，因此更合适的是 C（XGBoost 和 LightGBM 都是梯度提升框架，且均支持回归任务）。" }, { "id": "class-06-q12-B", "text": "随机森林仅支持分类任务，无法输出连续数值", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「在机器学习实践中」「关于回归任务」不一致；而 C 才覆盖「C」这层判断。" }, { "id": "class-06-q12-C", "text": "XGBoost 和 LightGBM 都是梯度提升框架，且均支持回归任务", "isCorrect": true, "rationale": "C 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。" }, { "id": "class-06-q12-D", "text": "对于线性回归、随机森林、XGBoost、LightGB四个模型中，只有线性回归可以用于预测房价", "isCorrect": false, "rationale": "对于线性回归、随机森林、XGBoost、LightGB四个模型中，只有线性回归可以用于预测房价更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在机器学习实践中」「关于回归任务」不一致。请以解析「C」锁定 C。" } ], "sourceSnippet": "C" }, { "id": "class-06-q13", "number": 13, "kind": "single", "question": "下列哪项是回归模型选择中常用的交叉验证方法?", "hint": "三者都是模型评估方法，但 K 折交叉验证更常用。", "options": [ { "id": "class-06-q13-A", "text": "留出法", "isCorrect": false, "rationale": "留出法侧重的是另一个机制或层级：与材料中强调的「下列哪项是回归模型选择中常用的交叉验证方法」「三者都是模型评估方法」不一致；解析核心是「三者都是模型评估方法，但 K 折交叉验证更常用。」，因此更合适的是 D（以上都是）。" }, { "id": "class-06-q13-B", "text": "K 折交叉验证", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「下列哪项是回归模型选择中常用的交叉验证方法」「三者都是模型评估方法」不一致；而 D 才覆盖「三者都是模型评估方法，但 K 折交叉验证更常用。」这层判断。" }, { "id": "class-06-q13-C", "text": "自助法", "isCorrect": false, "rationale": "易混点往往在概念边界：此处自助法会引入多余假设或跳过关键前提；请以「三者都是模型评估方法，但 K 折交叉验证更常用。」为轴对照 D。" }, { "id": "class-06-q13-D", "text": "以上都是", "isCorrect": true, "rationale": "三者都是模型评估方法，但 K 折交叉验证更常用。请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。" } ], "sourceSnippet": "三者都是模型评估方法，但 K 折交叉验证更常用。" }, { "id": "class-06-q14", "number": 14, "kind": "single", "question": "对于同一个回归数据集，你分别训练了线性回归、随机森林、XGBoost 三个模型，并得到测试集上的评估指标如下: 模型 RMSE R² 线性回归 4.5 0.82 随机森林 3.2 0.89 XGBoost 3.0 0.91 根据上表，以下推断最合理的是?", "hint": "D…（可先想：题干最强调的判据是哪一条？）", "options": [ { "id": "class-06-q14-A", "text": "线性回归的 R² 为 0.82，说明该模型没有价值，应直接放弃", "isCorrect": false, "rationale": "线性回归的 R² 为 0.82，说明该模型没有价值，应直接放弃侧重的是另一个机制或层级：与材料中强调的「对于同一个回归数据集」「你分别训练了线性回归」不一致；解析核心是「D」，因此更合适的是 D（XGBoost 的 R² 最高(0.91)，且 RMSE 最低(3.0)，因此…）。" }, { "id": "class-06-q14-B", "text": "随机森林的 RMSE 比 XGBoost 高 0.2，说明随机森林在所有情况下都不如 XGBoost", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「对于同一个回归数据集」「你分别训练了线性回归」不一致；而 D 才覆盖「D」这层判断。" }, { "id": "class-06-q14-C", "text": "如果该任务改为分类问题，可以直接将 RMSE 作为评估指标", "isCorrect": false, "rationale": "易混点往往在概念边界：此处如果该任务改为分类问题，可以直接将 RMSE 作为评估指标会引入多余假设或跳过关键前提；请以「D」为轴对照 D。" }, { "id": "class-06-q14-D", "text": "XGBoost 的 R² 最高(0.91)，且 RMSE 最低(3.0)，因此在该数据集上 XGBoost 是三者中最优的模型", "isCorrect": true, "rationale": "D 请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。" } ], "sourceSnippet": "D" }, { "id": "class-06-q15", "number": 15, "kind": "single", "question": "以下哪个应用场景属于无监督学习中的关联规则挖掘?", "hint": "购物篮分析发现商品间关联(如 Apriori 算法)是无监督关联规则典型场景;A 可能是协同过滤(半监督或无监督但偏向推荐)，C 是分类，D 是分类/识别。", "options": [ { "id": "class-06-q15-A", "text": "根据用户浏览历史推荐电影", "isCorrect": false, "rationale": "根据用户浏览历史推荐电影侧重的是另一个机制或层级：与材料中强调的「购物篮分析发现商品间关联」「是无监督关联规则典型场景」不一致；解析核心是「购物篮分析发现商品间关联(如 Apriori 算法)是无监督关联规则典型场景;A 可能是协同过滤(半监督或无监督但偏向推荐)，C 是分类，D 是分类/识别。」，因此更合适的是 B（分析购物篮中“啤酒”与“尿布”的购买关系）。" }, { "id": "class-06-q15-B", "text": "分析购物篮中“啤酒”与“尿布”的购买关系", "isCorrect": true, "rationale": "购物篮分析发现商品间关联(如 Apriori 算法)是无监督关联规则典型场景;A 可能是协同过滤(半监督或无监督但偏向推荐)，C 是分类，D 是分类/识别。" }, { "id": "class-06-q15-C", "text": "将新闻文本自动分类为体育、财经等", "isCorrect": false, "rationale": "易混点往往在概念边界：此处将新闻文本自动分类为体育、财经等会引入多余假设或跳过关键前提；请以「购物篮分析发现商品间关联(如 Apriori 算法)是无监督关联规则典型场景;A 可能是协同过滤(半监督或无监督但偏向推荐)，C 是分类，D 是分类/识别。」为轴对照 B。" }, { "id": "class-06-q15-D", "text": "根据人脸图像识别身份", "isCorrect": false, "rationale": "根据人脸图像识别身份更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「购物篮分析发现商品间关联」「是无监督关联规则典型场景」不一致。请以解析「购物篮分析发现商品间关联(如 Apriori 算法)是无监督关联规则典型场景;A 可能是协同过滤(半监督或无监督但偏向推荐)，C 是分类，D 是分类/识别。」锁定 B。" } ], "sourceSnippet": "购物篮分析发现商品间关联(如 Apriori 算法)是无监督关联规则典型场景;A 可能是协同过滤(半监督或无监督但偏向推荐)，C 是分类，D 是分类/识别。" }, { "id": "class-06-q16", "number": 16, "kind": "single", "question": "对于回归模型，调整 R²(Adjusted R²)与 R² 的主要区别是( )", "hint": "调整 R² = ，对特征数量 p 进行惩罚，避免虚假提升。", "options": [ { "id": "class-06-q16-A", "text": "调整 R² 总是大于 R²", "isCorrect": false, "rationale": "调整 R² 总是大于 R²侧重的是另一个机制或层级：与材料中强调的「对于回归模型」「的主要区别是」不一致；解析核心是「调整 R² = ，对特征数量 p 进行惩罚，避免虚假提升。」，因此更合适的是 B（调整 R² 考虑了自变量个数的影响，防止盲目增加特征）。" }, { "id": "class-06-q16-B", "text": "调整 R² 考虑了自变量个数的影响，防止盲目增加特征", "isCorrect": true, "rationale": "调整 R² = ，对特征数量 p 进行惩罚，避免虚假提升。请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。" }, { "id": "class-06-q16-C", "text": "调整 R² 只能用于线性回归", "isCorrect": false, "rationale": "易混点往往在概念边界：此处调整 R² 只能用于线性回归会引入多余假设或跳过关键前提；请以「调整 R² = ，对特征数量 p 进行惩罚，避免虚假提升。」为轴对照 B。" }, { "id": "class-06-q16-D", "text": "调整 R² 的值可以大于 1", "isCorrect": false, "rationale": "调整 R² 的值可以大于 1更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「对于回归模型」「的主要区别是」不一致。请以解析「调整 R² = ，对特征数量 p 进行惩罚，避免虚假提升。」锁定 B。" } ], "sourceSnippet": "调整 R² = ，对特征数量 p 进行惩罚，避免虚假提升。" }, { "id": "class-06-q17", "number": 17, "kind": "single", "question": "在机器学习中，以下哪个选项中的所有模型均可用于解决回归问题(如房价预测)?", "hint": "A中的逻辑回归是分类模型;C中的朴素贝叶斯通常是分类模型;D中的LSTM虽然可用于回归但通常用于序列，但选项B更纯粹且都是经典回归模型。因此B正确。…（可先想：哪一选项与该句直接矛盾？）", "options": [ { "id": "class-06-q17-A", "text": "线性回归、逻辑回归、支持向量机", "isCorrect": false, "rationale": "线性回归、逻辑回归、支持向量机侧重的是另一个机制或层级：与材料中强调的「在机器学习中」「如房价预测」不一致；解析核心是「线性回归是标准回归模型;随机森林、XGBoost、LightGBM 均支持回归任务(通过设置目标函数为回归)。A中的逻辑回归是分类模型;C中的朴素贝叶斯通常是分类模型;D中的LSTM虽然可用于回归但通常用于序列，但选项B更纯粹且都是经典回归模型。因此B正确。」，因此更合适的是 B（线性回归、随机森林、XGBoost、LightGBM）。" }, { "id": "class-06-q17-B", "text": "线性回归、随机森林、XGBoost、LightGBM", "isCorrect": true, "rationale": "线性回归是标准回归模型;随机森林、XGBoost、LightGBM 均支持回归任务(通过设置目标函数为回归)。A中的逻辑回归是分类模型;C中的朴素贝叶斯通常是分类模型;D中的LSTM虽然可用于回归但通常用于序列，但选项B更纯粹且都是经典回归模型。因此B正确。" }, { "id": "class-06-q17-C", "text": "K近邻、决策树、朴素贝叶斯", "isCorrect": false, "rationale": "易混点往往在概念边界：此处 K近邻、决策树、朴素贝叶斯会引入多余假设或跳过关键前提；请以「线性回归是标准回归模型;随机森林、XGBoost、LightGBM 均支持回归任务(通过设置目标函数为回归)。A中的逻辑回归是分类模型;C中的朴素贝叶斯通常是分类模型;D中的LSTM虽然可用于回归但…」为轴对照 B。" }, { "id": "class-06-q17-D", "text": "梯度提升树、AdaBoost、LSTM", "isCorrect": false, "rationale": "梯度提升树、AdaBoost、LSTM更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在机器学习中」「如房价预测」不一致。请以解析「线性回归是标准回归模型;随机森林、XGBoost、LightGBM 均支持回归任务(通过设置目标函数为回归)。A中的逻辑回归是分类模型;C中的朴素贝叶斯通常是分类模型;D中的LSTM虽然可用于回归但通常用于序列，但选项B更纯粹且都是经典回…」锁定 B。" } ], "sourceSnippet": "线性回归是标准回归模型;随机森林、XGBoost、LightGBM 均支持回归任务(通过设置目标函数为回归)。A中的逻辑回归是分类模型;C中的朴素贝叶斯通常是分类模型;D中的LSTM虽然可用于回归但通常用于序列，但选项B更纯粹且都是经典回归模型。因此B正确。" }, { "id": "class-06-q18", "number": 18, "kind": "single", "question": "在使用 KNN 算法前，对特征进行标准化的主要原因是( )", "hint": "KNN 基于距离(如欧氏距离)，若某特征取值远大于其他特征，将主导距离，标准化可消除量纲影响。", "options": [ { "id": "class-06-q18-A", "text": "加快训练速度", "isCorrect": false, "rationale": "加快训练速度侧重的是另一个机制或层级：与材料中强调的「在使用」「算法前」不一致；解析核心是「KNN 基于距离(如欧氏距离)，若某特征取值远大于其他特征，将主导距离，标准化可消除量纲影响。」，因此更合适的是 B（避免量纲大的特征主导距离计算）。" }, { "id": "class-06-q18-B", "text": "避免量纲大的特征主导距离计算", "isCorrect": true, "rationale": "KNN 基于距离(如欧氏距离)，若某特征取值远大于其他特征，将主导距离，标准化可消除量纲影响。" }, { "id": "class-06-q18-C", "text": "提高 KNN 对异常值的鲁棒性", "isCorrect": false, "rationale": "易混点往往在概念边界：此处提高 KNN 对异常值的鲁棒性会引入多余假设或跳过关键前提；请以「KNN 基于距离(如欧氏距离)，若某特征取值远大于其他特征，将主导距离，标准化可消除量纲影响。」为轴对照 B。" }, { "id": "class-06-q18-D", "text": "使数据满足正态分布假设", "isCorrect": false, "rationale": "使数据满足正态分布假设更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在使用」「算法前」不一致。请以解析「KNN 基于距离(如欧氏距离)，若某特征取值远大于其他特征，将主导距离，标准化可消除量纲影响。」锁定 B。" } ], "sourceSnippet": "KNN 基于距离(如欧氏距离)，若某特征取值远大于其他特征，将主导距离，标准化可消除量纲影响。" }, { "id": "class-06-q19", "number": 19, "kind": "single", "question": "以下哪个场景不属于无监督学习?", "hint": "逻辑回归是监督学习分类算法;其他均为无监督(聚类、降维、异常检测)。", "options": [ { "id": "class-06-q19-A", "text": "对图像进行像素压缩(如 K-Means 颜色量化)", "isCorrect": false, "rationale": "对图像进行像素压缩(如 K-Means 颜色量化)侧重的是另一个机制或层级：与材料中强调的「逻辑回归是监督学习分类算法」「其他均为无监督」不一致；解析核心是「逻辑回归是监督学习分类算法;其他均为无监督(聚类、降维、异常检测)。」，因此更合适的是 D（使用逻辑回归预测用户是否会点击广告）。" }, { "id": "class-06-q19-B", "text": "使用 t-SNE 将高维数据可视化到二维", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「逻辑回归是监督学习分类算法」「其他均为无监督」不一致；而 D 才覆盖「逻辑回归是监督学习分类算法;其他均为无监督(聚类、降维、异常检测)。」这层判断。" }, { "id": "class-06-q19-C", "text": "基于用户行为数据发现异常交易", "isCorrect": false, "rationale": "易混点往往在概念边界：此处基于用户行为数据发现异常交易会引入多余假设或跳过关键前提；请以「逻辑回归是监督学习分类算法;其他均为无监督(聚类、降维、异常检测)。」为轴对照 D。" }, { "id": "class-06-q19-D", "text": "使用逻辑回归预测用户是否会点击广告", "isCorrect": true, "rationale": "逻辑回归是监督学习分类算法;其他均为无监督(聚类、降维、异常检测)。请回到题干限定条件：把「外延更大的表述」或「跳跃的前提」逐项排除后再选。" } ], "sourceSnippet": "逻辑回归是监督学习分类算法;其他均为无监督(聚类、降维、异常检测)。" }, { "id": "class-06-q20", "number": 20, "kind": "single", "question": "关于回归模型的残差分析，下列说法正确的是( )", "hint": "良好回归模型的残差应随机分布、均值为零，与预测值不相关;正态分布是推断统计的要求，预测可以不严格依赖。", "options": [ { "id": "class-06-q20-A", "text": "残差应表现出明显的趋势性", "isCorrect": false, "rationale": "残差应表现出明显的趋势性侧重的是另一个机制或层级：与材料中强调的「关于回归模型的残差分析」「下列说法正确的是」不一致；解析核心是「良好回归模型的残差应随机分布、均值为零，与预测值不相关;正态分布是推断统计的要求，预测可以不严格依赖。」，因此更合适的是 B（残差与预测值应大致无关，且均值为零）。" }, { "id": "class-06-q20-B", "text": "残差与预测值应大致无关，且均值为零", "isCorrect": true, "rationale": "良好回归模型的残差应随机分布、均值为零，与预测值不相关;正态分布是推断统计的要求，预测可以不严格依赖。" }, { "id": "class-06-q20-C", "text": "残差越大说明模型越好", "isCorrect": false, "rationale": "易混点往往在概念边界：此处残差越大说明模型越好会引入多余假设或跳过关键前提；请以「良好回归模型的残差应随机分布、均值为零，与预测值不相关;正态分布是推断统计的要求，预测可以不严格依赖。」为轴对照 B。" }, { "id": "class-06-q20-D", "text": "残差必须服从正态分布，否则模型无效", "isCorrect": false, "rationale": "残差必须服从正态分布，否则模型无效更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「关于回归模型的残差分析」「下列说法正确的是」不一致。请以解析「良好回归模型的残差应随机分布、均值为零，与预测值不相关;正态分布是推断统计的要求，预测可以不严格依赖。」锁定 B。" } ], "sourceSnippet": "良好回归模型的残差应随机分布、均值为零，与预测值不相关;正态分布是推断统计的要求，预测可以不严格依赖。" }, { "id": "class-06-q21", "number": 21, "kind": "single", "question": "场景:数据科学家比较两个回归模型:模型 A 的 MSE = 25，模型 B 的 MSE = 36。已知测试集目标变量的标准差为 5。模型 A 的 RMSE 是多少?与目标变量标准差相比，模型 A 的预测误差大约是什么水平?", "hint": "RMSE = √MSE = √25 = 5，等于目标变量的标准差，说明预测误差的典型大小与数据本身的波动幅度相当。", "options": [ { "id": "class-06-q21-A", "text": "RMSE = 5，误差与标准差相同", "isCorrect": true, "rationale": "RMSE = √MSE = √25 = 5，等于目标变量的标准差，说明预测误差的典型大小与数据本身的波动幅度相当。" }, { "id": "class-06-q21-B", "text": "RMSE = 25，误差远大于标准差", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「数据科学家比较两个回归模型」「已知测试集目标变量的标准差为」不一致；而 A 才覆盖「RMSE = √MSE = √25 = 5，等于目标变量的标准差，说明预测误差的典型大小与数据本身的波动幅度相当。」这层判断。" }, { "id": "class-06-q21-C", "text": "RMSE = 6，误差略大于标准差", "isCorrect": false, "rationale": "易混点往往在概念边界：此处 RMSE = 6，误差略大于标准差会引入多余假设或跳过关键前提；请以「RMSE = √MSE = √25 = 5，等于目标变量的标准差，说明预测误差的典型大小与数据本身的波动幅度相当。」为轴对照 A。" }, { "id": "class-06-q21-D", "text": "RMSE = 0.2，误差远小于标准差", "isCorrect": false, "rationale": "RMSE = 0.2，误差远小于标准差更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「数据科学家比较两个回归模型」「已知测试集目标变量的标准差为」不一致。请以解析「RMSE = √MSE = √25 = 5，等于目标变量的标准差，说明预测误差的典型大小与数据本身的波动幅度相当。」锁定 A。" } ], "sourceSnippet": "RMSE = √MSE = √25 = 5，等于目标变量的标准差，说明预测误差的典型大小与数据本身的波动幅度相当。" }, { "id": "class-06-q22", "number": 22, "kind": "single", "question": "场景:某电商使用 K-Means 对用户聚类，选择 K 值时绘制了不同 K 对应的簇内平方和(WSS)曲线，发现在 K=4 之后曲线下降明显变缓。根据肘部法则，应选择的 K 值为( )", "hint": "肘部法选取曲线拐点处的 K，即下降速度由快变慢的转折点，这里 K=4 是肘部。", "options": [ { "id": "class-06-q22-A", "text": "2", "isCorrect": false, "rationale": "2侧重的是另一个机制或层级：与材料中强调的「某电商使用」「对用户聚类」不一致；解析核心是「肘部法选取曲线拐点处的 K，即下降速度由快变慢的转折点，这里 K=4 是肘部。」，因此更合适的是 C（4）。" }, { "id": "class-06-q22-B", "text": "3", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「某电商使用」「对用户聚类」不一致；而 C 才覆盖「肘部法选取曲线拐点处的 K，即下降速度由快变慢的转折点，这里 K=4 是肘部。」这层判断。" }, { "id": "class-06-q22-C", "text": "4", "isCorrect": true, "rationale": "肘部法选取曲线拐点处的 K，即下降速度由快变慢的转折点，这里 K=4 是肘部。" }, { "id": "class-06-q22-D", "text": "5", "isCorrect": false, "rationale": "5更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某电商使用」「对用户聚类」不一致。请以解析「肘部法选取曲线拐点处的 K，即下降速度由快变慢的转折点，这里 K=4 是肘部。」锁定 C。" } ], "sourceSnippet": "肘部法选取曲线拐点处的 K，即下降速度由快变慢的转折点，这里 K=4 是肘部。" }, { "id": "class-06-q23", "number": 23, "kind": "single", "question": "场景:某研究团队获得了 200 个样本、5000 个基因表达特征的数据，用于疾病分类。但直接使用分类算法计算量过大且容易过拟合。以下哪种无监督方法最适合作为预处理步骤?", "hint": "PCA 可以对高维数据进行降维，减少特征数量，同时保留主要信息，有利于后续分类任务。", "options": [ { "id": "class-06-q23-A", "text": "K-Means 聚类", "isCorrect": false, "rationale": "K-Means 聚类侧重的是另一个机制或层级：与材料中强调的「某研究团队获得了」「个样本」不一致；解析核心是「PCA 可以对高维数据进行降维，减少特征数量，同时保留主要信息，有利于后续分类任务。」，因此更合适的是 C（主成分分析(PCA)）。" }, { "id": "class-06-q23-B", "text": "DBSCAN", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「某研究团队获得了」「个样本」不一致；而 C 才覆盖「PCA 可以对高维数据进行降维，减少特征数量，同时保留主要信息，有利于后续分类任务。」这层判断。" }, { "id": "class-06-q23-C", "text": "主成分分析(PCA)", "isCorrect": true, "rationale": "PCA 可以对高维数据进行降维，减少特征数量，同时保留主要信息，有利于后续分类任务。" }, { "id": "class-06-q23-D", "text": "关联规则", "isCorrect": false, "rationale": "关联规则更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某研究团队获得了」「个样本」不一致。请以解析「PCA 可以对高维数据进行降维，减少特征数量，同时保留主要信息，有利于后续分类任务。」锁定 C。" } ], "sourceSnippet": "PCA 可以对高维数据进行降维，减少特征数量，同时保留主要信息，有利于后续分类任务。" }, { "id": "class-06-q24", "number": 24, "kind": "single", "question": "场景:数据科学家构建了一个多元线性回归模型来预测房价。模型在训练集上的 R² = 0.95，但在测试集上 R² = 0.62。该模型最可能出现的问题是( )", "hint": "训练集表现远好于测试集，是典型的过拟合现象，模型学习了训练数据中的噪声。", "options": [ { "id": "class-06-q24-A", "text": "欠拟合", "isCorrect": false, "rationale": "欠拟合侧重的是另一个机制或层级：与材料中强调的「数据科学家构建了一个多元线性回归模型来预测房价」「模型在训练集上的」不一致；解析核心是「训练集表现远好于测试集，是典型的过拟合现象，模型学习了训练数据中的噪声。」，因此更合适的是 B（过拟合）。" }, { "id": "class-06-q24-B", "text": "过拟合", "isCorrect": true, "rationale": "训练集表现远好于测试集，是典型的过拟合现象，模型学习了训练数据中的噪声。" }, { "id": "class-06-q24-C", "text": "多重共线性", "isCorrect": false, "rationale": "易混点往往在概念边界：此处多重共线性会引入多余假设或跳过关键前提；请以「训练集表现远好于测试集，是典型的过拟合现象，模型学习了训练数据中的噪声。」为轴对照 B。" }, { "id": "class-06-q24-D", "text": "异方差", "isCorrect": false, "rationale": "异方差更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「数据科学家构建了一个多元线性回归模型来预测房价」「模型在训练集上的」不一致。请以解析「训练集表现远好于测试集，是典型的过拟合现象，模型学习了训练数据中的噪声。」锁定 B。" } ], "sourceSnippet": "训练集表现远好于测试集，是典型的过拟合现象，模型学习了训练数据中的噪声。" }, { "id": "class-06-q25", "number": 25, "kind": "single", "question": "场景:某电商平台拥有大量用户的浏览记录、购买记录，但没有任何用户的群体标签。市场部门希望将用户划分为若干群体，以便推送不同的营销活动。该场景最适合采用以下哪种方法?", "hint": "无标签的用户分群属于无监督学习中的聚类任务，K-Means 是常用算法;回归和分类均需要标签。", "options": [ { "id": "class-06-q25-A", "text": "线性回归", "isCorrect": false, "rationale": "线性回归侧重的是另一个机制或层级：与材料中强调的「某电商平台拥有大量用户的浏览记录」「购买记录」不一致；解析核心是「无标签的用户分群属于无监督学习中的聚类任务，K-Means 是常用算法;回归和分类均需要标签。」，因此更合适的是 C（K-Means 聚类）。" }, { "id": "class-06-q25-B", "text": "逻辑回归", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「某电商平台拥有大量用户的浏览记录」「购买记录」不一致；而 C 才覆盖「无标签的用户分群属于无监督学习中的聚类任务，K-Means 是常用算法;回归和分类均需要标签。」这层判断。" }, { "id": "class-06-q25-C", "text": "K-Means 聚类", "isCorrect": true, "rationale": "无标签的用户分群属于无监督学习中的聚类任务，K-Means 是常用算法;回归和分类均需要标签。" }, { "id": "class-06-q25-D", "text": "决策树分类", "isCorrect": false, "rationale": "决策树分类更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「某电商平台拥有大量用户的浏览记录」「购买记录」不一致。请以解析「无标签的用户分群属于无监督学习中的聚类任务，K-Means 是常用算法;回归和分类均需要标签。」锁定 C。" } ], "sourceSnippet": "无标签的用户分群属于无监督学习中的聚类任务，K-Means 是常用算法;回归和分类均需要标签。" }, { "id": "class-06-q26", "number": 26, "kind": "multi", "question": "下列哪些属于无监督学习的典型应用场景?", "hint": "A 聚类，B 降维，D 异常检测(无监督);C 是回归预测，属于监督学习。", "options": [ { "id": "class-06-q26-A", "text": "根据用户购买记录对用户进行分群", "isCorrect": true, "rationale": "A 聚类，B 降维，D 异常检测(无监督);C 是回归预测，属于监督学习。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q26-B", "text": "对高维基因数据进行降维以便可视化", "isCorrect": true, "rationale": "A 聚类，B 降维，D 异常检测(无监督);C 是回归预测，属于监督学习。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q26-C", "text": "根据历史销售数据预测未来销量", "isCorrect": false, "rationale": "易混点往往在概念边界：此处根据历史销售数据预测未来销量会引入多余假设或跳过关键前提；请以「A 聚类，B 降维，D 异常检测(无监督);C 是回归预测，属于监督学习。」为轴对照 ABD。" }, { "id": "class-06-q26-D", "text": "在交易记录中发现异常转账行为", "isCorrect": true, "rationale": "A 聚类，B 降维，D 异常检测(无监督);C 是回归预测，属于监督学习。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" } ], "sourceSnippet": "A 聚类，B 降维，D 异常检测(无监督);C 是回归预测，属于监督学习。" }, { "id": "class-06-q27", "number": 27, "kind": "multi", "question": "以下哪些指标可用于评估回归模型的性能?", "hint": "RMSE、MAPE 是回归评估指标;轮廓系数和兰德指数是聚类评估指标。", "options": [ { "id": "class-06-q27-A", "text": "均方根误差(RMSE)", "isCorrect": true, "rationale": "RMSE、MAPE 是回归评估指标;轮廓系数和兰德指数是聚类评估指标。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q27-B", "text": "轮廓系数", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「是回归评估指标」「轮廓系数和兰德指数是聚类评估指标」不一致；而 AC 才覆盖「RMSE、MAPE 是回归评估指标;轮廓系数和兰德指数是聚类评估指标。」这层判断。" }, { "id": "class-06-q27-C", "text": "平均绝对百分比误差(MAPE)", "isCorrect": true, "rationale": "RMSE、MAPE 是回归评估指标;轮廓系数和兰德指数是聚类评估指标。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q27-D", "text": "兰德指数", "isCorrect": false, "rationale": "兰德指数更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「是回归评估指标」「轮廓系数和兰德指数是聚类评估指标」不一致。请以解析「RMSE、MAPE 是回归评估指标;轮廓系数和兰德指数是聚类评估指标。」锁定 AC。" } ], "sourceSnippet": "RMSE、MAPE 是回归评估指标;轮廓系数和兰德指数是聚类评估指标。" }, { "id": "class-06-q28", "number": 28, "kind": "multi", "question": "关于 K-Means 算法，下列说法正确的有( )", "hint": "K-Means 假设球形簇，难以处理非凸形状;对初始中心、噪声敏感;需预设 K。", "options": [ { "id": "class-06-q28-A", "text": "需要预先指定 K 值", "isCorrect": true, "rationale": "K-Means 假设球形簇，难以处理非凸形状;对初始中心、噪声敏感;需预设 K。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q28-B", "text": "对初始中心点敏感", "isCorrect": true, "rationale": "K-Means 假设球形簇，难以处理非凸形状;对初始中心、噪声敏感;需预设 K。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q28-C", "text": "能有效处理任意形状的簇", "isCorrect": false, "rationale": "易混点往往在概念边界：此处能有效处理任意形状的簇会引入多余假设或跳过关键前提；请以「K-Means 假设球形簇，难以处理非凸形状;对初始中心、噪声敏感;需预设 K。」为轴对照 ABD。" }, { "id": "class-06-q28-D", "text": "对噪声和离群点较敏感", "isCorrect": true, "rationale": "K-Means 假设球形簇，难以处理非凸形状;对初始中心、噪声敏感;需预设 K。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" } ], "sourceSnippet": "K-Means 假设球形簇，难以处理非凸形状;对初始中心、噪声敏感;需预设 K。" }, { "id": "class-06-q29", "number": 29, "kind": "multi", "question": "在无监督学习中，降维的主要目的包括( )", "hint": "降维可压缩数据、去噪、加速后续学习，但不能保证完全线性可分(PCA 是线性变换，可能损失非线性结构)。", "options": [ { "id": "class-06-q29-A", "text": "减少数据存储空间和计算开销", "isCorrect": true, "rationale": "降维可压缩数据、去噪、加速后续学习，但不能保证完全线性可分(PCA 是线性变换，可能损失非线性结构)。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q29-B", "text": "去除噪声和冗余特征", "isCorrect": true, "rationale": "降维可压缩数据、去噪、加速后续学习，但不能保证完全线性可分(PCA 是线性变换，可能损失非线性结构)。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q29-C", "text": "提高监督学习算法的准确率(作为预处理)", "isCorrect": true, "rationale": "降维可压缩数据、去噪、加速后续学习，但不能保证完全线性可分(PCA 是线性变换，可能损失非线性结构)。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q29-D", "text": "使得数据完全线性可分", "isCorrect": false, "rationale": "使得数据完全线性可分更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「在无监督学习中」「降维的主要目的包括」不一致。请以解析「降维可压缩数据、去噪、加速后续学习，但不能保证完全线性可分(PCA 是线性变换，可能损失非线性结构)。」锁定 ABC。" } ], "sourceSnippet": "降维可压缩数据、去噪、加速后续学习，但不能保证完全线性可分(PCA 是线性变换，可能损失非线性结构)。" }, { "id": "class-06-q30", "number": 30, "kind": "multi", "question": "关于回归模型选择中的交叉验证，以下说法正确的有( )", "hint": "交叉验证通常增加计算时间(因为需多次训练)，故 C 错误;其他正确。", "options": [ { "id": "class-06-q30-A", "text": "K 折交叉验证能有效利用有限数据评估泛化性能", "isCorrect": true, "rationale": "交叉验证通常增加计算时间(因为需多次训练)，故 C 错误;其他正确。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q30-B", "text": "留一法(LOO)是 K 折的特例，K 等于样本数", "isCorrect": true, "rationale": "交叉验证通常增加计算时间(因为需多次训练)，故 C 错误;其他正确。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q30-C", "text": "交叉验证一定会降低模型训练时间", "isCorrect": false, "rationale": "易混点往往在概念边界：此处交叉验证一定会降低模型训练时间会引入多余假设或跳过关键前提；请以「交叉验证通常增加计算时间(因为需多次训练)，故 C 错误;其他正确。」为轴对照 ABD。" }, { "id": "class-06-q30-D", "text": "交叉验证可以用于超参数调优", "isCorrect": true, "rationale": "交叉验证通常增加计算时间(因为需多次训练)，故 C 错误;其他正确。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" } ], "sourceSnippet": "交叉验证通常增加计算时间(因为需多次训练)，故 C 错误;其他正确。" }, { "id": "class-06-q31", "number": 31, "kind": "multi", "question": "评估无监督聚类结果时，常用的内部指标有( )", "hint": "轮廓系数和戴维森-堡丁指数无需真实标签(内部指标);调整兰德指数和互信息需要真实标签(外部指标)。", "options": [ { "id": "class-06-q31-A", "text": "轮廓系数", "isCorrect": true, "rationale": "轮廓系数和戴维森-堡丁指数无需真实标签(内部指标);调整兰德指数和互信息需要真实标签(外部指标)。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q31-B", "text": "调整兰德指数", "isCorrect": false, "rationale": "从选项 B 的文面看不出与解析链条的一一对应：与材料中强调的「评估无监督聚类结果时」「常用的内部指标有」不一致；而 AC 才覆盖「轮廓系数和戴维森-堡丁指数无需真实标签(内部指标);调整兰德指数和互信息需要真实标签(外部指标)。」这层判断。" }, { "id": "class-06-q31-C", "text": "戴维森-堡丁指数", "isCorrect": true, "rationale": "轮廓系数和戴维森-堡丁指数无需真实标签(内部指标);调整兰德指数和互信息需要真实标签(外部指标)。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q31-D", "text": "互信息(需真实标签时为外部指标)", "isCorrect": false, "rationale": "互信息(需真实标签时为外部指标)更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「评估无监督聚类结果时」「常用的内部指标有」不一致。请以解析「轮廓系数和戴维森-堡丁指数无需真实标签(内部指标);调整兰德指数和互信息需要真实标签(外部指标)。」锁定 AC。" } ], "sourceSnippet": "轮廓系数和戴维森-堡丁指数无需真实标签(内部指标);调整兰德指数和互信息需要真实标签(外部指标)。" }, { "id": "class-06-q32", "number": 32, "kind": "multi", "question": "下列哪些属于无监督学习中的关联规则评价指标?", "hint": "关联规则常用支持度、置信度、提升度等;准确率是分类指标。", "options": [ { "id": "class-06-q32-A", "text": "支持度", "isCorrect": true, "rationale": "关联规则常用支持度、置信度、提升度等;准确率是分类指标。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q32-B", "text": "置信度", "isCorrect": true, "rationale": "关联规则常用支持度、置信度、提升度等;准确率是分类指标。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q32-C", "text": "提升度", "isCorrect": true, "rationale": "关联规则常用支持度、置信度、提升度等;准确率是分类指标。（多选题：本题所有必须入选的表述见正确标记；你已选对该项则说明与解析一致。）" }, { "id": "class-06-q32-D", "text": "准确率", "isCorrect": false, "rationale": "准确率更像干扰项的常见套路（扩大/偷换适用范围）；与材料中强调的「下列哪些属于无监督学习中的关联规则评价指标」「关联规则常用支持度」不一致。请以解析「关联规则常用支持度、置信度、提升度等;准确率是分类指标。」锁定 ABC。" } ], "sourceSnippet": "关联规则常用支持度、置信度、提升度等;准确率是分类指标。" } ] }