MathOS - Evaluation System

01 — Cognitive

认知思维复杂度（SOLO分类理论）

add

认知思维复杂度是评价试题难度的首要维度，它衡量的是学生在解决问题时大脑必须进行的思维活动的深度。在大学数学评价中，SOLO分类理论（Structure of the Observed Learning Outcome，可观察的学习成果结构）比传统的Bloom分类法更为适用，因为它直接关注学生回答问题的结构层次。

1.1 等级划分与定义

本维度将认知复杂度划分为五个等级。

等级代码	等级名称	英文名称	核心定义	评分权重
C1	前结构	Prestructural	学生无法通过逻辑解决问题，仅凭猜测或无关信息。通常在命题中作为干扰项或极易题存在。	0-0.1
C2	单点结构	Unistructural	问题仅涉及单一概念或步骤，解题路径唯一且直接。关注点单一。	0.2-0.4
C3	多点结构	Multistructural	问题涉及多个概念或步骤，但这些元素之间是平行或序列关系，无需整合。学生只需“照单全收”地罗列步骤。	0.5-0.6
C4	关联结构	Relational	问题要求整合多个概念，理解其内在联系。学生必须将分散的知识点串联成一个整体结构，进行比较、解释或因果分析。	0.7-0.8
C5	拓展抽象结构	Extended Abstract	问题要求将知识概括化、抽象化，运用到从未见过的新情境中，或进行理论证明与探究。涉及假设、反思与创造。	0.9-1.0

1.2 在“三基”课程中的具体表现与实例

1.2.1 高等数学的认知层级

C2（单点）： 求 \( y=x^2 \) 在 \( x=1 \) 处的导数。仅需调取导数定义或公式这一单一知识点。
C3（多点）： 计算定积分 \( \int_{0}^{1} (x^2 + e^x) dx \)。学生需分别对 \( x^2 \) 和 \( e^x \) 积分，然后代入上下限。步骤虽多，但互不干扰。
C4（关联）： 判别级数 \( \sum_{n=1}^{\infty} \ln(1 + \frac{1}{n}) \) 的敛散性。学生需理解对数性质，将其转化为 telescoping series（裂项相消），或通过比较判别法建立与调和级数的联系。这需要整合“级数”、“对数”、“极限”等多个概念及其关系。
C5（拓展）： 证明：若函数 \( f(x) \) 在 \( [a, b] \) 上连续且 \( \int_{a}^{b} f(x)g(x)dx = 0 \) 对任意连续函数 \( g(x) \) 成立，则 \( f(x) \equiv 0 \)。此题要求学生构造特殊的 \( g(x) \) （如 \( g(x)=f(x) \)），属于理论构建与抽象概括。

1.2.2 线性代数的认知层级

C2（单点）： 计算二阶行列式 \( \begin{vmatrix} 1 & 2 \\ 3 & 4 \end{vmatrix} \)。
C3（多点）： 已知矩阵 \( A \) 和 \( B \)，计算 \( 3A^T - 2B \)。涉及转置、数乘、减法三个独立操作。
C4（关联）： 判定向量组 \( \alpha_1, \alpha_2, \alpha_3 \) 的线性相关性。学生需构建齐次线性方程组，将其转化为矩阵秩的问题，理解“方程组有非零解”与“线性相关”的逻辑等价性。
C5（拓展）： 证明 \( n \) 阶实对称矩阵一定可以对角化，或探讨在复数域与实数域下特征值分解的差异。这涉及对线性空间本质属性的深刻理解和推广。

1.2.3 概率论与数理统计的认知层级

C2（单点）： 掷一枚硬币，求正面向上的概率。
C3（多点）： 已知随机变量 \( X \) 服从 \( N(0, 1) \)，求 \( P(-1 < X < 2) \)。需查表两次并做减法。
C4（关联）： 贝叶斯公式的应用。例如“某病发病率为0.1%，检测误报率为5%，求检测阳性时确诊的概率”。学生需区分先验概率与后验概率，整合全概率公式，理清条件与结果的逆向关系。
C5（拓展）： 依据中心极限定理，推导某二项分布在 \( n \to \infty \) 时的渐近性质，或构建一个新的统计量并证明其无偏性。

02 — Synthesis

知识点综合度（覆盖广度与跨度）

add

此维度衡量试题所覆盖的知识点数量以及这些知识点在学科体系中的“距离”。根据知识图谱理论，知识点之间的距离越远（如跨章节、跨学科），综合难度越大。

本维度划分为四个等级。

2.1 等级划分与定义

等级 K1：单一知识点 (Single-Point)
定义：试题仅考查一个核心定义、定理或公式，几乎不涉及其他前置复杂知识。
特征：题目短小，通常作为选择题或填空题出现。
实例：“写出正态分布的概率密度函数公式”。
等级 K2：单元内综合 (Intra-Unit Synthesis)
定义：试题考查同一章节或同一主题下的多个知识点。
特征：知识点之间联系紧密，属于同一逻辑链条。
实例：在“导数应用”一章中，求函数的极值。涉及：求导、驻点定义、二阶导数判别法（或单调性判别）。这些知识点均属于微分学内部。
等级 K3：跨单元综合 (Inter-Unit Synthesis)
定义：试题跨越了教材的不同章节，要求学生建立长距离的知识连接。这是大学期末考试大题的主流难度。
特征：需要调动长期记忆，将前期基础与后期应用结合。
实例：
- 高数：利用定积分计算微分方程的特解（积分学+微分方程）。
- 线代：利用特征值理论求解微分方程组（矩阵理论+微分方程接口）。
- 概率：计算随机变量函数的分布，其中涉及复杂的二重积分运算（概率分布+多元微积分）。
等级 K4：跨学科/全书综合 (Cross-Disciplinary / Comprehensive)
定义：试题不仅跨越章节，甚至涉及不同数学分支的融合，或者考查整个学科的宏观性质。
特征：综合性极强，常见于考研数学或竞赛题。
实例：
- 结合线性代数的二次型理论来解决多元函数的极值问题（Hessian矩阵的正定性）。
- 在概率论中，利用格林公式或斯托克斯公式处理与随机游走相关的几何概率问题。

2.2 维度分析：知识跨度对难度的非线性贡献

研究表明，从K2到K3的难度跨越往往大于从K1到K2。例如，在线性代数中，许多学生能熟练计算行列式（K1/K2），也能熟练解方程组（K2），但一旦题目要求“根据方程组解的情况讨论参数 \( a \) 的取值，进而求出此时矩阵的特征值”（K3），难度会陡增。这是因为学生大脑中的知识存储往往是分块的（Chunking），K3级题目强迫学生打破块与块之间的壁垒，增加了认知负荷。

03 — Complexity

运算与算法复杂度（计算量与易错性）

add

数学不仅是思维的体操，也是计算的技艺。在大学数学评价中，计算量（Computational Load）是决定试题难度，特别是决定考试时间压力的关键因素。

本维度关注解题过程中的步骤数量、运算类型及符号处理的繁琐程度，划分为四个等级。

3.1 等级划分与定义

等级	名称	特征描述	典型步数	错误风险
Op1	直观/口算	几乎无需笔算，凭直觉或简单心算即可得出结果。	0-1步	极低
Op2	常规算法	标准化流程，步骤固定，数据简单（整数或简单分数）。	2-5步	低
Op3	繁琐计算	步骤较多，涉及多项式展开、分部积分多次、或处理带参数的运算。	6-10步	中高
Op4	高复杂/符号化	涉及大量符号运算而非具体数字；或算法极其敏感，一步错步步错（如大矩阵求逆）；或需进行复杂的分类讨论。	>10步	极高

3.2 三门学科的运算难度特征分析

3.2.1 高等数学：技巧与耐心的考验

高等数学的Op4级难度通常体现在不定积分和微分方程中。

实例： 计算 \( \int e^{ax} \cos(bx) dx \)。这需要两次分部积分，且通过“回代”解方程的方法得出结果。过程中极易出现符号错误、系数丢失。

相比之下，\( \int x^2 dx \) 属于Op2。

维度交叉： 高数中的“计算难”往往伴随着技巧性（如添加辅助项、三角代换），这实际上也增加了认知维度（SOLO）的难度。

3.2.2 线性代数：程序的严谨性

线性代数的Op4级难度通常体现在施密特正交化和含参矩阵的秩讨论。

实例： 对 \( \mathbb{R}^4 \) 中的三个线性无关向量进行施密特正交化，且向量分量包含分数。

算法本身是固定的（SOLO层级可能仅为C3），但计算过程中涉及大量的分数加减乘除和平方根运算。只要第一个向量正交化算错，后续所有结果全错。这种“雪崩效应”是线性代数计算难度的核心。

3.2.3 概率论：模型转化的计算

概率论的Op4级难度常出现在连续型随机变量的卷积公式应用中。

实例： 设 \( X, Y \) 服从不同的指数分布，求 \( Z = X + Y \) 的概率密度。

需设定积分区间，讨论 \( z \) 的取值范围（\( z < 0 \) 与 \( z \ge 0 \)）。积分过程本身可能不难（指数函数积分），但确定积分限（Limits of Integration）的几何逻辑极其繁琐，极易出错。

04 — Abstraction

抽象与推理层级（Bloom修订版分类）

add

此维度侧重于试题对逻辑推理能力的具体要求，即学生是需要“算出答案”还是“论证真理”。这与Bloom分类法中的分析（Analyze）、评价（Evaluate）和创造（Create）密切相关。

本维度划分为四个等级，主要用于区分应用型人才与研究型人才的选拔。

4.1 等级划分与定义

等级 A1：机械模仿 (Reproductive)
定义：试题是教材例题的简单变体（Isomorphic）。学生只需识别题型，套用记忆中的模板。
关键词：“计算”、“求值”。
难度贡献：主要依赖记忆力。
等级 A2：适应性迁移 (Adaptive)
定义：试题情境发生了变化，标准模板不能直接套用，学生需要对方法进行微调。
关键词：“求解”、“确定”。
实例：教材上教的是求 \( y=f(x) \) 的切线，考题是求参数方程 \( \begin{cases} x=t^2 \\ y=t^3 \end{cases} \) 在 \( t=1 \) 处的法线。方法本质相同，但需适应参数形式。
等级 A3：逆向分析 (Reverse Analytical)
定义：已知结果求条件，或分析性质。这种推理方向与常规思维相反，难度显著增加。
关键词：“分析”、“推断”。
实例：
- 线代：已知矩阵 \( A \) 的伴随矩阵 \( A^* \) 的特征值为 \( \lambda_i \)，反求 \( A \) 的行列式。
- 概率：已知某随机变量的方差为定值，求参数 \( \theta \) 的最大似然估计。
等级 A4：抽象证明 (Abstract Constructive Proof)
定义：纯逻辑推演，不涉及具体数字。要求思维极其严密，构建从公理到结论的完整证据链。
关键词：“证明”、“说明理由”。
实例：“证明：若事件序列 \( \{A_n\} \) 相互独立，且 \( \sum P(A_n) = \infty \)，则 \( P(\limsup A_n) = 1 \)（波莱尔-坎泰利引理第二部分）”。这是数学专业的高难度试题，对于工科学生通常通过简化形式考察。

4.2 抽象度在不同学科的权重

线性代数 是A4级难度的重灾区。很多学生觉得线代难，正是因为其大量题目属于“证明题”（如证明子空间的交集仍为子空间）。

高等数学 的A4级难度主要集中在极限定义（\( \epsilon - N \) 语言）和中值定理的证明（构造辅助函数）。

概率论 的A4级相对较少，更多侧重于A2和A3的应用分析。

05 — Contextual

信息表征与情境创新（Linguistic & Contextual）

add

随着新课标和应用型大学建设的推进，试题的“包装”即情境化程度成为影响难度的重要变量。这一维度衡量题目信息的呈现方式、阅读量以及新颖程度。

本维度划分为三个等级。

5.1 等级划分与定义

等级 L1：纯数学表征 (Routine / Symbolic)
描述：题目完全使用数学符号语言，无任何背景故事。
难度影响：学生无需进行“翻译”，只需关注数学操作。这是传统考试的主流。
例题：“解方程 \( x^2 - 2x + 1 = 0 \)。”
等级 L2：标准化应用情境 (Standard Application)
描述：题目嵌入了经典的物理、经济或几何背景，但这种背景是学生熟悉的，模型转化过程几乎是自动化的。
例题：“一物体做自由落体运动，求其在 \( t=3 \) 时的瞬时速度。”（背景是物理，但数学模型 \( v=gt \) 极其熟练）。
概率论特例：概率论试题大多处于L2级，如“工厂生产零件，次品率为...”这类题目虽然有文本，但属于标准化范式。
等级 L3：非典型/创新情境 (Non-Routine / Novelty)
描述：
- 新定义型：题目中定义了一个新的运算符号或概念（如“定义矩阵的克罗内克积 \( \otimes \) 如下...”），学生必须现学现卖。
- 复杂现实情境：题目描述了一个冗长的实际问题（如金融风控、生物种群繁衍），包含干扰信息，学生需自行提炼变量，构建模型。
难度影响：极大地考验学生的阅读理解能力、信息筛选能力和心理素质。这是考研压轴题和数学建模竞赛的典型特征。
语义向量分析：利用大语言模型分析题干的语义向量，L3级题目的语义与标准教材内容的余弦相似度较低，表明其“新颖性”高。