SPEF · 论证结构图

§1.1 · 起点

为什么优化 Agent 工作流很困难？

缺乏独立于操作者主观判断的验收标准

↳ 建立问题：最危险的错误全程亮绿灯，从不触发任何自动报警

▼

导致

§1.1 · 放大机制

三盲区叠加

三个独立的认知失灵机制同时运转，且相互叠加加剧

① 显著性 ≠ 风险

注意力扑向"看起来可疑"之处，最致命故障全程亮绿灯（salience bias / WYSIATI）

② 检查无回声

"检查后未发现问题"与"确实无问题"体验上无法区分，永远收不到"你看漏了"的信号

③ 勤奋本身在加害

前两条叠加：在低风险显眼处耗尽带宽，因"已尽责"获得虚假安心

▼

共同构成

§1.2 · 全文轴心 KEY

核心困境：自指

测量者（操作者的判断）= 被测量者（操作者）→ 当下任何自我评估在原理上不可信

↳ 后文一切论证的轴心。推论：终止条件也过这道门，须预承诺（→ §5.4 kill-switch）

§3 · 分三路并联形式论证，§3.4 汇合

线A · 结构性（控制论）

§3.1 · 线A-1

Scan 层失真

最致命错误埋在对任务现实的建模失真中

↳ 定位问题在哪一层；编译/测试守不住语义层的失真

▼

§3.1 · 线A-2

ker H + Conant-Ashby

失真落在不可观子空间 → 收不到误差信号 → 不可纠正

↳ 用控制论形式化"为何自动守门员看不见"

x ∈ ker H => 无误差信号，不可纠正 Conant-Ashby: 模型错 => 调控注定坏 (无论Plan/Execute多正确)

▼

§3.1 · 线A-3 KEY

P1（硬）+ P2（软）

两步硬度不同，不可混同

↳ 建立"为什么必须有人"的结构性论证

P1（条件硬，绑L1+L2+M1+M2）: 必然存在不可由自动守门员闭合的环 P2（软，叠E2，带"当前"）: 当前只能由人闭合 ← 可被新传感器证伪

线B · 运行性（认知科学）

§3.2 · 线B-1

人作为传感器：增益衰减

vigilance decrement（非 ego depletion，后者已翻车）

↳ 说明人闭此环也会失效；橡皮图章：名义闭合，实质开环

g(负荷) → 0 => 名义闭合，实质开环误差仍在产生，却被乘以趋近零的增益

▼

§3.2 · 线B-2

公式 L：押注质量度量

我想测的不是你押中了几次，而是：你分配的带宽有没有真的集中在高风险处

↳ 形式化"如何分配有限带宽"；取比值而非差值

L = R_L / φ R_L = 真实风险覆盖占比 φ = 主观估计押注覆盖率 L > 1 押对（风险占比跑赢覆盖占比） L ≈ 1 橡皮图章（含昂贵均摊） L < 1 显著性陷阱 L 只能按区制读，不能线性比大小

▼

§3.2 · 线B-3

L<1 是引力吸引子

高风险节点外观恰恰低显著性——salience bias 的形式化后果

↳ "更努力"解决不了问题；L 本质是分辨力（resolution）度量

线C · 认识论（认知科学）

§3.3 · 线C-1

主体看不见自己的偏差

bias blind spot：能识别他人偏差，却系统性地低估自身的

↳ 封死"内省自查"这条出路；主体看不见自己落入 L<1 吸引子

▼

§3.3 · 线C-2

自校准在原理上不可能

Nelson-Narens：monitoring 与 control 是同一主体，零量程差

↳ 问题从控制论能观框架重新归属为元认知问题（§4）

▼

§3.3 · 线C-3 KEY

唯一的外环：时间上未来的自己

后者已知何处出事，且不被此刻显著性偏置绑架

↳ 推出"信号必须在判断当下捕获"——不能事后补写

hindsight bias（事后重构为"早知道"） + 记忆为重建而非读取（快速衰减） => 信号必须在判断当下捕获事后补写 = 无效

▼

§3.4 · 三线汇合

§3.4 · 三线要求的交集

A：必须有人参与 · B：押注不均摊 · C：当下捕获

三条线的推论精确规定了"闭合该环"的动作须满足的约束

↳ 说明五秒赌注不是随意设计，而是三线汇合的必然

▼

落地为

§3.5 · 元认知支架 KEY

五秒赌注

"我赌此处无误，因为___"（时间戳锁定，看到结果前落盘）

↳ 三线要求的操作化落地；其价值来自两条可独立成立的通道，承重不同、抗腐蚀性不同

两条独立价值通道 — 承重不同，抗腐蚀性不同

通道一 · Brier / Tetlock 成分

预测—结算

有效性只依赖赌注的存在性与可证伪性，不依赖"因为"是否为真实原因

↳ 无论 confabulation 多严重，此通道完好 ✓；被现实结算，confabulation 腐蚀不到

通道二 · self-explanation

写"因为"暴露裂缝

被迫外化心智模型，在看见结果前暴露其裂缝；要求外化理由确与真实模型相关

↳ confabulation 的精确攻击面 ✗；真价值在扩大可证伪面，不在抗 confabulation

▼

操作化为

§2 + §5 · 操作层

§2

SPEF 四阶段

S→P→E→F 职能切分，非时序串行；F 必须有人参与

↳ 使工作可拆解、可定位、出错可溯源；S/P 交织处是双高节点（高耦合+高不可观）

§5.1

死/活量分床

死量：时间戳、commit（零判断，自动记录）；活量：赌注+自信度（承重 E5）；开工前三项同时冻结

↳ 把"算不算出错"的裁判权从当下自评中剥离；赌注须在揭晓前时间戳提交

§5.3

防退化镜

删失感知，单向使用，只显示"未退化"，极少显示"已进步"

↳ 须补分辨力第二轴（L 是入口）；扣难度漂移；不得反喂动机（删失信号不可正强化）

§5.4

Kill-switch

预承诺，开工前冻结，到期机械执行，不容当下重议

↳ 自指推论的直接后果：终止条件不能交给当下的主体判；一个诚实的方法论包含自我终止条件

▼

但须承认

§6 · 局限与不可证明的残洞

§6 · R1

诚实的递归无底

检验诚实需要比受检者更诚实的视角，无穷递归

↳ 缓解：凡能接客观痕迹处尽量替换；不可缓解剩余承重于 E5；声明为不可证明

§6 · R2 KEY

Confabulation（在 R1 之下，更深）

真诚但错误的自我归因——内省通道本身不可靠（Nisbett-Wilson）；诚实不充分

↳ 精确边界：只腐蚀通道二，通道一完好 → 优雅降级为纯预测打分器，仍然有效

▼

因此

§7-8 · 结论

证成的是条件命题

"若经验前提为真 → 效率提升" ≠ "效率提升"　逻辑自洽是被设计来通过的矮门，不检验任何经验前提

↳ 最大实际风险：纪律流失，不是逻辑错误。上审判席的，是人，不是逻辑

"它不消除人类幻觉，它给幻觉装一份迟到、但赖不掉的账单。" 让每一次自欺都更贵、更难、更易被未来的现实当场戳穿

线A 控制论·结构性（ker H, Conant-Ashby）

线B 认知科学·运行性（vigilance decrement, 公式L）

线C 认知科学·认识论（metacognition, hindsight bias）

汇合/推论/五秒赌注

操作层（SPEF, 验证协议, 防退化镜, kill-switch）

局限/残洞（R1 诚实递归, R2 confabulation）

结论（条件命题）