第二篇 · AI 与计算工具箱（去黑箱）

本篇怎么学 · The Spine

从「工具目录」到「会读会判断」

很多人学 AI 工具，最后只会背名词：知道 GNN「吃」分子图、知道 pLDDT 是置信度、知道 time-split 比随机切分严格。但合上讲义，面对一份真实输出，依然不知道该信几分、该怎么办。这一篇不这么教。

我们把第二篇的每个模块都重新对准一个你要会做的动作，而不是一个要记住的术语。并且，五个模块共用同一个真实分子胶案例，让抽象的原理始终落在一个具体对象上，也让这一篇自然地接上第四篇的「设计-验证」主线。

贯穿全篇的案例：CK1α 的「分子胶降解」

来曲米度（lenalidomide）这类 IMiD 药物，本身不直接抑制靶点，而是充当分子胶——把人体的 E3 连接酶 CRBN 和原本毫不相干的靶蛋白 CK1α 粘在一起，诱导出一个自然界不存在的界面，把 CK1α 标记降解。这套体系有公开晶体结构（PDB 5FQD），是分子胶领域最经典、研究最透的「教科书级」案例。

我们会反复用它问同一组问题：要建模这个三元复合物，该用什么表示（M2.1）？该用什么模型、什么时候叫物理方法（M2.2）？模型吐出的结构置信度能信吗（M2.3）？如果要 AI 生成一个新分子胶，产物意味着什么（M2.4）？最后，怎么批判性地识破一份夸大的宣传（M2.5）？

分子胶 · Lenalidomide E3 · CRBN 靶点 · CK1α PDB 5FQD

为什么这一篇值得认真学

第三篇会告诉你「数据是真正的瓶颈」，第四篇会带你跑完「分子-蛋白-验证」的 5 问主线。第二篇是它们之间的翻译器与照妖镜：没有它，你看不懂第四篇里模型给的每一个数字，也分不清第三篇所说的「数据陷阱」具体长什么样。这一篇练的不是知识，是研发判断力。

五个模块，五个你将能做的动作

模块	不再是「认识……」，而是「你将能……」	当场练的决策
M2.1	为一个分子胶任务选对分子/蛋白表示，并说出每种表示的代价	给定 CK1α 任务，挑表示并辩护
M2.2	为任务选对模型家族，并判断何时该叫物理方法（对接/MD/FEP）来兜底	GPU 有限，AI 与物理如何分工
M2.3	读懂一份置信度报告（pLDDT/PAE/ipTM），识破「高置信≠正确」	读一张 PAE 热图，决定信不信界面
M2.4	读懂生成式设计的产物：一个生成的分子在向你承诺什么、又没承诺什么	看一条帕累托前沿，挑候选分子
M2.5	用一份失败模式清单，当场拆穿一段「AI 设计药物」的宣传	逐句标注：真本事 vs 话术

M2.1 · 选对表示

选对表示：垃圾的表示，再强的模型也救不回来

✓

学完你将能：给定一个分子胶任务，挑出合适的分子/蛋白表示，并当场说出这个选择「赢在哪、又付出了什么代价」。

学习目标

理解比较分子的四种表示（SMILES / 分子图 / 3D 构象 / 指纹），说清「表示决定模型上限」是什么意思。
理解说明蛋白的序列 / 结构 / 表面（surface）三类表示，以及蛋白语言模型（如 ESM）把进化信息压成嵌入向量。
分析指出分子胶特有的表示难点：要同时表示「小分子 + 两个蛋白 + 被诱导出来的界面」这一复合对象。

核心直觉：模型只能看见你喂给它的「视角」

模型从不直接看分子，它看的是分子的某种数字化身（表示）。同一个 CK1α–lenalidomide–CRBN 复合物，可以有完全不同的「数字身份证」，而每一种身份证都主动丢掉了一部分信息。你选哪种表示，就等于提前决定了模型「能想到什么、想不到什么」。

分子的四种表示，逐一看代价

表示	是什么	赢在哪	代价
SMILES	把分子写成一串字符	紧凑、好存、是语言模型的食材	丢掉 3D；同一分子可有多种写法
分子图 Graph	原子=点、化学键=边	天然契合 GNN，保留连接关系	默认不含 3D 坐标；小数据上易过拟合
3D 构象	每个原子的空间坐标	对接 / 几何模型必需	构象本身要先预测、可能是错的
指纹 ECFP	把子结构哈希成 0/1 向量	极快，适合海量粗筛	粗：丢失精细立体与新颖结构信息

蛋白的三类表示，重点是「表面」

蛋白可以用序列（ESM 等蛋白大模型把氨基酸串压成嵌入向量，里面藏着进化信息）、结构（原子坐标）来表示。但对分子胶最关键的是第三种——表面表示：把蛋白当成一张「地形图」，只看它向外的口袋、凸起、电荷与疏水分布。这正是 MaSIF 这类几何深度学习的入口，也是「在全蛋白组里找相似口袋 / 可成胶表面」的关键钥匙。

分子胶的「表示地狱」。普通任务表示一个分子或一个蛋白就够；分子胶要把胶 + 靶 + E3 + 那个被诱导出来的界面当成一个整体同时表示。最难的是右下角那个红色虚线框——界面是被胶诱导出来的，事先并不存在，因此无法提前编码，这正是分子胶建模困难的根源之一。

能

表面表示让「跨蛋白组找相似口袋 / 可成胶表面」成为可能（第四篇 Q1 的钥匙）。

不能

没有任何一种表示能预先编码「被诱导出来的界面」——它在结合发生前根本不存在。

瓶颈

分子胶是「复合对象」，表示的复合度陡增，统一表示尚无成熟方案。

当场决策轮到你判断

你的任务：在全人类蛋白组里，找出表面口袋长得像 CK1α「降解决定区」的其他蛋白，作为新的潜在可成胶靶点。你手上能用序列嵌入、3D 结构、或表面表示。你优先选哪个？为什么？

参考判断：优先表面表示。因为你要比对的是「向外的几何与化学地形是否相似」，而不是序列是否同源——两个序列毫不相关的蛋白，完全可能有形状相近的口袋。序列嵌入会漏掉这种「形似而非亲缘」的相似；3D 结构表示信息全但太重、且很多蛋白没有实验结构。表面表示恰好把问题约束在「可成胶」最相关的维度上。代价：表面要先从结构生成，质量依赖底层结构的准确度。

常见误区

「3D 一定比 2D 好」——错。要看任务；而且 3D 构象本身往往要先预测，预测可能就是错的，错误的 3D 比诚实的 2D 更危险。

?自测 · M2.1

Q1为什么说「表示决定模型上限」？请用一句话向一个生物背景的同事解释。

模型只能看见表示里编码进去的信息；表示主动丢掉的东西，模型再强也无从恢复。所以选错表示，等于在源头给模型设了天花板。锚点：开篇「数字身份证」直觉 · 四表示代价表

Q2在「全蛋白组找类 G-loop 表面」这类任务上，表面表示相比序列表示强在哪里？

序列表示捕捉的是进化亲缘；但可成胶看的是「向外口袋的几何与电荷」。两个序列不相关的蛋白可以有形似口袋，序列表示会漏掉，表面表示能抓住。锚点：蛋白三类表示 · 表面=地形图

Q3应用要为 CK1α 三元复合物的建模选表示，分子胶相比「单分子性质预测」多了哪一层难点？

多了「复合对象 + 诱导界面」这层。不仅要同时表示胶、靶、E3 三个对象，还要表示一个结合后才出现、事先不存在的界面——后者无法提前编码，是分子胶表示的独有困难。锚点：表示地狱图 · 红色虚线界面框

必读

ESM 蛋白语言模型一篇；MaSIF（蛋白表面学习）一篇。

承上启下

表示选好了，下一步是「拿什么模型去吃它」——进入 M2.2 模型家族。

← 上一模块已是第一个下一模块 →M2.2 选对模型 + 物理兜底

M2.2 · 选对模型 + 物理兜底

选对模型，并知道何时该叫物理方法来兜底

✓

学完你将能：拿到一个任务，选对模型家族；并在「AI 快筛」与「物理精修」之间，做出一个分工决策。

学习目标

理解说清 GNN、Transformer / 蛋白大模型、扩散模型各自「吃什么、吐什么、强在哪、坑在哪」。
应用解释几何深度学习与等变性（equivariance）为什么是 3D 蛋白表面任务的「正确性前提」，而不是技术细节。
分析摆正物理方法（对接、MD、FEP）的位置：AI 与物理是互补，不是谁取代谁。

模型「动物图鉴」：每种吃什么、坑在哪

模型家族	吃 / 吐	强项	坑
GNN 图神经网络	吃分子图 → 吐性质预测	保留连接关系，做性质回归/分类	小数据上极易过拟合
Transformer 蛋白大模型	吃序列 → 吐嵌入/生成	长程依赖强，是表示与生成的主力	序列视角，本身不含 3D 几何
扩散模型 Diffusion	吃噪声 → 雕出结构/分子	AF3 与从头设计的引擎	采样随机；需足够采样才稳

把等变性讲透：它决定一个 3D 答案是否「合法」

这是本模块最该花时间的地方。等变性说的是：你把输入的蛋白整体旋转、平移一下，模型输出的结构应该跟着一起转，而不是变成另一个乱七八糟的东西。这听起来像数学洁癖，其实是正确性的前提——如果一个模型不等变，那它对「同一个蛋白摆在不同朝向」会给出不同答案，这种答案在物理上根本不自洽，是不能信的。在分子胶的表面匹配（把「可成胶表面」投影到全蛋白组）里，等变几何模型（E(3)/SE(3) 等变）是 MaSIF / QuEEN 这类方法的技术底座。

等变性直觉。左：等变模型对旋转后的输入，输出「同步旋转」的同一结构——物理自洽，可信。右：不等变模型对同一蛋白的不同朝向给出不同答案——这种答案不能用。在 3D 蛋白任务里，不等变就意味着不可信，这是正确性前提，不是技术细节。

AI 与物理：不是取代，是分工

物理方法慢，但有物理意义：对接给几何初猜、MD看动态稳定性、FEP算结合自由能差。它们和 AI 是「AI 快速筛、物理精修验证」的关系。值得注意的新进展：Boltz-2 这类模型已经开始把这条界线往前推——它把结构与结合亲和力联合建模，号称是首个在精度上逼近 FEP、却快约 1000 倍的深度学习模型。但这不等于物理方法退场：对最终候选物的高精度验证，物理方法仍是底牌。

能

等变几何模型能做跨蛋白组的表面匹配；AI 能把大规模粗筛的速度提上去。

不能

模型家族本身不是护城河——再好的架构，天花板仍由数据决定（第三篇主题）。

瓶颈

所有这些模型的上限由训练数据的覆盖度与质量决定，不在模型选型。

当场决策轮到你判断

你的处境：GPU 预算有限，要从一万个候选口袋里先粗筛出最有希望的几十个，再决定哪些值得做昂贵的精修。AI 模型和物理方法（对接 / MD / FEP）该怎么分工？

参考判断：分两段。第一段用 AI 快筛——用等变几何/表面模型或快速打分模型把一万个砍到几十个，便宜、快、能跑完全量。第二段用物理精修——只对这几十个做对接给几何、MD 看稳定性、对最终少数几个做 FEP 算自由能差。核心原则：让贵的物理方法只花在 AI 已经筛出的高价值候选上。反过来（先对一万个全跑 FEP）既烧钱又跑不完。

两个常见误区

「AI 已经取代了物理模拟」——错，是互补：AI 筛、物理验。
「等变只是技术细节」——错，它是 3D 任务答案是否可信的前提。

?自测 · M2.2

Q1等变性是什么？为什么 3D 蛋白任务需要它（而不只是「锦上添花」）？

等变=输入旋转/平移时输出同步变换。3D 任务里若不等变，模型对同一蛋白的不同朝向会给不同答案，物理上不自洽、不可信。所以它是正确性前提。锚点：等变 vs 不等变对比图

Q2对接、MD、FEP 各自回答什么问题？一句话区分。

对接：分子大概摆在哪（几何初猜）；MD：这个摆位随时间稳不稳（动态稳定性）；FEP：两个分子谁结合更强（结合自由能差）。慢但有物理意义。锚点：AI 与物理分工段

Q3应用GPU 预算有限、要先粗筛一万个口袋，AI 与物理方法如何分工？

AI 快筛把一万砍到几十；物理只对这几十个精修（对接→MD→对极少数跑 FEP）。原则：贵的物理算力只花在 AI 已筛出的高价值候选上。锚点：当场决策 · 两段分工

必读

几何深度学习 / 等变网络综述；FEP 在药物发现中的应用一篇。

承上启下

模型选好、跑出结构了——但结构后面那串置信度数字能信吗？进入 M2.3。

← 上一模块M2.1 选对表示下一模块 →M2.3 读懂置信度

M2.3 · 本篇核心技能

读懂置信度报告，不被「高分」骗

★

这是第二篇的核心技能。学完你将能：拿到一份共折叠模型（AF3 / Boltz / Chai）的输出，读懂它的置信度三件套，并独立判断「这个被诱导出的界面，到底信几分」。

学习目标

理解讲清 AF2 → AF3 的关键跃迁（加入扩散模块、支持小分子/核酸/离子）与「共折叠（co-folding）」的含义。
应用正确解读 pLDDT / PAE / ipTM 三个指标的含义与陷阱。
评价说明为什么通用共折叠模型在分子胶上仍要被「掰一掰」，以及「高置信 ≠ 正确」在诱导界面上为何尤其危险。

先理解「共折叠」：一次把多组分一起折出来

AF2 解决的是「单链怎么折」。AF3 靠加进扩散模块，把能力扩展到蛋白 + 小分子 + 核酸 / 离子一次性一起折——这就是「共折叠」。当代选手有 AF3、Boltz-1/2、Chai-1、Protenix、RoseTTAFold-All-Atom 等。它们让「在电脑里把 CK1α–lenalidomide–CRBN 这个三元复合物折出来」第一次变得可能。但「可能」离「可信」还有很长一段——这正是本模块要练的。

置信度三件套：每个看什么、坑在哪

指标	看什么	读它的纪律
pLDDT	每个残基局部折得有多准（0–100）	高=这一段局部可信；但不保证整体摆位对
PAE	残基对 / 结构域之间相对位置的误差	看界面就看它——两个域之间 PAE 低，才说明它们的相对摆位可信
ipTM / pTM	界面 / 整体的综合打分	一个总览数；高分给人安全感，但最会骗人

动手读一张真实形态的 PAE 热图

这是分子胶建模里最典型的一种「陷阱图」：模型给的整体打分很高，每个蛋白自己内部也折得很漂亮（对角线两个蓝块），但恰恰在你最关心的、胶诱导出来的界面处，PAE 是红的——也就是说，模型其实「不知道这两个蛋白该怎么相对摆放」。如果你只看那个漂亮的总分，就会信一个错的界面。

怎么读：对角线两个蓝块=CRBN 和 CK1α 各自折得很好（pLDDT 高）；总分 ipTM=0.88 看着也很安心。但真正决定「这俩怎么粘在一起」的是非对角线的界面块——它是红的，说明模型不知道两个蛋白的相对摆位。结论：这个界面不能信。只看总分的人会被骗，会读 PAE 的人不会。

诚实地说：分子胶上的真实命中率有多低

这不是危言耸听。在专门为分子胶三元复合物建的基准 MGBench（已发表于 J. Chem. Inf. Model. 2025）上，表现最好的 AF3，蛋白-蛋白界面预测的成功率约 50.6%，分子胶-蛋白相互作用的还原率约 32.9%。也就是说，即便是最强模型，在分子胶界面上也大约只有一半甚至三分之一的把握。这个数字本身，就是「高置信 ≠ 正确」最有力的证据——尤其当界面是训练时没见过的诱导界面。

为什么通用模型在分子胶上要被「掰一掰」

通用共折叠模型是在「天然存在的」复合物上训练的，而分子胶界面是被胶诱导出来、自然界本不存在的——这正落在模型训练分布之外。所以出现了分子胶专用增强（如引导扩散类方法），用先验知识把模型「掰」向这类诱导界面。还要记住一句课程暗线：基准永远滞后于模型（MGBench 测的还是 Boltz-1，而 Boltz-2 已发布并显著进步）——看任何 benchmark 都要先看它测的是哪一代。

能

共折叠让「在电脑里折出三元复合物」成为可能，pLDDT/PAE 给了量化的不确定性。

不能

高置信不等于正确——尤其对训练里没见过的诱导界面，模型可能「自信地错」。

瓶颈

PDB 里非共价分子胶三元复合物极少，专用模型缺训练数据（直通第三篇）。

当场决策轮到你判断

模型给了你 CK1α–lenalidomide–CRBN 的预测结构：ipTM = 0.88，两个蛋白各自 pLDDT 都 > 88，但界面处的 PAE 是高的（红）。你的同事很兴奋，说「0.88 这么高，可以拿去设计了」。你同意吗？下一步做什么？

参考判断：不同意直接用。0.88 的 ipTM 和高 pLDDT 只说明「两个蛋白各自折得好、总分好看」，不代表它们的相对摆位对。而你做分子胶，恰恰只关心「它俩怎么粘」——那由界面 PAE 决定，现在是红的，意味着界面不可信。下一步不是拿去设计，而是：(1) 多跑几个随机种子看界面是否稳定收敛；(2) 用物理方法（对接/MD）独立检验这个界面；(3) 优先找实验证据（这套体系恰好有晶体结构 5FQD 可比对）。一句话：把 PAE 红的界面当成「模型在求助」，不是「模型在保证」。

核心误区

「分数高就是对的」——错得最贵。整体打分高、局部折得好，都绕过了你真正该问的问题：界面的相对位置可信吗？只有 PAE（界面处）能回答，而它常常是红的。

?自测 · M2.3

Q1AF2 → AF3 最关键的跃迁是什么？「共折叠」一词指什么？

AF2 只折单链；AF3 加入扩散模块，能把蛋白+小分子+核酸/离子一次性一起折出来，这种「多组分一起折」就是共折叠。锚点：共折叠段

Q2要判断「胶诱导出的界面」可不可信，三件套里你最该看哪个？为什么不能只看 ipTM？

最该看界面处的 PAE，因为它衡量两个域的相对位置误差。ipTM 是综合总分，可能被「各自折得好」抬高，绕过了「它俩怎么相对摆」这个真问题。锚点：三件套表 + PAE 热图

Q3评价有人拿 MGBench 上 AF3 的好成绩论证「分子胶建模已经解决」。你怎么反驳？

即便最强的 AF3，界面成功率也才约 50.6%、相互作用还原率约 32.9%——离「解决」很远；且基准滞后（测的是 Boltz-1），诱导界面又在训练分布外。成绩说明有进展，不等于可信地解决。锚点：MGBench 数字 + 基准滞后暗线

必读

AlphaFold3 原始论文；MGBench co-folding 基准一篇。

承上启下

会读「模型折出来的结构」了——那如果让模型反过来「生成」一个新分子呢？进入 M2.4。

← 上一模块M2.2 选对模型下一模块 →M2.4 读懂生成式产物

M2.4 · 读懂生成式产物

读懂生成式设计的产物：它在向你承诺什么

✓

学完你将能：看懂一个 AI「生成」出来的分子或一条帕累托前沿，分清它承诺了什么、又恰恰没承诺什么，并据此挑出值得往下做的候选。

学习目标

理解说清「条件生成」与「逆向设计」：从「先合成再测」转向「先指定目标、让模型反推分子」。
应用读懂多目标优化（MPO）的帕累托前沿，理解「没有完美分子，只有取舍」。
评价判断一个生成结果的「可信边界」：生成 ≠ 可合成，更 ≠ 在体内有效。

从「正向筛」到「逆向设计」

传统做法是正向的：先有分子，再测它好不好。条件生成反过来——你先指定想要的性质（比如「能粘住 CRBN、又能招募 CK1α、还要够稳定」），让扩散类生成模型反推出可能满足条件的分子结构。这很迷人，但要立刻建立一个纪律：模型生成出一个分子，只是说「这个结构在我学过的分布里，看起来符合你的条件」——它没有保证这分子能被合成出来，更没保证它在细胞里、在动物体内真的有效。

没有完美分子，只有帕累托前沿

真实分子胶要同时满足一堆互相打架的目标：亲和力、选择性、稳定性、可成药性……几乎不可能全部拉满。多目标优化（MPO）的产物因此不是「一个最优分子」，而是一条帕累托前沿：前沿上的每个分子，你想让它在某个目标上更好，就必然要在另一个目标上让步。读懂这条前沿，就是读懂「这一批候选里，各自的取舍是什么」。

怎么读：灰点是「被支配」的分子——总有前沿上的某个点在所有目标上都比它好，可直接淘汰。青色前沿上的 A/B/C/D 才是真正的候选：A 极专一但结合弱、D 极强但不专一，谁都不「全赢」。挑哪个取决于你的项目此刻最不能让步的是什么。模型给你前沿，但「往哪个方向取舍」的决策权在你，不在模型。

能

条件生成能在巨大的化学空间里，朝你指定的多个目标方向「定向」产出候选。

不能

生成 ≠ 可合成 ≠ 体内有效。模型只承诺「符合我学过的分布」，不承诺真实世界成立。

瓶颈

多目标的「评分函数」本身可能不准（打分高≠真好），前沿可能建在错误的标尺上。

当场决策轮到你判断

模型为你的 CK1α 项目生成了一批分子，落成上图的帕累托前沿。你的项目背景是：靶点表达广泛，脱靶降解风险很高，安全窗口是头等大事。你会优先把哪个候选（A/B/C/D）推进到下一步？为什么不直接选「结合最强」的 D？

参考判断：优先 A 或 B，而不是 D。因为你的项目里最不能让步的是选择性/安全窗口，不是亲和力。D 虽然结合最强，但它在前沿的「不专一」那一端，脱靶降解风险正是你最怕的；选择性高的 A、或较均衡的 B 更契合项目约束。关键认知：「最优候选」不是前沿上某个客观点，而是由你的项目约束投影出来的——换个项目（比如安全窗口不敏感、只求药效），答案可能就变成 C 或 D。同时别忘了：无论选谁，这都只是「值得去合成、去测」的起点，不是终点。

常见误区

「AI 生成出来了，就等于设计好了一个药」——错。生成只走完了「在分布里画出一个结构」这一步，离可合成、可成药、体内有效还隔着第四篇、第五篇的整条路。

?自测 · M2.4

Q1「条件生成 / 逆向设计」和传统「正向筛选」在思路上最大的不同是什么？

正向是「先有分子再测好坏」；逆向是「先指定想要的性质，让模型反推可能满足的分子结构」。方向反过来了。锚点：从正向筛到逆向设计段

Q2为什么 MPO 的产物是一条「帕累托前沿」而不是「一个最优分子」？

因为多个目标互相打架，无法全部拉满。前沿上每个分子都是一种取舍——想在某目标更好就必须在另一目标让步，所以没有单一「全赢」的最优解。锚点：帕累托前沿图

Q3评价一个生成的分子拿到很高的「设计评分」，能直接说它是个好药吗？它到底承诺了什么？

不能。它只承诺「在模型学过的分布与评分标尺下看起来符合目标」。既不保证可合成，也不保证体内有效；何况评分函数本身可能不准。高分是「值得一试」，不是「已成药」。锚点：能/不能/瓶颈 + 误区

必读

分子生成 / 逆向设计综述一篇；多目标优化（MPO）在药物设计中的应用一篇。

承上启下

四个模块的「读懂」都有了——最后把它们拧成一套随身的「照妖镜」：M2.5。

← 上一模块M2.3 读懂置信度下一模块 →M2.5 失败模式清单

M2.5 · 免疫系统

失败模式清单：当场拆穿一段「AI 设计药物」的宣传

★

这是第二篇的免疫系统。学完你将能：把前四个模块的「读懂」拧成一份随身清单，拿到任何论文 / 宣传 / benchmark，当场逐句分清「真本事 vs 话术」。

学习目标

评价用一份失败模式清单，批判性地读论文、宣传与 benchmark。
评价拆解「AI 设计的药物」营销话术，区分含金量与水分。
应用对一个具体声明，识别它最可能踩中的失败模式，并指出验证它需要什么证据。

药物 AI 的「失败模式清单」（随身卡）

这份清单把全篇（乃至全课）的陷阱收成一张可随身携带的卡。读到任何 AI 药物声明时，逐条对照：它有没有踩中其中某一条？

失败模式	一句话识别	出处
随机切分骗人	用随机划分训练/测试，让模型「见过亲戚」，分数虚高	M2.5
置信度 ≠ 正确	高 pLDDT/ipTM 当成「对」，绕过界面 PAE 这个真问题	M2.3
打分高 ≠ 可降解	生成/对接评分高，不等于细胞里真能把靶降解掉	M2.4
建模 ≠ 真相	折出一个漂亮结构，不等于这就是真实的复合物	M2.3
表示丢信息	用了丢掉关键信息的表示，结论从源头就有上限	M2.1
等变性缺失	3D 任务用了不等变模型，答案物理不自洽	M2.2
基准滞后 / 数据泄漏	benchmark 测的是老模型；或测试集结构早在训练集里	M2.3

真实案例：一个研究者怎么「打假」自己手里的模型

这正是清单里「基准滞后 / 数据泄漏」的现实版。有计算化学研究者要测 Boltz-2 在分子胶上的真本事时，特意不用 2023 年发布的某个 KRAS–CYPA 共价分子胶结构（PDB 8G9Q）——因为 Boltz 在 2024 年后开发，这个 2023 年的结构本就该在它的训练集里，拿它测等于让模型「默写见过的答案」。于是他改用一个 2025 年初才发布的更新结构（PDB 9BFX）来做真正的盲测。这个动作——主动追问「这个测试对模型真的是‘没见过’的吗」——就是 M2.5 要你养成的本能。

当场决策逐句拆解一段宣传

下面是一段（虚构但极典型的）新闻稿。请用上面的清单，逐句标注：哪句是真本事，哪句是话术？

「我们的 AI 平台成功设计了一款靶向 CK1α 的全新分子胶。模型预测的三元复合物结构置信度高达 0.92，远超传统方法。在我们的内部基准测试上，准确率达到 95%。这标志着 AI 已能端到端设计分子胶药物。」

参考拆解：

· 「成功设计」 → 话术。生成一个结构 ≠ 设计出一款药（M2.4：生成≠可合成≠体内有效）。
· 「置信度高达 0.92，远超传统方法」 → 半真半话术。0.92 多半是 ipTM/整体分，没说界面 PAE（M2.3：高置信≠正确，且和「传统方法」不可比）。
· 「内部基准测试 95%」 → 高度可疑。「内部」基准、又这么高，第一反应应是「是不是随机切分 / 数据泄漏 / 测了老任务」（M2.5：随机切分骗人 + 基准滞后）。对照 MGBench：公开严格基准上最强模型也才约 50.6% 界面成功率——95% 极不寻常。
· 「已能端到端设计分子胶药物」 → 纯话术。这是把一个早期、受限的能力，包装成已解决的终态。

收口（本课价值观）：对 AI 既不轻信也不轻蔑——既看见它真能做什么（折出候选结构、定向生成、加速粗筛），也诚实承认它不能做什么（保证界面、保证体内有效、端到端造药），并永远记得：数据才是护城河。批判不是否定 AI，是校准。

能

这份清单让你对任何 AI 药物声明都有一套可复用的「体检流程」。

不能

清单不能替你做实验——它帮你判断「这个声明值不值得信」，最终仍靠数据与验证。

底线

这就是本课的毕业线：拿到一篇宣传，能写出区分真本事与水分的批判性评估。

最该避免的误区

「批判 = 否定 AI」——错。批判是校准，不是轻蔑。轻信和轻蔑都是偷懒；真正的专业，是既不被宣传忽悠、也不因它不完美就全盘否定。

?自测 · M2.5

Q1列出本篇讲过的 5 个失败模式，并各用一句话说明怎么识别。

例如：①随机切分骗人（模型见过亲戚、分数虚高）；②置信度≠正确（高 ipTM 绕过界面 PAE）；③打分高≠可降解（评分高≠细胞里真降解）；④建模≠真相（漂亮结构≠真实复合物）；⑤基准滞后/数据泄漏（测老模型或测试集已在训练集里）。锚点：失败模式清单表

Q2用一句话说清本课对 AI 的价值观，并解释「批判」和「轻蔑」的区别。

价值观：对 AI 既不轻信也不轻蔑，数据才是护城河。批判=校准（既看见能做什么、也承认不能做什么）；轻蔑=不分青红皂白地否定。批判需要证据，轻蔑只是另一种偷懒。锚点：拆解收口段

Q3评价给你一篇「AI 设计分子胶」新闻稿，写一段约 200 字的批判性评估，区分真本事与水分。

没有标准答案，但好评估应：①点名它最可能踩的失败模式（如内部基准+超高准确率→疑似随机切分/泄漏）；②追问关键缺失证据（界面 PAE？是否盲测？体内数据？）；③把「生成/折出」与「成药」分清；④给出公允定性——承认真实进展、指出被夸大处。能做到这一步，即跨过本课毕业线。锚点：逐句拆解示范 + MGBench 对照

必读

药物 AI 炒作批判 / benchmark 反思一篇；药物发现中的 time-split / 数据泄漏一篇。

直通第四篇

带着这套「读懂 + 判断」的能力，进入第四篇——在真实的 5 问主线上，反复用它。

← 上一模块M2.4 读懂生成式产物本篇收尾 →你带走的能力

收尾 · Takeaways

这一篇，你真正带走的是「判断力」

如果合上这一篇你只记住一件事，请记住：第二篇练的不是术语，是面对真实模型输出时的研发判断力。下面五句话，是你现在应该能独立完成的动作。

模块	我现在能……
M2.1	给一个分子胶任务选对表示，并说出它的代价（尤其能讲清「诱导界面无法预先编码」这个独有难点）。
M2.2	选对模型家族，把等变性当成正确性前提；并在 AI 快筛与物理精修之间做出分工决策。
M2.3	读懂 pLDDT/PAE/ipTM，看一张 PAE 热图就能判断「界面信几分」，不被高总分骗。
M2.4	读懂生成式产物与帕累托前沿，分清它承诺与没承诺什么，按项目约束挑候选。
M2.5	用失败模式清单，当场逐句拆穿一段「AI 设计药物」宣传，写出区分真本事与水分的评估。

接下来

第三篇会把本篇反复点到的那句暗线讲透——「数据才是真正的瓶颈」；第四篇会让你把这一篇的每一项判断力，放到真实的「分子-蛋白-验证」5 问主线上反复实战。第二篇的价值，要到那时才完全兑现。

一句话收口

对 AI 既不轻信也不轻蔑——既看见它真能做什么，也诚实承认它不能做什么，并永远记得，数据才是护城河。