第二篇 · 去黑箱

AI 与计算工具箱
不是认工具,是会判断

这一篇的目标只有一个:让模型不再是黑箱。学完后,你拿到一份真实的模型输出——一张结构、一个置信度报告、一个生成的分子——能读懂它在说什么、判断它哪里可能错、并据此做出一个研发决策。我们不推公式,只练「原理直觉 + 失败模式 + 当场决策」。

5 个模块 1 条贯穿案例 · CK1α 降解 每模块 = 直觉 + 当场决策 + 自测 → 直通 第四篇 5 问主线

从「工具目录」到「会读会判断」

很多人学 AI 工具,最后只会背名词:知道 GNN「吃」分子图、知道 pLDDT 是置信度、知道 time-split 比随机切分严格。但合上讲义,面对一份真实输出,依然不知道该信几分、该怎么办。这一篇不这么教。

我们把第二篇的每个模块都重新对准一个你要会做的动作,而不是一个要记住的术语。并且,五个模块共用同一个真实分子胶案例,让抽象的原理始终落在一个具体对象上,也让这一篇自然地接上第四篇的「设计-验证」主线。

贯穿全篇的案例:CK1α 的「分子胶降解」

来曲米度(lenalidomide)这类 IMiD 药物,本身不直接抑制靶点,而是充当分子胶——把人体的 E3 连接酶 CRBN 和原本毫不相干的靶蛋白 CK1α 粘在一起,诱导出一个自然界不存在的界面,把 CK1α 标记降解。这套体系有公开晶体结构(PDB 5FQD),是分子胶领域最经典、研究最透的「教科书级」案例。

我们会反复用它问同一组问题:要建模这个三元复合物,该用什么表示(M2.1)?该用什么模型、什么时候叫物理方法(M2.2)?模型吐出的结构置信度能信吗(M2.3)?如果要 AI 生成一个新分子胶,产物意味着什么(M2.4)?最后,怎么批判性地识破一份夸大的宣传(M2.5)?

分子胶 · Lenalidomide E3 · CRBN 靶点 · CK1α PDB 5FQD
为什么这一篇值得认真学

第三篇会告诉你「数据是真正的瓶颈」,第四篇会带你跑完「分子-蛋白-验证」的 5 问主线。第二篇是它们之间的翻译器与照妖镜:没有它,你看不懂第四篇里模型给的每一个数字,也分不清第三篇所说的「数据陷阱」具体长什么样。这一篇练的不是知识,是研发判断力

五个模块,五个你将能做的动作

模块不再是「认识……」,而是「你将能……」当场练的决策
M2.1为一个分子胶任务选对分子/蛋白表示,并说出每种表示的代价给定 CK1α 任务,挑表示并辩护
M2.2为任务选对模型家族,并判断何时该叫物理方法(对接/MD/FEP)来兜底GPU 有限,AI 与物理如何分工
M2.3读懂一份置信度报告(pLDDT/PAE/ipTM),识破「高置信≠正确」读一张 PAE 热图,决定信不信界面
M2.4读懂生成式设计的产物:一个生成的分子在向你承诺什么、又没承诺什么看一条帕累托前沿,挑候选分子
M2.5用一份失败模式清单,当场拆穿一段「AI 设计药物」的宣传逐句标注:真本事 vs 话术

选对表示:垃圾的表示,再强的模型也救不回来

学完你将能:给定一个分子胶任务,挑出合适的分子/蛋白表示,并当场说出这个选择「赢在哪、又付出了什么代价」。

学习目标

  • 理解比较分子的四种表示(SMILES / 分子图 / 3D 构象 / 指纹),说清「表示决定模型上限」是什么意思。
  • 理解说明蛋白的序列 / 结构 / 表面(surface)三类表示,以及蛋白语言模型(如 ESM)把进化信息压成嵌入向量。
  • 分析指出分子胶特有的表示难点:要同时表示「小分子 + 两个蛋白 + 被诱导出来的界面」这一复合对象。

核心直觉:模型只能看见你喂给它的「视角」

模型从不直接看分子,它看的是分子的某种数字化身(表示)。同一个 CK1α–lenalidomide–CRBN 复合物,可以有完全不同的「数字身份证」,而每一种身份证都主动丢掉了一部分信息。你选哪种表示,就等于提前决定了模型「能想到什么、想不到什么」。

分子的四种表示,逐一看代价

表示是什么赢在哪代价
SMILES把分子写成一串字符紧凑、好存、是语言模型的食材丢掉 3D;同一分子可有多种写法
分子图 Graph原子=点、化学键=边天然契合 GNN,保留连接关系默认不含 3D 坐标;小数据上易过拟合
3D 构象每个原子的空间坐标对接 / 几何模型必需构象本身要先预测、可能是错的
指纹 ECFP把子结构哈希成 0/1 向量极快,适合海量粗筛粗:丢失精细立体与新颖结构信息

蛋白的三类表示,重点是「表面」

蛋白可以用序列(ESM 等蛋白大模型把氨基酸串压成嵌入向量,里面藏着进化信息)、结构(原子坐标)来表示。但对分子胶最关键的是第三种——表面表示:把蛋白当成一张「地形图」,只看它向外的口袋、凸起、电荷与疏水分布。这正是 MaSIF 这类几何深度学习的入口,也是「在全蛋白组里找相似口袋 / 可成胶表面」的关键钥匙。

分子胶的「表示地狱」:别人表示 1 个对象,你要同时表示 4 个 普通任务 1 个分子 或 1 个蛋白 ✓ 现成表示就够用 分子胶任务(要同时编码) 靶 CK1α E3 CRBN 被诱导出的 界面(不存在)
分子胶的「表示地狱」。普通任务表示一个分子或一个蛋白就够;分子胶要把胶 + 靶 + E3 + 那个被诱导出来的界面当成一个整体同时表示。最难的是右下角那个红色虚线框——界面是被胶诱导出来的,事先并不存在,因此无法提前编码,这正是分子胶建模困难的根源之一。

表面表示让「跨蛋白组找相似口袋 / 可成胶表面」成为可能(第四篇 Q1 的钥匙)。

不能

没有任何一种表示能预先编码「被诱导出来的界面」——它在结合发生前根本不存在。

瓶颈

分子胶是「复合对象」,表示的复合度陡增,统一表示尚无成熟方案。

当场决策轮到你判断
你的任务:在全人类蛋白组里,找出表面口袋长得像 CK1α「降解决定区」的其他蛋白,作为新的潜在可成胶靶点。你手上能用序列嵌入、3D 结构、或表面表示。你优先选哪个?为什么?

参考判断:优先表面表示。因为你要比对的是「向外的几何与化学地形是否相似」,而不是序列是否同源——两个序列毫不相关的蛋白,完全可能有形状相近的口袋。序列嵌入会漏掉这种「形似而非亲缘」的相似;3D 结构表示信息全但太重、且很多蛋白没有实验结构。表面表示恰好把问题约束在「可成胶」最相关的维度上。代价:表面要先从结构生成,质量依赖底层结构的准确度。

常见误区

「3D 一定比 2D 好」——错。要看任务;而且 3D 构象本身往往要先预测,预测可能就是错的,错误的 3D 比诚实的 2D 更危险。

?自测 · M2.1
Q1为什么说「表示决定模型上限」?请用一句话向一个生物背景的同事解释。
模型只能看见表示里编码进去的信息;表示主动丢掉的东西,模型再强也无从恢复。所以选错表示,等于在源头给模型设了天花板。锚点:开篇「数字身份证」直觉 · 四表示代价表
Q2在「全蛋白组找类 G-loop 表面」这类任务上,表面表示相比序列表示强在哪里?
序列表示捕捉的是进化亲缘;但可成胶看的是「向外口袋的几何与电荷」。两个序列不相关的蛋白可以有形似口袋,序列表示会漏掉,表面表示能抓住。锚点:蛋白三类表示 · 表面=地形图
Q3应用要为 CK1α 三元复合物的建模选表示,分子胶相比「单分子性质预测」多了哪一层难点?
多了「复合对象 + 诱导界面」这层。不仅要同时表示胶、靶、E3 三个对象,还要表示一个结合后才出现、事先不存在的界面——后者无法提前编码,是分子胶表示的独有困难。锚点:表示地狱图 · 红色虚线界面框
必读

ESM 蛋白语言模型一篇;MaSIF(蛋白表面学习)一篇。

选对模型,并知道何时该叫物理方法来兜底

学完你将能:拿到一个任务,选对模型家族;并在「AI 快筛」与「物理精修」之间,做出一个分工决策。

学习目标

  • 理解说清 GNN、Transformer / 蛋白大模型、扩散模型各自「吃什么、吐什么、强在哪、坑在哪」。
  • 应用解释几何深度学习与等变性(equivariance)为什么是 3D 蛋白表面任务的「正确性前提」,而不是技术细节。
  • 分析摆正物理方法(对接、MD、FEP)的位置:AI 与物理是互补,不是谁取代谁。

模型「动物图鉴」:每种吃什么、坑在哪

模型家族吃 / 吐强项
GNN
图神经网络
吃分子图 → 吐性质预测保留连接关系,做性质回归/分类小数据上极易过拟合
Transformer
蛋白大模型
吃序列 → 吐嵌入/生成长程依赖强,是表示与生成的主力序列视角,本身不含 3D 几何
扩散模型
Diffusion
吃噪声 → 雕出结构/分子AF3 与从头设计的引擎采样随机;需足够采样才稳

把等变性讲透:它决定一个 3D 答案是否「合法」

这是本模块最该花时间的地方。等变性说的是:你把输入的蛋白整体旋转、平移一下,模型输出的结构应该跟着一起转,而不是变成另一个乱七八糟的东西。这听起来像数学洁癖,其实是正确性的前提——如果一个模型不等变,那它对「同一个蛋白摆在不同朝向」会给出不同答案,这种答案在物理上根本不自洽,是不能信的。在分子胶的表面匹配(把「可成胶表面」投影到全蛋白组)里,等变几何模型(E(3)/SE(3) 等变)是 MaSIF / QuEEN 这类方法的技术底座。

等变 vs 不等变:把输入转一下,看输出怎么变 ✓ 等变模型 输入旋转 45° 输出同步旋转 ✓ ✗ 不等变模型 输入旋转 45° 输出乱掉,物理不自洽 ✗
等变性直觉。左:等变模型对旋转后的输入,输出「同步旋转」的同一结构——物理自洽,可信。右:不等变模型对同一蛋白的不同朝向给出不同答案——这种答案不能用。在 3D 蛋白任务里,不等变就意味着不可信,这是正确性前提,不是技术细节。

AI 与物理:不是取代,是分工

物理方法慢,但有物理意义:对接给几何初猜、MD看动态稳定性、FEP算结合自由能差。它们和 AI 是「AI 快速筛、物理精修验证」的关系。值得注意的新进展:Boltz-2 这类模型已经开始把这条界线往前推——它把结构与结合亲和力联合建模,号称是首个在精度上逼近 FEP、却快约 1000 倍的深度学习模型。但这不等于物理方法退场:对最终候选物的高精度验证,物理方法仍是底牌。

等变几何模型能做跨蛋白组的表面匹配;AI 能把大规模粗筛的速度提上去。

不能

模型家族本身不是护城河——再好的架构,天花板仍由数据决定(第三篇主题)。

瓶颈

所有这些模型的上限由训练数据的覆盖度与质量决定,不在模型选型。

当场决策轮到你判断
你的处境:GPU 预算有限,要从一万个候选口袋里先粗筛出最有希望的几十个,再决定哪些值得做昂贵的精修。AI 模型和物理方法(对接 / MD / FEP)该怎么分工?

参考判断:分两段。第一段用 AI 快筛——用等变几何/表面模型或快速打分模型把一万个砍到几十个,便宜、快、能跑完全量。第二段用物理精修——只对这几十个做对接给几何、MD 看稳定性、对最终少数几个做 FEP 算自由能差。核心原则:让贵的物理方法只花在 AI 已经筛出的高价值候选上。反过来(先对一万个全跑 FEP)既烧钱又跑不完。

两个常见误区

「AI 已经取代了物理模拟」——错,是互补:AI 筛、物理验。
「等变只是技术细节」——错,它是 3D 任务答案是否可信的前提。

?自测 · M2.2
Q1等变性是什么?为什么 3D 蛋白任务需要它(而不只是「锦上添花」)?
等变=输入旋转/平移时输出同步变换。3D 任务里若不等变,模型对同一蛋白的不同朝向会给不同答案,物理上不自洽、不可信。所以它是正确性前提。锚点:等变 vs 不等变对比图
Q2对接、MD、FEP 各自回答什么问题?一句话区分。
对接:分子大概摆在哪(几何初猜);MD:这个摆位随时间稳不稳(动态稳定性);FEP:两个分子谁结合更强(结合自由能差)。慢但有物理意义。锚点:AI 与物理分工段
Q3应用GPU 预算有限、要先粗筛一万个口袋,AI 与物理方法如何分工?
AI 快筛把一万砍到几十;物理只对这几十个精修(对接→MD→对极少数跑 FEP)。原则:贵的物理算力只花在 AI 已筛出的高价值候选上。锚点:当场决策 · 两段分工
必读

几何深度学习 / 等变网络综述;FEP 在药物发现中的应用一篇。

读懂置信度报告,不被「高分」骗

这是第二篇的核心技能。学完你将能:拿到一份共折叠模型(AF3 / Boltz / Chai)的输出,读懂它的置信度三件套,并独立判断「这个被诱导出的界面,到底信几分」。

学习目标

  • 理解讲清 AF2 → AF3 的关键跃迁(加入扩散模块、支持小分子/核酸/离子)与「共折叠(co-folding)」的含义。
  • 应用正确解读 pLDDT / PAE / ipTM 三个指标的含义与陷阱。
  • 评价说明为什么通用共折叠模型在分子胶上仍要被「掰一掰」,以及「高置信 ≠ 正确」在诱导界面上为何尤其危险。

先理解「共折叠」:一次把多组分一起折出来

AF2 解决的是「单链怎么折」。AF3 靠加进扩散模块,把能力扩展到蛋白 + 小分子 + 核酸 / 离子一次性一起折——这就是「共折叠」。当代选手有 AF3、Boltz-1/2、Chai-1、Protenix、RoseTTAFold-All-Atom 等。它们让「在电脑里把 CK1α–lenalidomide–CRBN 这个三元复合物折出来」第一次变得可能。但「可能」离「可信」还有很长一段——这正是本模块要练的。

置信度三件套:每个看什么、坑在哪

指标看什么读它的纪律
pLDDT每个残基局部折得有多准(0–100)高=这一段局部可信;但不保证整体摆位对
PAE残基对 / 结构域之间相对位置的误差看界面就看它——两个域之间 PAE 低,才说明它们的相对摆位可信
ipTM / pTM界面 / 整体的综合打分一个总览数;高分给人安全感,但最会骗人

动手读一张真实形态的 PAE 热图

这是分子胶建模里最典型的一种「陷阱图」:模型给的整体打分很高,每个蛋白自己内部也折得很漂亮(对角线两个蓝块),但恰恰在你最关心的、胶诱导出来的界面处,PAE 是红的——也就是说,模型其实「不知道这两个蛋白该怎么相对摆放」。如果你只看那个漂亮的总分,就会信一个错的界面。

同一个输出,三件套各说各话——你信哪个? PAE 热图(蓝=可信,红=误差大) CRBN CK1α CRBN CK1α 自身✓ 自身✓ 界面✗ 界面✗ 整体打分 ipTM 0.88 看着很高 → 给人安全感 各域 pLDDT(局部) 91 / 89 两个蛋白各自都折得很好 界面处 PAE(相对位置) 高 / 红 ← 真相在这里:界面其实不可信
怎么读:对角线两个蓝块=CRBN 和 CK1α 各自折得很好(pLDDT 高);总分 ipTM=0.88 看着也很安心。但真正决定「这俩怎么粘在一起」的是非对角线的界面块——它是红的,说明模型不知道两个蛋白的相对摆位。结论:这个界面不能信。只看总分的人会被骗,会读 PAE 的人不会。
诚实地说:分子胶上的真实命中率有多低

这不是危言耸听。在专门为分子胶三元复合物建的基准 MGBench(已发表于 J. Chem. Inf. Model. 2025)上,表现最好的 AF3,蛋白-蛋白界面预测的成功率约 50.6%,分子胶-蛋白相互作用的还原率约 32.9%。也就是说,即便是最强模型,在分子胶界面上也大约只有一半甚至三分之一的把握。这个数字本身,就是「高置信 ≠ 正确」最有力的证据——尤其当界面是训练时没见过的诱导界面。

为什么通用模型在分子胶上要被「掰一掰」

通用共折叠模型是在「天然存在的」复合物上训练的,而分子胶界面是被胶诱导出来、自然界本不存在的——这正落在模型训练分布之外。所以出现了分子胶专用增强(如引导扩散类方法),用先验知识把模型「掰」向这类诱导界面。还要记住一句课程暗线:基准永远滞后于模型(MGBench 测的还是 Boltz-1,而 Boltz-2 已发布并显著进步)——看任何 benchmark 都要先看它测的是哪一代。

共折叠让「在电脑里折出三元复合物」成为可能,pLDDT/PAE 给了量化的不确定性。

不能

高置信不等于正确——尤其对训练里没见过的诱导界面,模型可能「自信地错」。

瓶颈

PDB 里非共价分子胶三元复合物极少,专用模型缺训练数据(直通第三篇)。

当场决策轮到你判断
模型给了你 CK1α–lenalidomide–CRBN 的预测结构:ipTM = 0.88,两个蛋白各自 pLDDT 都 > 88,但界面处的 PAE 是高的(红)。你的同事很兴奋,说「0.88 这么高,可以拿去设计了」。你同意吗?下一步做什么?

参考判断:不同意直接用。0.88 的 ipTM 和高 pLDDT 只说明「两个蛋白各自折得好、总分好看」,不代表它们的相对摆位对。而你做分子胶,恰恰只关心「它俩怎么粘」——那由界面 PAE 决定,现在是红的,意味着界面不可信。下一步不是拿去设计,而是:(1) 多跑几个随机种子看界面是否稳定收敛;(2) 用物理方法(对接/MD)独立检验这个界面;(3) 优先找实验证据(这套体系恰好有晶体结构 5FQD 可比对)。一句话:把 PAE 红的界面当成「模型在求助」,不是「模型在保证」。

核心误区

「分数高就是对的」——错得最贵。整体打分高、局部折得好,都绕过了你真正该问的问题:界面的相对位置可信吗?只有 PAE(界面处)能回答,而它常常是红的。

?自测 · M2.3
Q1AF2 → AF3 最关键的跃迁是什么?「共折叠」一词指什么?
AF2 只折单链;AF3 加入扩散模块,能把蛋白+小分子+核酸/离子一次性一起折出来,这种「多组分一起折」就是共折叠。锚点:共折叠段
Q2要判断「胶诱导出的界面」可不可信,三件套里你最该看哪个?为什么不能只看 ipTM?
最该看界面处的 PAE,因为它衡量两个域的相对位置误差。ipTM 是综合总分,可能被「各自折得好」抬高,绕过了「它俩怎么相对摆」这个真问题。锚点:三件套表 + PAE 热图
Q3评价有人拿 MGBench 上 AF3 的好成绩论证「分子胶建模已经解决」。你怎么反驳?
即便最强的 AF3,界面成功率也才约 50.6%、相互作用还原率约 32.9%——离「解决」很远;且基准滞后(测的是 Boltz-1),诱导界面又在训练分布外。成绩说明有进展,不等于可信地解决。锚点:MGBench 数字 + 基准滞后暗线
必读

AlphaFold3 原始论文;MGBench co-folding 基准一篇。

读懂生成式设计的产物:它在向你承诺什么

学完你将能:看懂一个 AI「生成」出来的分子或一条帕累托前沿,分清它承诺了什么、又恰恰没承诺什么,并据此挑出值得往下做的候选。

学习目标

  • 理解说清「条件生成」与「逆向设计」:从「先合成再测」转向「先指定目标、让模型反推分子」。
  • 应用读懂多目标优化(MPO)的帕累托前沿,理解「没有完美分子,只有取舍」。
  • 评价判断一个生成结果的「可信边界」:生成 ≠ 可合成,更 ≠ 在体内有效。

从「正向筛」到「逆向设计」

传统做法是正向的:先有分子,再测它好不好。条件生成反过来——你先指定想要的性质(比如「能粘住 CRBN、又能招募 CK1α、还要够稳定」),让扩散类生成模型反推出可能满足条件的分子结构。这很迷人,但要立刻建立一个纪律:模型生成出一个分子,只是说「这个结构在我学过的分布里,看起来符合你的条件」——它没有保证这分子能被合成出来,更没保证它在细胞里、在动物体内真的有效。

没有完美分子,只有帕累托前沿

真实分子胶要同时满足一堆互相打架的目标:亲和力、选择性、稳定性、可成药性……几乎不可能全部拉满。多目标优化(MPO)的产物因此不是「一个最优分子」,而是一条帕累托前沿:前沿上的每个分子,你想让它在某个目标上更好,就必然要在另一个目标上让步。读懂这条前沿,就是读懂「这一批候选里,各自的取舍是什么」。

帕累托前沿:前沿上没有「全赢」,只有取舍 结合亲和力 →(越右越强) 选择性 →(越上越专一) 被支配(有人全面更好) A 极专一/弱 B 较均衡 ★ C 偏强 D 极强/不专一 前沿:再往一个方向好,必在另一个方向让步
怎么读:灰点是「被支配」的分子——总有前沿上的某个点在所有目标上都比它好,可直接淘汰。青色前沿上的 A/B/C/D 才是真正的候选:A 极专一但结合弱、D 极强但不专一,谁都不「全赢」。挑哪个取决于你的项目此刻最不能让步的是什么。模型给你前沿,但「往哪个方向取舍」的决策权在你,不在模型

条件生成能在巨大的化学空间里,朝你指定的多个目标方向「定向」产出候选。

不能

生成 ≠ 可合成 ≠ 体内有效。模型只承诺「符合我学过的分布」,不承诺真实世界成立。

瓶颈

多目标的「评分函数」本身可能不准(打分高≠真好),前沿可能建在错误的标尺上。

当场决策轮到你判断
模型为你的 CK1α 项目生成了一批分子,落成上图的帕累托前沿。你的项目背景是:靶点表达广泛,脱靶降解风险很高,安全窗口是头等大事。你会优先把哪个候选(A/B/C/D)推进到下一步?为什么不直接选「结合最强」的 D?

参考判断:优先 A 或 B,而不是 D。因为你的项目里最不能让步的是选择性/安全窗口,不是亲和力。D 虽然结合最强,但它在前沿的「不专一」那一端,脱靶降解风险正是你最怕的;选择性高的 A、或较均衡的 B 更契合项目约束。关键认知:「最优候选」不是前沿上某个客观点,而是由你的项目约束投影出来的——换个项目(比如安全窗口不敏感、只求药效),答案可能就变成 C 或 D。同时别忘了:无论选谁,这都只是「值得去合成、去测」的起点,不是终点。

常见误区

「AI 生成出来了,就等于设计好了一个药」——错。生成只走完了「在分布里画出一个结构」这一步,离可合成、可成药、体内有效还隔着第四篇、第五篇的整条路。

?自测 · M2.4
Q1「条件生成 / 逆向设计」和传统「正向筛选」在思路上最大的不同是什么?
正向是「先有分子再测好坏」;逆向是「先指定想要的性质,让模型反推可能满足的分子结构」。方向反过来了。锚点:从正向筛到逆向设计段
Q2为什么 MPO 的产物是一条「帕累托前沿」而不是「一个最优分子」?
因为多个目标互相打架,无法全部拉满。前沿上每个分子都是一种取舍——想在某目标更好就必须在另一目标让步,所以没有单一「全赢」的最优解。锚点:帕累托前沿图
Q3评价一个生成的分子拿到很高的「设计评分」,能直接说它是个好药吗?它到底承诺了什么?
不能。它只承诺「在模型学过的分布与评分标尺下看起来符合目标」。既不保证可合成,也不保证体内有效;何况评分函数本身可能不准。高分是「值得一试」,不是「已成药」。锚点:能/不能/瓶颈 + 误区
必读

分子生成 / 逆向设计综述一篇;多目标优化(MPO)在药物设计中的应用一篇。

失败模式清单:当场拆穿一段「AI 设计药物」的宣传

这是第二篇的免疫系统。学完你将能:把前四个模块的「读懂」拧成一份随身清单,拿到任何论文 / 宣传 / benchmark,当场逐句分清「真本事 vs 话术」。

学习目标

  • 评价用一份失败模式清单,批判性地读论文、宣传与 benchmark。
  • 评价拆解「AI 设计的药物」营销话术,区分含金量与水分。
  • 应用对一个具体声明,识别它最可能踩中的失败模式,并指出验证它需要什么证据。

药物 AI 的「失败模式清单」(随身卡)

这份清单把全篇(乃至全课)的陷阱收成一张可随身携带的卡。读到任何 AI 药物声明时,逐条对照:它有没有踩中其中某一条?

失败模式一句话识别出处
随机切分骗人用随机划分训练/测试,让模型「见过亲戚」,分数虚高M2.5
置信度 ≠ 正确高 pLDDT/ipTM 当成「对」,绕过界面 PAE 这个真问题M2.3
打分高 ≠ 可降解生成/对接评分高,不等于细胞里真能把靶降解掉M2.4
建模 ≠ 真相折出一个漂亮结构,不等于这就是真实的复合物M2.3
表示丢信息用了丢掉关键信息的表示,结论从源头就有上限M2.1
等变性缺失3D 任务用了不等变模型,答案物理不自洽M2.2
基准滞后 / 数据泄漏benchmark 测的是老模型;或测试集结构早在训练集里M2.3
真实案例:一个研究者怎么「打假」自己手里的模型

这正是清单里「基准滞后 / 数据泄漏」的现实版。有计算化学研究者要测 Boltz-2 在分子胶上的真本事时,特意用 2023 年发布的某个 KRAS–CYPA 共价分子胶结构(PDB 8G9Q)——因为 Boltz 在 2024 年后开发,这个 2023 年的结构本就该在它的训练集里,拿它测等于让模型「默写见过的答案」。于是他改用一个 2025 年初才发布的更新结构(PDB 9BFX)来做真正的盲测。这个动作——主动追问「这个测试对模型真的是‘没见过’的吗」——就是 M2.5 要你养成的本能。

当场决策逐句拆解一段宣传

下面是一段(虚构但极典型的)新闻稿。请用上面的清单,逐句标注:哪句是真本事,哪句是话术?

「我们的 AI 平台成功设计了一款靶向 CK1α 的全新分子胶。模型预测的三元复合物结构置信度高达 0.92,远超传统方法。在我们的内部基准测试上,准确率达到 95%。这标志着 AI 已能端到端设计分子胶药物。」

参考拆解:

· 「成功设计」 → 话术。生成一个结构 ≠ 设计出一款药(M2.4:生成≠可合成≠体内有效)。
· 「置信度高达 0.92,远超传统方法」 → 半真半话术。0.92 多半是 ipTM/整体分,没说界面 PAE(M2.3:高置信≠正确,且和「传统方法」不可比)。
· 「内部基准测试 95%」 → 高度可疑。「内部」基准、又这么高,第一反应应是「是不是随机切分 / 数据泄漏 / 测了老任务」(M2.5:随机切分骗人 + 基准滞后)。对照 MGBench:公开严格基准上最强模型也才约 50.6% 界面成功率——95% 极不寻常。
· 「已能端到端设计分子胶药物」 → 纯话术。这是把一个早期、受限的能力,包装成已解决的终态。

收口(本课价值观):对 AI 既不轻信也不轻蔑——既看见它真能做什么(折出候选结构、定向生成、加速粗筛),也诚实承认它不能做什么(保证界面、保证体内有效、端到端造药),并永远记得:数据才是护城河。批判不是否定 AI,是校准。

这份清单让你对任何 AI 药物声明都有一套可复用的「体检流程」。

不能

清单不能替你做实验——它帮你判断「这个声明值不值得信」,最终仍靠数据与验证。

底线

这就是本课的毕业线:拿到一篇宣传,能写出区分真本事与水分的批判性评估。

最该避免的误区

「批判 = 否定 AI」——错。批判是校准,不是轻蔑。轻信和轻蔑都是偷懒;真正的专业,是既不被宣传忽悠、也不因它不完美就全盘否定。

?自测 · M2.5
Q1列出本篇讲过的 5 个失败模式,并各用一句话说明怎么识别。
例如:①随机切分骗人(模型见过亲戚、分数虚高);②置信度≠正确(高 ipTM 绕过界面 PAE);③打分高≠可降解(评分高≠细胞里真降解);④建模≠真相(漂亮结构≠真实复合物);⑤基准滞后/数据泄漏(测老模型或测试集已在训练集里)。锚点:失败模式清单表
Q2用一句话说清本课对 AI 的价值观,并解释「批判」和「轻蔑」的区别。
价值观:对 AI 既不轻信也不轻蔑,数据才是护城河。批判=校准(既看见能做什么、也承认不能做什么);轻蔑=不分青红皂白地否定。批判需要证据,轻蔑只是另一种偷懒。锚点:拆解收口段
Q3评价给你一篇「AI 设计分子胶」新闻稿,写一段约 200 字的批判性评估,区分真本事与水分。
没有标准答案,但好评估应:①点名它最可能踩的失败模式(如内部基准+超高准确率→疑似随机切分/泄漏);②追问关键缺失证据(界面 PAE?是否盲测?体内数据?);③把「生成/折出」与「成药」分清;④给出公允定性——承认真实进展、指出被夸大处。能做到这一步,即跨过本课毕业线。锚点:逐句拆解示范 + MGBench 对照
必读

药物 AI 炒作批判 / benchmark 反思一篇;药物发现中的 time-split / 数据泄漏一篇。

这一篇,你真正带走的是「判断力」

如果合上这一篇你只记住一件事,请记住:第二篇练的不是术语,是面对真实模型输出时的研发判断力。下面五句话,是你现在应该能独立完成的动作。

模块我现在能……
M2.1给一个分子胶任务选对表示,并说出它的代价(尤其能讲清「诱导界面无法预先编码」这个独有难点)。
M2.2选对模型家族,把等变性当成正确性前提;并在 AI 快筛与物理精修之间做出分工决策。
M2.3读懂 pLDDT/PAE/ipTM,看一张 PAE 热图就能判断「界面信几分」,不被高总分骗。
M2.4读懂生成式产物与帕累托前沿,分清它承诺与没承诺什么,按项目约束挑候选。
M2.5用失败模式清单,当场逐句拆穿一段「AI 设计药物」宣传,写出区分真本事与水分的评估。
接下来

第三篇会把本篇反复点到的那句暗线讲透——「数据才是真正的瓶颈」;第四篇会让你把这一篇的每一项判断力,放到真实的「分子-蛋白-验证」5 问主线上反复实战。第二篇的价值,要到那时才完全兑现。

一句话收口

对 AI 既不轻信也不轻蔑——既看见它真能做什么,也诚实承认它不能做什么,并永远记得,数据才是护城河

AI 赋能分子胶研发 · 第二篇 · AI 与计算工具箱(去黑箱)

贯穿案例:CK1α–lenalidomide–CRBN(PDB 5FQD)| 内容折入截至 2026 年 5 月的关键事实,领域更新较快,部分数字请留意发表时间。

← 返回课程门户