从「工具目录」到「会读会判断」
很多人学 AI 工具,最后只会背名词:知道 GNN「吃」分子图、知道 pLDDT 是置信度、知道 time-split 比随机切分严格。但合上讲义,面对一份真实输出,依然不知道该信几分、该怎么办。这一篇不这么教。
我们把第二篇的每个模块都重新对准一个你要会做的动作,而不是一个要记住的术语。并且,五个模块共用同一个真实分子胶案例,让抽象的原理始终落在一个具体对象上,也让这一篇自然地接上第四篇的「设计-验证」主线。
贯穿全篇的案例:CK1α 的「分子胶降解」
来曲米度(lenalidomide)这类 IMiD 药物,本身不直接抑制靶点,而是充当分子胶——把人体的 E3 连接酶 CRBN 和原本毫不相干的靶蛋白 CK1α 粘在一起,诱导出一个自然界不存在的界面,把 CK1α 标记降解。这套体系有公开晶体结构(PDB 5FQD),是分子胶领域最经典、研究最透的「教科书级」案例。
我们会反复用它问同一组问题:要建模这个三元复合物,该用什么表示(M2.1)?该用什么模型、什么时候叫物理方法(M2.2)?模型吐出的结构置信度能信吗(M2.3)?如果要 AI 生成一个新分子胶,产物意味着什么(M2.4)?最后,怎么批判性地识破一份夸大的宣传(M2.5)?
第三篇会告诉你「数据是真正的瓶颈」,第四篇会带你跑完「分子-蛋白-验证」的 5 问主线。第二篇是它们之间的翻译器与照妖镜:没有它,你看不懂第四篇里模型给的每一个数字,也分不清第三篇所说的「数据陷阱」具体长什么样。这一篇练的不是知识,是研发判断力。
五个模块,五个你将能做的动作
| 模块 | 不再是「认识……」,而是「你将能……」 | 当场练的决策 |
|---|---|---|
| M2.1 | 为一个分子胶任务选对分子/蛋白表示,并说出每种表示的代价 | 给定 CK1α 任务,挑表示并辩护 |
| M2.2 | 为任务选对模型家族,并判断何时该叫物理方法(对接/MD/FEP)来兜底 | GPU 有限,AI 与物理如何分工 |
| M2.3 | 读懂一份置信度报告(pLDDT/PAE/ipTM),识破「高置信≠正确」 | 读一张 PAE 热图,决定信不信界面 |
| M2.4 | 读懂生成式设计的产物:一个生成的分子在向你承诺什么、又没承诺什么 | 看一条帕累托前沿,挑候选分子 |
| M2.5 | 用一份失败模式清单,当场拆穿一段「AI 设计药物」的宣传 | 逐句标注:真本事 vs 话术 |
选对表示:垃圾的表示,再强的模型也救不回来
学习目标
- 理解比较分子的四种表示(SMILES / 分子图 / 3D 构象 / 指纹),说清「表示决定模型上限」是什么意思。
- 理解说明蛋白的序列 / 结构 / 表面(surface)三类表示,以及蛋白语言模型(如 ESM)把进化信息压成嵌入向量。
- 分析指出分子胶特有的表示难点:要同时表示「小分子 + 两个蛋白 + 被诱导出来的界面」这一复合对象。
核心直觉:模型只能看见你喂给它的「视角」
模型从不直接看分子,它看的是分子的某种数字化身(表示)。同一个 CK1α–lenalidomide–CRBN 复合物,可以有完全不同的「数字身份证」,而每一种身份证都主动丢掉了一部分信息。你选哪种表示,就等于提前决定了模型「能想到什么、想不到什么」。
分子的四种表示,逐一看代价
| 表示 | 是什么 | 赢在哪 | 代价 |
|---|---|---|---|
| SMILES | 把分子写成一串字符 | 紧凑、好存、是语言模型的食材 | 丢掉 3D;同一分子可有多种写法 |
| 分子图 Graph | 原子=点、化学键=边 | 天然契合 GNN,保留连接关系 | 默认不含 3D 坐标;小数据上易过拟合 |
| 3D 构象 | 每个原子的空间坐标 | 对接 / 几何模型必需 | 构象本身要先预测、可能是错的 |
| 指纹 ECFP | 把子结构哈希成 0/1 向量 | 极快,适合海量粗筛 | 粗:丢失精细立体与新颖结构信息 |
蛋白的三类表示,重点是「表面」
蛋白可以用序列(ESM 等蛋白大模型把氨基酸串压成嵌入向量,里面藏着进化信息)、结构(原子坐标)来表示。但对分子胶最关键的是第三种——表面表示:把蛋白当成一张「地形图」,只看它向外的口袋、凸起、电荷与疏水分布。这正是 MaSIF 这类几何深度学习的入口,也是「在全蛋白组里找相似口袋 / 可成胶表面」的关键钥匙。
表面表示让「跨蛋白组找相似口袋 / 可成胶表面」成为可能(第四篇 Q1 的钥匙)。
没有任何一种表示能预先编码「被诱导出来的界面」——它在结合发生前根本不存在。
分子胶是「复合对象」,表示的复合度陡增,统一表示尚无成熟方案。
参考判断:优先表面表示。因为你要比对的是「向外的几何与化学地形是否相似」,而不是序列是否同源——两个序列毫不相关的蛋白,完全可能有形状相近的口袋。序列嵌入会漏掉这种「形似而非亲缘」的相似;3D 结构表示信息全但太重、且很多蛋白没有实验结构。表面表示恰好把问题约束在「可成胶」最相关的维度上。代价:表面要先从结构生成,质量依赖底层结构的准确度。
「3D 一定比 2D 好」——错。要看任务;而且 3D 构象本身往往要先预测,预测可能就是错的,错误的 3D 比诚实的 2D 更危险。
ESM 蛋白语言模型一篇;MaSIF(蛋白表面学习)一篇。
表示选好了,下一步是「拿什么模型去吃它」——进入 M2.2 模型家族。
选对模型,并知道何时该叫物理方法来兜底
学习目标
- 理解说清 GNN、Transformer / 蛋白大模型、扩散模型各自「吃什么、吐什么、强在哪、坑在哪」。
- 应用解释几何深度学习与等变性(equivariance)为什么是 3D 蛋白表面任务的「正确性前提」,而不是技术细节。
- 分析摆正物理方法(对接、MD、FEP)的位置:AI 与物理是互补,不是谁取代谁。
模型「动物图鉴」:每种吃什么、坑在哪
| 模型家族 | 吃 / 吐 | 强项 | 坑 |
|---|---|---|---|
| GNN 图神经网络 | 吃分子图 → 吐性质预测 | 保留连接关系,做性质回归/分类 | 小数据上极易过拟合 |
| Transformer 蛋白大模型 | 吃序列 → 吐嵌入/生成 | 长程依赖强,是表示与生成的主力 | 序列视角,本身不含 3D 几何 |
| 扩散模型 Diffusion | 吃噪声 → 雕出结构/分子 | AF3 与从头设计的引擎 | 采样随机;需足够采样才稳 |
把等变性讲透:它决定一个 3D 答案是否「合法」
这是本模块最该花时间的地方。等变性说的是:你把输入的蛋白整体旋转、平移一下,模型输出的结构应该跟着一起转,而不是变成另一个乱七八糟的东西。这听起来像数学洁癖,其实是正确性的前提——如果一个模型不等变,那它对「同一个蛋白摆在不同朝向」会给出不同答案,这种答案在物理上根本不自洽,是不能信的。在分子胶的表面匹配(把「可成胶表面」投影到全蛋白组)里,等变几何模型(E(3)/SE(3) 等变)是 MaSIF / QuEEN 这类方法的技术底座。
AI 与物理:不是取代,是分工
物理方法慢,但有物理意义:对接给几何初猜、MD看动态稳定性、FEP算结合自由能差。它们和 AI 是「AI 快速筛、物理精修验证」的关系。值得注意的新进展:Boltz-2 这类模型已经开始把这条界线往前推——它把结构与结合亲和力联合建模,号称是首个在精度上逼近 FEP、却快约 1000 倍的深度学习模型。但这不等于物理方法退场:对最终候选物的高精度验证,物理方法仍是底牌。
等变几何模型能做跨蛋白组的表面匹配;AI 能把大规模粗筛的速度提上去。
模型家族本身不是护城河——再好的架构,天花板仍由数据决定(第三篇主题)。
所有这些模型的上限由训练数据的覆盖度与质量决定,不在模型选型。
参考判断:分两段。第一段用 AI 快筛——用等变几何/表面模型或快速打分模型把一万个砍到几十个,便宜、快、能跑完全量。第二段用物理精修——只对这几十个做对接给几何、MD 看稳定性、对最终少数几个做 FEP 算自由能差。核心原则:让贵的物理方法只花在 AI 已经筛出的高价值候选上。反过来(先对一万个全跑 FEP)既烧钱又跑不完。
「AI 已经取代了物理模拟」——错,是互补:AI 筛、物理验。
「等变只是技术细节」——错,它是 3D 任务答案是否可信的前提。
几何深度学习 / 等变网络综述;FEP 在药物发现中的应用一篇。
模型选好、跑出结构了——但结构后面那串置信度数字能信吗?进入 M2.3。
读懂置信度报告,不被「高分」骗
学习目标
- 理解讲清 AF2 → AF3 的关键跃迁(加入扩散模块、支持小分子/核酸/离子)与「共折叠(co-folding)」的含义。
- 应用正确解读 pLDDT / PAE / ipTM 三个指标的含义与陷阱。
- 评价说明为什么通用共折叠模型在分子胶上仍要被「掰一掰」,以及「高置信 ≠ 正确」在诱导界面上为何尤其危险。
先理解「共折叠」:一次把多组分一起折出来
AF2 解决的是「单链怎么折」。AF3 靠加进扩散模块,把能力扩展到蛋白 + 小分子 + 核酸 / 离子一次性一起折——这就是「共折叠」。当代选手有 AF3、Boltz-1/2、Chai-1、Protenix、RoseTTAFold-All-Atom 等。它们让「在电脑里把 CK1α–lenalidomide–CRBN 这个三元复合物折出来」第一次变得可能。但「可能」离「可信」还有很长一段——这正是本模块要练的。
置信度三件套:每个看什么、坑在哪
| 指标 | 看什么 | 读它的纪律 |
|---|---|---|
| pLDDT | 每个残基局部折得有多准(0–100) | 高=这一段局部可信;但不保证整体摆位对 |
| PAE | 残基对 / 结构域之间相对位置的误差 | 看界面就看它——两个域之间 PAE 低,才说明它们的相对摆位可信 |
| ipTM / pTM | 界面 / 整体的综合打分 | 一个总览数;高分给人安全感,但最会骗人 |
动手读一张真实形态的 PAE 热图
这是分子胶建模里最典型的一种「陷阱图」:模型给的整体打分很高,每个蛋白自己内部也折得很漂亮(对角线两个蓝块),但恰恰在你最关心的、胶诱导出来的界面处,PAE 是红的——也就是说,模型其实「不知道这两个蛋白该怎么相对摆放」。如果你只看那个漂亮的总分,就会信一个错的界面。
这不是危言耸听。在专门为分子胶三元复合物建的基准 MGBench(已发表于 J. Chem. Inf. Model. 2025)上,表现最好的 AF3,蛋白-蛋白界面预测的成功率约 50.6%,分子胶-蛋白相互作用的还原率约 32.9%。也就是说,即便是最强模型,在分子胶界面上也大约只有一半甚至三分之一的把握。这个数字本身,就是「高置信 ≠ 正确」最有力的证据——尤其当界面是训练时没见过的诱导界面。
为什么通用模型在分子胶上要被「掰一掰」
通用共折叠模型是在「天然存在的」复合物上训练的,而分子胶界面是被胶诱导出来、自然界本不存在的——这正落在模型训练分布之外。所以出现了分子胶专用增强(如引导扩散类方法),用先验知识把模型「掰」向这类诱导界面。还要记住一句课程暗线:基准永远滞后于模型(MGBench 测的还是 Boltz-1,而 Boltz-2 已发布并显著进步)——看任何 benchmark 都要先看它测的是哪一代。
共折叠让「在电脑里折出三元复合物」成为可能,pLDDT/PAE 给了量化的不确定性。
高置信不等于正确——尤其对训练里没见过的诱导界面,模型可能「自信地错」。
PDB 里非共价分子胶三元复合物极少,专用模型缺训练数据(直通第三篇)。
参考判断:不同意直接用。0.88 的 ipTM 和高 pLDDT 只说明「两个蛋白各自折得好、总分好看」,不代表它们的相对摆位对。而你做分子胶,恰恰只关心「它俩怎么粘」——那由界面 PAE 决定,现在是红的,意味着界面不可信。下一步不是拿去设计,而是:(1) 多跑几个随机种子看界面是否稳定收敛;(2) 用物理方法(对接/MD)独立检验这个界面;(3) 优先找实验证据(这套体系恰好有晶体结构 5FQD 可比对)。一句话:把 PAE 红的界面当成「模型在求助」,不是「模型在保证」。
「分数高就是对的」——错得最贵。整体打分高、局部折得好,都绕过了你真正该问的问题:界面的相对位置可信吗?只有 PAE(界面处)能回答,而它常常是红的。
AlphaFold3 原始论文;MGBench co-folding 基准一篇。
会读「模型折出来的结构」了——那如果让模型反过来「生成」一个新分子呢?进入 M2.4。
读懂生成式设计的产物:它在向你承诺什么
学习目标
- 理解说清「条件生成」与「逆向设计」:从「先合成再测」转向「先指定目标、让模型反推分子」。
- 应用读懂多目标优化(MPO)的帕累托前沿,理解「没有完美分子,只有取舍」。
- 评价判断一个生成结果的「可信边界」:生成 ≠ 可合成,更 ≠ 在体内有效。
从「正向筛」到「逆向设计」
传统做法是正向的:先有分子,再测它好不好。条件生成反过来——你先指定想要的性质(比如「能粘住 CRBN、又能招募 CK1α、还要够稳定」),让扩散类生成模型反推出可能满足条件的分子结构。这很迷人,但要立刻建立一个纪律:模型生成出一个分子,只是说「这个结构在我学过的分布里,看起来符合你的条件」——它没有保证这分子能被合成出来,更没保证它在细胞里、在动物体内真的有效。
没有完美分子,只有帕累托前沿
真实分子胶要同时满足一堆互相打架的目标:亲和力、选择性、稳定性、可成药性……几乎不可能全部拉满。多目标优化(MPO)的产物因此不是「一个最优分子」,而是一条帕累托前沿:前沿上的每个分子,你想让它在某个目标上更好,就必然要在另一个目标上让步。读懂这条前沿,就是读懂「这一批候选里,各自的取舍是什么」。
条件生成能在巨大的化学空间里,朝你指定的多个目标方向「定向」产出候选。
生成 ≠ 可合成 ≠ 体内有效。模型只承诺「符合我学过的分布」,不承诺真实世界成立。
多目标的「评分函数」本身可能不准(打分高≠真好),前沿可能建在错误的标尺上。
参考判断:优先 A 或 B,而不是 D。因为你的项目里最不能让步的是选择性/安全窗口,不是亲和力。D 虽然结合最强,但它在前沿的「不专一」那一端,脱靶降解风险正是你最怕的;选择性高的 A、或较均衡的 B 更契合项目约束。关键认知:「最优候选」不是前沿上某个客观点,而是由你的项目约束投影出来的——换个项目(比如安全窗口不敏感、只求药效),答案可能就变成 C 或 D。同时别忘了:无论选谁,这都只是「值得去合成、去测」的起点,不是终点。
「AI 生成出来了,就等于设计好了一个药」——错。生成只走完了「在分布里画出一个结构」这一步,离可合成、可成药、体内有效还隔着第四篇、第五篇的整条路。
分子生成 / 逆向设计综述一篇;多目标优化(MPO)在药物设计中的应用一篇。
四个模块的「读懂」都有了——最后把它们拧成一套随身的「照妖镜」:M2.5。
失败模式清单:当场拆穿一段「AI 设计药物」的宣传
学习目标
- 评价用一份失败模式清单,批判性地读论文、宣传与 benchmark。
- 评价拆解「AI 设计的药物」营销话术,区分含金量与水分。
- 应用对一个具体声明,识别它最可能踩中的失败模式,并指出验证它需要什么证据。
药物 AI 的「失败模式清单」(随身卡)
这份清单把全篇(乃至全课)的陷阱收成一张可随身携带的卡。读到任何 AI 药物声明时,逐条对照:它有没有踩中其中某一条?
| 失败模式 | 一句话识别 | 出处 |
|---|---|---|
| 随机切分骗人 | 用随机划分训练/测试,让模型「见过亲戚」,分数虚高 | M2.5 |
| 置信度 ≠ 正确 | 高 pLDDT/ipTM 当成「对」,绕过界面 PAE 这个真问题 | M2.3 |
| 打分高 ≠ 可降解 | 生成/对接评分高,不等于细胞里真能把靶降解掉 | M2.4 |
| 建模 ≠ 真相 | 折出一个漂亮结构,不等于这就是真实的复合物 | M2.3 |
| 表示丢信息 | 用了丢掉关键信息的表示,结论从源头就有上限 | M2.1 |
| 等变性缺失 | 3D 任务用了不等变模型,答案物理不自洽 | M2.2 |
| 基准滞后 / 数据泄漏 | benchmark 测的是老模型;或测试集结构早在训练集里 | M2.3 |
这正是清单里「基准滞后 / 数据泄漏」的现实版。有计算化学研究者要测 Boltz-2 在分子胶上的真本事时,特意不用 2023 年发布的某个 KRAS–CYPA 共价分子胶结构(PDB 8G9Q)——因为 Boltz 在 2024 年后开发,这个 2023 年的结构本就该在它的训练集里,拿它测等于让模型「默写见过的答案」。于是他改用一个 2025 年初才发布的更新结构(PDB 9BFX)来做真正的盲测。这个动作——主动追问「这个测试对模型真的是‘没见过’的吗」——就是 M2.5 要你养成的本能。
下面是一段(虚构但极典型的)新闻稿。请用上面的清单,逐句标注:哪句是真本事,哪句是话术?
参考拆解:
· 「成功设计」 → 话术。生成一个结构 ≠ 设计出一款药(M2.4:生成≠可合成≠体内有效)。
· 「置信度高达 0.92,远超传统方法」 → 半真半话术。0.92 多半是 ipTM/整体分,没说界面 PAE(M2.3:高置信≠正确,且和「传统方法」不可比)。
· 「内部基准测试 95%」 → 高度可疑。「内部」基准、又这么高,第一反应应是「是不是随机切分 / 数据泄漏 / 测了老任务」(M2.5:随机切分骗人 + 基准滞后)。对照 MGBench:公开严格基准上最强模型也才约 50.6% 界面成功率——95% 极不寻常。
· 「已能端到端设计分子胶药物」 → 纯话术。这是把一个早期、受限的能力,包装成已解决的终态。
收口(本课价值观):对 AI 既不轻信也不轻蔑——既看见它真能做什么(折出候选结构、定向生成、加速粗筛),也诚实承认它不能做什么(保证界面、保证体内有效、端到端造药),并永远记得:数据才是护城河。批判不是否定 AI,是校准。
这份清单让你对任何 AI 药物声明都有一套可复用的「体检流程」。
清单不能替你做实验——它帮你判断「这个声明值不值得信」,最终仍靠数据与验证。
这就是本课的毕业线:拿到一篇宣传,能写出区分真本事与水分的批判性评估。
「批判 = 否定 AI」——错。批判是校准,不是轻蔑。轻信和轻蔑都是偷懒;真正的专业,是既不被宣传忽悠、也不因它不完美就全盘否定。
药物 AI 炒作批判 / benchmark 反思一篇;药物发现中的 time-split / 数据泄漏一篇。
带着这套「读懂 + 判断」的能力,进入第四篇——在真实的 5 问主线上,反复用它。
这一篇,你真正带走的是「判断力」
如果合上这一篇你只记住一件事,请记住:第二篇练的不是术语,是面对真实模型输出时的研发判断力。下面五句话,是你现在应该能独立完成的动作。
| 模块 | 我现在能…… |
|---|---|
| M2.1 | 给一个分子胶任务选对表示,并说出它的代价(尤其能讲清「诱导界面无法预先编码」这个独有难点)。 |
| M2.2 | 选对模型家族,把等变性当成正确性前提;并在 AI 快筛与物理精修之间做出分工决策。 |
| M2.3 | 读懂 pLDDT/PAE/ipTM,看一张 PAE 热图就能判断「界面信几分」,不被高总分骗。 |
| M2.4 | 读懂生成式产物与帕累托前沿,分清它承诺与没承诺什么,按项目约束挑候选。 |
| M2.5 | 用失败模式清单,当场逐句拆穿一段「AI 设计药物」宣传,写出区分真本事与水分的评估。 |
第三篇会把本篇反复点到的那句暗线讲透——「数据才是真正的瓶颈」;第四篇会让你把这一篇的每一项判断力,放到真实的「分子-蛋白-验证」5 问主线上反复实战。第二篇的价值,要到那时才完全兑现。
一句话收口
对 AI 既不轻信也不轻蔑——既看见它真能做什么,也诚实承认它不能做什么,并永远记得,数据才是护城河。