沙利度胺
作镇静止吐药上市,因严重致畸被撤回;几十年后人们才发现:它结合 CRBN、改写其底物清单——这是人类用上的第一个分子胶,机制完全是事后才补上的。
这一篇只做一件事:帮你装上正确的世界观,破除"AI = 降本提速"的误解。它决定你之后看待每一项技术的眼光。
分子胶(MG)是全程主角,PROTAC 只作对照系。每个机制、每张图都先回到"胶"。
AI 不是某一篇的"专题日",而是贯穿全程的视角:每一站都问"这里 AI 能/不能做什么"。
每讲都明确 AI 不能做什么。导论 S4 是全课的"说真话"立场宣言。
学完导论,你能向任何人讲清"分子胶是什么、和 PROTAC 差在哪、为什么值得做",能用五问给任意一项分子胶工作定位,并对任何"AI 设计分子胶"的宣传一眼分辨含金量与水分。
| S0 | S0 · 开场与定调 课程世界观、全课地图、三律令、起点自评 | 约20min |
| S1 | S1 · 诱导邻近药理学革命 占据型→事件驱动、UPS 底座、谱系、圣杯、临床现实 | 约50min · M0.1 |
| S2 | S2 · 制造一个不存在的界面 单价/双价、neo-PPI、协同 α 与算例、钩状效应、四难、偶然史 | 约55min · M0.2 |
| ☕ | 学到这里,建议起身休息一下再继续 | |
| S3 | S3 · 把研发拆成五问(全课地图) Q1–Q5 翻译、Q→课程模块映射、带回流的循环 | 约40min · M0.3 |
| S4 | S4 · 诚实的版图 · 反炒作 MGBench 硬数字、记忆vs泛化、模型家族、数据瓶颈、护城河 | 约45min · M0.4 |
| S5 | S5 · 收束与桥接 回扣三律令/五问/自评、能做的 5 件事、桥接第一篇、自测 | 约20min |
开宗明义地把丑话说在前面:这不是一门"教你用 ChatGPT/大模型去算化学"的工具课。三天之后,你大概率仍然不能"一键设计出一个分子胶"——因为没有人能。你能得到的是另一样更值钱的东西:一套判断力。看到一项分子胶工作、一篇论文、一段融资稿,你能迅速判断它在做什么、难在哪、AI 在其中是真有杠杆还是在讲故事。导论这一篇,就是把这套判断力的"操作系统"先装上。
先看一张全景,知道自己站在一段怎样旅程的起点。这门完整课程是 34 个模块、6 篇、约 69 学时。看下面这张图,花一分钟记住两件事:第四篇"五问核心"才是全课重心,而导论的任务是让你有资格读懂它;以及AI 是贯穿全程的主线,不是某一篇的专题。
导论(你现在这一篇)负责装世界观;技术细节在后面的篇章逐步展开。今天上午,我们把这张地图的"母逻辑"讲透。
把三条律令当成贯穿全课的"宪法",每节课都会回到它们。① 分子胶为圆心,PROTAC 只作对照——我们不是在讲"降解剂"泛泛,而是死磕"胶"这个最难、最像药的子类。② AI 是主线不是专题日——你不会在某一天集中"学 AI",而是每一站都问"这里 AI 能做什么、不能做什么"。③ 诚实优先于炒作——每讲都明确 AI 的能力边界;今天上午的 S4 就是全课的"说真话"立场宣言。
知道这门课教的是判断力,手里已经有了全课地图和三条律令这两件"导航工具"。
过去一个世纪,几乎所有小分子药物都在做同一件事——占住一个口袋。一个激酶抑制剂要起效,必须持续坐在 ATP 结合位点上,把酶"按住"。这是占据型药理学(occupancy-driven):药效与"被占据的靶点比例"挂钩,是化学计量的——一个药分子按住一个靶点。它带来三重天花板:其一,必须维持高血药浓度、高占据率,副作用随之而来;其二,药一旦代谢、浓度一降,靶点立刻"松绑"恢复活性;其三,也是最致命的——全基因组里约 80% 的蛋白根本没有可供"按住"的深口袋,传统上被判为"不可成药"。
在讲"降解"之前,先用两分钟把细胞自带的垃圾处理机器讲清楚——这对计算背景的同学是补课,对生物背景的同学是快速复习。细胞清除蛋白靠泛素–蛋白酶体系统(UPS):泛素这种小蛋白经 E1 活化、E2 传递,最后由 E3 泛素连接酶识别特定底物、把泛素一个个接上去,形成多泛素链——这等于贴上一张"该销毁"的标签,被标记的蛋白随即送进 26S 蛋白酶体切成肽段。人体有 600 多个 E3,而分子胶的主战场是其中的 CRBN(CRL4 复合物的底物受体)。记住这条流水线,后面所有"降解"都发生在它上面。
降解剂换了一种打法:它不去按住谁,只促成一次相遇——把目标蛋白拽到 E3 旁边,贴上泛素标签,然后整个蛋白被清除。关键在于贴完标签,药分子就松手走人,去找下一个靶蛋白。一个降解剂分子可以催化性地、反复地清除许多份靶蛋白。这就是事件驱动型药理学(event-driven),它是亚化学计量的、催化性的。一句话记牢:抑制是"按住",降解是"贴标签送走"——按住需要你一直在场,送走只需要你来过一次。
"促成两个蛋白相遇"这个思路,长出了一整个家族,统称诱导邻近:MG(分子胶)、PROTAC、LYTAC、AUTAC/ATTEC、RIPTAC、稳定型胶……它们都在"把两个东西拉到一起",区别在下游事件(降解 / 稳定 / 信号)与递送策略。把谱系铺开,重点高亮分子胶的坐标——它在"药学性质最优 × 理性设计最难"这个角上,孤零零、最诱人也最难啃。
分子胶被业界称为靶向降解的"圣杯",原因是一对尖锐的矛盾:它的成药性最像传统小分子——单价、低分子量、常常可口服、更可能穿过血脑屏障;而 PROTAC 是双价大分子,常落在"Rule of 5 之外"(bRo5)的化学空间,口服与透脑都更难。但代价是——分子胶几乎无法理性设计:它非模块化、活性来自难以预测的整体协同,历史上多为偶然发现(S2 详谈)。药学性质最好的那一类,恰恰是最难做出来的那一类,这就是"圣杯"的全部含义。
怀疑者会说"听起来很美,但分子胶是不是只活在论文里"。答案是否定的。第一代 CRBN 调节剂(IMiD:沙利度胺 → 来那度胺 → 泊马度胺)早已是多发性骨髓瘤的支柱用药;真正说明范式成熟的,是下一代 CELMoD 的临床读出:mezigdomide 的 III 期研究(SUCCESSOR-2,2026-03)取得无进展生存的显著获益,iberdomide 的新药申请已被 FDA 受理,golcadomide 等也在推进。分子胶不再是机制故事,是临床现实。
题面:给定一个慢性、需长期口服、要穿过血脑屏障的中枢神经系统靶点。相对 PROTAC,分子胶有哪些先天优势?又付出什么代价?先自己想 2 分钟,再展开下面的参考答案对照。
能向任何人讲清"分子胶是什么、和 PROTAC 差在哪、为什么值得做"。
先把胶和 PROTAC 的"身材"讲清楚。PROTAC 是双价的:一端配体抓靶点、一端配体抓 E3、中间一根连接子。这意味着它可拼装、可枚举——换连接子、换 E3 配体,像搭积木一样优化。分子胶是单价的:一个完整的小分子整体起效,没有"可替换的零件"。这一字之差决定了一切下游的难度——胶不能拆件设计,只能整体地、几乎是一次性地"碰对"。
把全课压缩成一句话写在黑板上:一个分子胶的全部工作,是用一个小分子"制造"出一个自然界本不存在的蛋白—蛋白界面(neo-PPI)。胶坐在两个蛋白之间,把它们"焊"在一起——而这两个蛋白原本压根不会相遇。这正是它与 PROTAC 最根本的不同:PROTAC 靠两端各自的强结合把两者"拽"到一起,而胶几乎不靠对靶点的单体亲和力。
既然胶对靶点本征亲和力极低甚至为零,活性从哪来?答案是三元复合物的协同(cooperativity)。我们用一个数 α 来刻画它:α 衡量"三个东西凑在一起"比"两两单独结合"被增强(α>1,正协同)还是被削弱(α<1,负协同)的倍数。分子胶之所以成立,正因为新界面创造的额外接触把单体的微弱亲和力放大成了有效的三元亲和力。一句话:追求 α,而不是追求单体亲和力。
设想一个分子胶,单独与靶点的二元亲和力弱到几乎没用:Kd(二元) ≈ 50 µM。协同性会在三元复合物里把它放大,近似关系是 Kd(三元) ≈ Kd(二元) ÷ α:
同一个分子,单体亲和力没动一分,仅靠界面协同就跨越了三个数量级。这就是"追 α、不追亲和力"的全部含义——也是为什么一个普通的高亲和结合剂冒充不了分子胶。
顺带提一个你后面一定会撞上的现象——钩状效应(hook effect)。三元复合物需要"一个胶同时连着靶点和 E3"。当胶的浓度过高时,它反而会分别占满靶点和 E3,把本该形成的三元拆成两个无用的二元,于是三元产量随剂量先升后降,呈钟形曲线。这解释了为什么降解剂的剂量–效应常常不是越高越好,也是 Q4"能成药吗"里一个绕不开的实务约束。这里点到为止,第四篇会展开。
现在把"制造一个不存在的界面"当成种子,看它如何长出后面所有的麻烦——这同时解释了为什么分子胶天然就是一个 AI / 数据问题:
· 化学空间巨大:要造的不是已知口袋的配体,而是全新界面,候选分子近乎无穷。
· 负样本几乎不存在:文献只报成功的胶,"试过但不成胶"的分子几乎从不发表——模型缺"什么是坏胶"的反例。
· 非模块化,无法拼装:不能像 PROTAC 那样枚举连接子,每个胶都得整体设计,经验难迁移。
· 历史靠偶然发现:里程碑多是"撞上的",不是设计出来的。
一个巨大、稀疏、缺负样本、不可拆解、历史上全靠运气的问题——这恰恰是机器学习最该上场、也最难啃的地方。这就是为什么本课把 AI 当主线。
作镇静止吐药上市,因严重致畸被撤回;几十年后人们才发现:它结合 CRBN、改写其底物清单——这是人类用上的第一个分子胶,机制完全是事后才补上的。
作为细胞毒化合物被筛出,多年后才被认出是分子胶:它招募 E3 接头 DCAF15,把剪接因子 RBM39 拽去降解。又一个"先有活性、后懂原理"的故事。
植物激素生长素把底物粘到 E3 受体 TIR1 上促其降解,借此调控生长。说明"分子胶"是自然界早已进化出的策略——人类只是后来才给它命名。
三个里程碑的共同点:都是"撞上的",不是设计出来的——这正是"分子胶难在理性设计、天然是个数据问题"的历史注脚。
发下练习 A 的虚构新闻稿(全文见文末资源包)。任务:判断它描述的是"真正的分子胶"还是"普通高亲和力结合剂",并写出 2 条判据。小组 5 分钟,汇报 4 分钟。
能用"制造一个不存在的界面"一句,推出全课所有技术挑战。
S2 推出的所有难题,可以收敛成五个根本问题。把这张图投出来,逐行翻译成大白话,并对每一问点出"难在哪"和"AI 从哪切入":
· Q1 什么蛋白能被粘?(可成胶组 / 降解子识别)——难点:不是所有蛋白都有能被诱导出的"可粘表面"。AI 切入:从结构/序列挖掘可成胶位点。
· Q2 粘起来长什么样?(三元结构与协同 α)——难点:三元构象与协同极难预测。AI 切入:共折叠/结构预测。
· Q3 用什么分子去粘?(化学设计)——难点:巨大化学空间 + 非模块化。AI 切入:生成式设计、对接。
· Q4 粘了会降解吗、能成药吗?(功能 / 选择性 / DMPK)——难点:脱靶降解、钩状效应、成药性。AI 切入:性质与脱靶预测。
· Q5 怎么闭环迭代?(DMTA / 平台)——难点:把前四问连成可持续转动的系统。AI 切入:主动学习挑下一个实验。
这张地图最值钱的一层,是让你知道"每一问后面在课程的哪里展开"——这样导论的地图就直接接成了课程目录,你随时都能知道"我在攻打哪一问"。
| 五问 | 一句话 | 在完整课程里的落点 |
|---|---|---|
| Q1 | 什么蛋白能被粘 | 第一篇(生物根基)打底 + 第四篇 Q1 模块展开可成胶组/降解子识别。 |
| Q2 | 粘起来长什么样 | 第二篇(AI 工具箱·共折叠)+ 第四篇 Q2 模块:三元结构与协同预测。 |
| Q3 | 用什么分子去粘 | 第二篇(生成式设计/对接)+ 第四篇 Q3 模块:化学设计。 |
| Q4 | 会降解/能成药吗 | 第四篇 Q4 模块 + 第五篇(验证转化):功能、选择性、DMPK。 |
| Q5 | 怎么闭环迭代 | 第三篇(数据层)+ 第六篇(平台前沿):DMTA、数据飞轮、主动学习。 |
最后强调一件最容易被讲错的事:五问不是五个独立步骤、不是一条单向流水线,而是一个带回流的循环。图里那条琥珀色的回流弧才是关键——Q5 的真实实验数据回喂 Q1–Q4 的模型,形成数据飞轮。把它当流水线,就会错过分子胶 AI 真正的护城河(S4 收口)。后面第四篇每个模块开头都会回到这张图,点亮"当前所在的 Q"。
看五问定位卡(6 段工作描述,全文见文末资源包)。任务:判断每段主要回答了五问中的哪几问?想清楚后展开参考答案对照。
能用五问给任意一项分子胶工作"定位坐标"。
这一讲奠定全课的"说真话"人设,先把数字摆上桌。在 MGBench 基准上(已正式发表于 J Chem Inf Model, 2026),AF3 是当前最好的共折叠模型,但它在分子胶任务上的真实成绩是:蛋白—蛋白界面成功率约 50.6%,而分子胶—蛋白相互作用恢复率仅约 32.9%。先让这个数字沉一会儿——一半都不到。
真正扎心的是下一句:研究发现这约 33% 的"成功"大部分来自记忆(memorization)而非泛化(generalization)。什么意思?模型在训练里见过相似的结构,于是把答案"背"了出来——这不等于它学会了规律、能迁移到没见过的体系。一旦换成新型 E3 体系、大界面、domain–domain 复合物、降解剂复合物,模型尤其吃力,遇到全新的 E3 基本失灵。结论:33% 本就不高,而这 33% 里还掺了"背答案"的水分——真实能力比账面更低。
很多人本能地以为"AF3 不够,换个更新更大的就好"。先看清楚这个家族里有谁,再说为什么这条路走不通:
| 共折叠模型 | 来源 / 性质 | 在分子胶语境下的定位 |
|---|---|---|
| AF3MGBench 最佳 | AlphaFold3 · DeepMind / Isomorphic | 当前最强共折叠模型,也是 MGBench 的基准对象:蛋白–蛋白界面 ~50.6%、MG–蛋白恢复 ~32.9%,且多为记忆。 |
| Boltz | 开放权重 · 社区 | AF3 思路的开源实现代表,可本地复现;为研究"模型 vs 数据"提供了可控对照。 |
| Chai-1 | Chai Discovery · 开放研究权重 | 另一多组分生物分子复合物预测模型,覆盖蛋白 + 配体 + 核酸。 |
| Protenix | 字节跳动 · 开源 | AF3 的开源复现 / 再训练实现之一,便于做数据与训练策略的消融。 |
| RFAA | RoseTTAFold All-Atom · Baker 实验室 | 较早的全原子统一建模(蛋白 + 小分子 + 核酸),常被用作早期对照基线。 |
注意:本表只有 AF3 带 MGBench 的具体数字,其余为定位性描述,不应据此排名。它们的失败模式高度一致——这正是下一段的引子。
为什么换模型不解决问题?因为瓶颈在数据:
· 整个 PDB 里,非共价分子胶的三元复合物结构,只有大约 200 个(MG-PDB 收录 221 个)。对数据饥渴的深度模型,这点样本薄得可怜。
· 负样本几乎缺失(S2 已埋):没人系统发表"试过但不成胶"的分子,模型学不到"什么是失败"。
· 湿实验与模型匹配度差:能算出几何,却对接不上真实的降解读出。
把这一刀收成贯穿全课的暗线:拥有专有数据飞轮的人赢,而不是拥有最大模型的人赢。模型家族是公开的、可复制的;干净、专有、能回流的数据闭环,才是真正不可复制的护城河。Monte Rosa 的 QuEEN 平台(Science, 2025)就是这个逻辑的注脚——价值不在某个"大模型",而在用专有数据系统刻画了 CRBN 的可成胶靶点空间(第三篇展开)。
阅读练习 B 的虚构宣传稿("AI 从头设计分子胶",全文见文末资源包)。任务:列出你会追问的 3 个问题,并指出最可能是"水分"的一句。想清楚后对照参考答案。
看任何 AI 分子胶宣传,能一眼分辨含金量与水分。
用三件东西收口:三条律令(圆心是胶、AI 是主线、诚实优先)、五问地图(带回流的循环)、以及那句黑板话——分子胶就是制造一个不存在的界面。然后回到 S0 的投票:把开场的"信几分"分布和现在对照,问一句"看完证据,你的判断变了吗"。这不是要大家变得悲观,而是变得有判断力——这正是导论的全部目的。
下面这张速记卡建议你保存随身回看(也是文末资源包里的可打印页):
分子胶用一个小分子"制造"出自然界本不存在的蛋白界面(neo-PPI),靠三元协同 α 起效、催化式清除靶点;它最像传统小分子、却最难理性设计。把研发拆成带回流的五问循环。而 2026 年诚实的结论是:AI 仍只是假设生成器(AF3 在分子胶上仅 ~33% 且多为记忆),真正的护城河是专有数据飞轮,而非最大的模型。
导论装好了世界观,但要真正攻打五问,第一篇要先让 AI 尊重生物学:计算背景的同学补生物机制,化学/生物背景的同学补深度。没有这一篇,第四篇里模型吐出的结构就只是"好看的数字"。这就是我们下午/接下来要走的下一站。
做一遍自测 6 题(全文 + 答案见文末资源包)。独立作答后自评——答不上的点,就是你该回看的地方。
看任何一项分子胶工作、任何一句"AI 设计药物"的宣传,你已经能定位它、并分辨它的含金量与水分。
本节集中放置全篇各练习的完整题面与参考答案,以及术语表和延伸阅读清单,便于一次性保存或打印。
NovaGlue 今日公布临床前数据:其口服小分子 NG-114 以纳摩尔级亲和力直接结合靶蛋白 XTF-1,并在多种肿瘤细胞系中实现对该靶点的高选择性清除。公司称 NG-114"成药性优异、口服暴露良好",有望成为"同类首创的 XTF-1 靶向疗法"。新闻稿未提及作用机制的进一步细节。
判据答案:① 真胶对靶点单体亲和力通常极弱甚至为零,活性来自三元协同——"纳摩尔直接结合靶点"反而不像胶;② 全文未提 E3 / 三元复合物 / 协同 α / 邻近依赖,缺乏胶的机制证据。结论:更可能是普通强结合剂/抑制剂,或至少该稿未能证明它是胶。
DeepBind AI 宣布其生成式平台成功从头设计出全新分子胶 DB-7。公司称平台一次性预测出三元复合物结构并指导合成,并称在内部评测中命中率较传统方法提升 10 倍,"标志着 AI 设计分子胶进入新时代"。稿件未披露训练数据、基线定义与湿实验验证细节。
追问答案:① 用了什么数据?是否泛化到训练集未见过的 E3/界面,还是召回已知结构(记忆)?② "提升 10 倍"的分母/基线是什么、样本量多大、前瞻还是回顾?③ 有无湿实验(降解读出/选择性)证据?最像水分的一句:"一次性预测出三元复合物结构并指导合成"——最强的 AF3 在 MG 界面恢复仅约 33% 且多为记忆,"一次预测准"高度存疑。