← 课程门户
第〇篇 · 导论 学员自学版 全课起点

AI 赋能分子胶研发 · 学员自学版分子胶 AI 的
范式与版图

这一篇只做一件事:帮你装上正确的世界观,破除"AI = 降本提速"的误解。它决定你之后看待每一项技术的眼光。

Law 01

分子胶为圆心

分子胶(MG)是全程主角,PROTAC 只作对照系。每个机制、每张图都先回到"胶"。

Law 02

AI 是主线

AI 不是某一篇的"专题日",而是贯穿全程的视角:每一站都问"这里 AI 能/不能做什么"。

Law 03

诚实优先于炒作

每讲都明确 AI 不能做什么。导论 S4 是全课的"说真话"立场宣言。

本篇目标

学完导论,你能向任何人讲清"分子胶是什么、和 PROTAC 差在哪、为什么值得做",能用五问给任意一项分子胶工作定位,并对任何"AI 设计分子胶"的宣传一眼分辨含金量与水分。

这一篇怎么学——每节含 5 个部分
本节学习路径:先看什么、再想什么的推荐顺序。
详细讲解:能反复回看、读透每个概念的正文。
学习要点:本节最该记住的认知、最容易踩的坑、关键过渡。
动手练习:讨论/自测题 + 参考答案,学完即可自我检验。
可视化:精做的核心图,全课反复调用。
资源包:练习全文、五问卡、自测题、术语表、延伸阅读。
导论 · 全篇结构(6 节 · 约 4 小时自学)S0 – S5
S0S0 · 开场与定调
课程世界观、全课地图、三律令、起点自评
约20min
S1S1 · 诱导邻近药理学革命
占据型→事件驱动、UPS 底座、谱系、圣杯、临床现实
约50min · M0.1
S2S2 · 制造一个不存在的界面
单价/双价、neo-PPI、协同 α 与算例、钩状效应、四难、偶然史
约55min · M0.2
学到这里,建议起身休息一下再继续
S3S3 · 把研发拆成五问(全课地图)
Q1–Q5 翻译、Q→课程模块映射、带回流的循环
约40min · M0.3
S4S4 · 诚实的版图 · 反炒作
MGBench 硬数字、记忆vs泛化、模型家族、数据瓶颈、护城河
约45min · M0.4
S5S5 · 收束与桥接
回扣三律令/五问/自评、能做的 5 件事、桥接第一篇、自测
约20min
20′09:00
Session 0 · 09:00–09:20

开场与定调超出大纲新增

全课起点形态:讲 + 投票目的:装世界观、立预期
本节目标
  • 理解明白这门课教的是"判断力",不是"用大模型算化学"的操作课。
  • 理解看懂 3 天 / 34 模块 / 6 篇的全课地图,知道导论在其中的位置。
  • 理解记住三条教学律令——它们是贯穿全程、反复回扣的"课程宪法"。
本节学习路径 · 建议顺序20′
  1. 看图用全课地图建立全局感:这门课会去哪、取舍了什么。(约6min)
  2. 记住三条贯穿全课的律令——它们是课程"宪法",每节都会回扣。(约4min)
  3. 自评起点自评:你现在对"AI 能设计分子胶"信几分(1–5)?记下你的数字。(约5min)
  4. 定位背景定位:判断自己更偏生物 / 化学 / 计算,留意各篇为你补哪一块。(约5min)

这门课要装的"世界观"

开宗明义地把丑话说在前面:这不是一门"教你用 ChatGPT/大模型去算化学"的工具课。三天之后,你大概率仍然不能"一键设计出一个分子胶"——因为没有人能。你能得到的是另一样更值钱的东西:一套判断力。看到一项分子胶工作、一篇论文、一段融资稿,你能迅速判断它在做什么、难在哪、AI 在其中是真有杠杆还是在讲故事。导论这一篇,就是把这套判断力的"操作系统"先装上。

三天我们去哪:全课地图

先看一张全景,知道自己站在一段怎样旅程的起点。这门完整课程是 34 个模块、6 篇、约 69 学时。看下面这张图,花一分钟记住两件事:第四篇"五问核心"才是全课重心,而导论的任务是让你有资格读懂它;以及AI 是贯穿全程的主线,不是某一篇的专题。

你在这里
导论
范式与版图
4 模块 · ~4h
生物根基
让 AI 尊重生物学
5 模块 · ~9h
AI 工具箱
模型范式
5 模块 · ~9h
数据层
飞轮的燃料
5 模块 · ~8h
五问核心
Q1–Q5 全展开
6 模块 · ~16h
验证转化
从计算到湿台
5 模块 · ~7h
平台前沿
闭环与未来
4 模块 · ~6h
Capstone
综合实战
— · ~10h

导论(你现在这一篇)负责装世界观;技术细节在后面的篇章逐步展开。今天上午,我们把这张地图的"母逻辑"讲透。

课程宪法:三条教学律令

把三条律令当成贯穿全课的"宪法",每节课都会回到它们。① 分子胶为圆心,PROTAC 只作对照——我们不是在讲"降解剂"泛泛,而是死磕"胶"这个最难、最像药的子类。② AI 是主线不是专题日——你不会在某一天集中"学 AI",而是每一站都问"这里 AI 能做什么、不能做什么"。③ 诚实优先于炒作——每讲都明确 AI 的能力边界;今天上午的 S4 就是全课的"说真话"立场宣言。

▮ 本节学习要点 · S0
先校准预期这门课不会把你训练成"一键算分子"的操作员——那种教程网上很多。它要给你的是另一样更值钱的东西:判断力。学完之后,你看任何一项分子胶工作、任何一句"AI 设计药物"的宣传,都能立刻看穿它在做什么、难在哪、水分在哪。
一句话记住学完导论你不会"会设计分子胶",但你会有判断力。带着这个预期往下读——后面 S4 给出冷冰冰的硬数字时,你就不会误以为"那 AI 岂不是没用"。
现在做一次自评问自己:"我现在对'AI 能设计分子胶'信几分(1=纯炒作,5=基本成熟)?"把这个数字记下来。读到 S4 时回来对照——看完证据,它该不该变。这条自我对照,是理解全篇最有力的一条线。
给自己定位背景判断你更偏生物、化学还是计算背景。课程是按"双向补课"设计的:第一篇会给计算背景的同学补生物机制,给生物背景的同学补深度——这正回应了全课"让 AI 尊重生物学"的主张。读到不熟的部分慢一点,是正常的。
承上启下要建立判断力,得先理解一场正在发生的范式革命——为什么"降解"比"抑制"更性感,而"胶"又是其中的圣杯。这就是 S1。
◆ 动手练习 · 起点自评 + 背景定位5′ · 全员
1.自评:"你现在对'AI 能设计分子胶'信几分?"在 1–5 里选一个,记下你的数字。
2.背景定位:判断自己更偏生物 / 化学 / 计算背景。
为什么这样设计 · 学习提示
这次自评不是走形式,而是给自己埋一条贯穿全篇的伏笔:到 S4,你会用 MGBench 的硬数字回头校正这个"信几分"——让证据来纠正直觉,比任何人直接告诉你"别信炒作"都有力得多。给自己定位背景,则决定了你读 UPS 那段要花多少力气:计算背景的同学多花点时间补生物,生物背景的同学快速复习即可。
本节收获

知道这门课教的是判断力,手里已经有了全课地图和三条律令这两件"导航工具"。

50′09:20
Session 1 · 09:20–10:10 · M0.1

诱导邻近药理学革命

前置:无形态:讲 + 图 + 配对讨论埋钩子:AI 边界留到 S4
本节目标
  • 理解讲清从"占据型"到"事件驱动型"药理学的范式转变,及抑制 vs 降解的本质差异。
  • 理解在诱导邻近谱系(MG / PROTAC / LYTAC / AUTAC-ATTEC / RIPTAC / 稳定型胶)中定位分子胶。
  • 评价说出"为什么业界叫分子胶'圣杯'",并能反驳"分子胶只是小号 PROTAC"。
本节学习路径 · 建议顺序50′
  1. 占据型药理学的百年范式与它的三重天花板。(约8min)
  2. 看图底座 mini-primer:E3 连接酶与泛素–蛋白酶体系统(看图 0.1·d)。(约8min)
  3. 看图事件驱动 / 催化型降解:"按住" vs "贴标签送走"(图 0.1·a)。(约6min)
  4. 看图诱导邻近谱系全景,分子胶坐标高亮(图 0.1·b)。(约8min)
  5. 为何是"圣杯":成药性最优 × 设计最难;与 PROTAC 的 bRo5 对比。(约8min)
  6. 看图它现在是真的:CELMoD 临床时间线(图 0.1·c)。(约7min)
  7. 想一想想一想:慢性中枢靶点,MG vs PROTAC 怎么选(文末练习有参考)。(约5min)

占据型药理学:百年范式与它的三重天花板

过去一个世纪,几乎所有小分子药物都在做同一件事——占住一个口袋。一个激酶抑制剂要起效,必须持续坐在 ATP 结合位点上,把酶"按住"。这是占据型药理学(occupancy-driven):药效与"被占据的靶点比例"挂钩,是化学计量的——一个药分子按住一个靶点。它带来三重天花板:其一,必须维持高血药浓度、高占据率,副作用随之而来;其二,药一旦代谢、浓度一降,靶点立刻"松绑"恢复活性;其三,也是最致命的——全基因组里约 80% 的蛋白根本没有可供"按住"的深口袋,传统上被判为"不可成药"。

必备底座:E3 连接酶与泛素–蛋白酶体系统

在讲"降解"之前,先用两分钟把细胞自带的垃圾处理机器讲清楚——这对计算背景的同学是补课,对生物背景的同学是快速复习。细胞清除蛋白靠泛素–蛋白酶体系统(UPS):泛素这种小蛋白经 E1 活化、E2 传递,最后由 E3 泛素连接酶识别特定底物、把泛素一个个接上去,形成多泛素链——这等于贴上一张"该销毁"的标签,被标记的蛋白随即送进 26S 蛋白酶体切成肽段。人体有 600 多个 E3,而分子胶的主战场是其中的 CRBN(CRL4 复合物的底物受体)。记住这条流水线,后面所有"降解"都发生在它上面。

泛素–蛋白酶体系统(UPS):细胞如何"贴标签 + 销毁" ①② 泛素经 E1 活化、E2 传递(上游,略) → ③ E3 识别底物并转移泛素 靶蛋白 E3 连接酶 底物受体 Ub ③ 识别 + 转移泛素 靶蛋白 多泛素链 ④ "该销毁"信号 26S 蛋白酶体 肽段 ⑤ 降解为肽段
图 0.1·d · 补充分子胶/降解剂的"事件驱动"就发生在这条流水线上:胶把靶蛋白拉到 E3 连接酶(分子胶主战场是 CRBN/CRL4)旁,促成泛素转移、形成多泛素链,靶蛋白随即被 26S 蛋白酶体降解。给计算背景的同学:这就是你的模型最终要尊重的机制;给生物背景的同学:这是一次快速复习。

事件驱动:从"按住"到"贴标签送走"

降解剂换了一种打法:它不去按住谁,只促成一次相遇——把目标蛋白拽到 E3 旁边,贴上泛素标签,然后整个蛋白被清除。关键在于贴完标签,药分子就松手走人,去找下一个靶蛋白。一个降解剂分子可以催化性地、反复地清除许多份靶蛋白。这就是事件驱动型药理学(event-driven),它是亚化学计量的、催化性的。一句话记牢:抑制是"按住",降解是"贴标签送走"——按住需要你一直在场,送走只需要你来过一次。

占据型 · 抑制 化学计量 1:1 · 必须持续占据 靶蛋白 被"按住",仍在原地 药一走 活性恢复 靶点松绑,重新工作 事件驱动 · 降解 亚化学计量 · 催化清除 E3 机器 靶蛋白 Ub 送去降解 蛋白酶体 同一个分子松手 → 去清除下一份靶点(催化循环)
图 0.1·a左:抑制剂必须持续占据口袋,药一代谢,靶点活性即恢复(化学计量、需高占据)。右:降解剂只需"促成相遇"——贴上泛素标签把靶点送进蛋白酶体后即松手循环,一个分子催化性清除多份靶蛋白(亚化学计量、事件驱动)。

诱导邻近谱系:分子胶的独特坐标

"促成两个蛋白相遇"这个思路,长出了一整个家族,统称诱导邻近:MG(分子胶)、PROTAC、LYTAC、AUTAC/ATTEC、RIPTAC、稳定型胶……它们都在"把两个东西拉到一起",区别在下游事件(降解 / 稳定 / 信号)与递送策略。把谱系铺开,重点高亮分子胶的坐标——它在"药学性质最优 × 理性设计最难"这个角上,孤零零、最诱人也最难啃。

诱 导 邻 近 · INDUCED PROXIMITY 分子胶 MG 单价 · 小分子 成药性最像传统小分子 理性设计最难 PROTAC 双价 · 可拼装 LYTAC 胞外蛋白 AUTAC / ATTEC 自噬通路 RIPTAC 诱导死亡 稳定型胶(不降解,稳住界面) rapamycin · 14-3-3 · MTA 协同 同一范式 不同"送货地址"
图 0.1·b诱导邻近谱系全景。所有成员都"把两个蛋白拉到一起",区别在下游事件与递送策略。分子胶的坐标最特殊:药学性质最优、理性设计最难——这正是 AI 在此最有杠杆的地方。

为什么叫"圣杯"

分子胶被业界称为靶向降解的"圣杯",原因是一对尖锐的矛盾:它的成药性最像传统小分子——单价、低分子量、常常可口服、更可能穿过血脑屏障;而 PROTAC 是双价大分子,常落在"Rule of 5 之外"(bRo5)的化学空间,口服与透脑都更难。但代价是——分子胶几乎无法理性设计:它非模块化、活性来自难以预测的整体协同,历史上多为偶然发现(S2 详谈)。药学性质最好的那一类,恰恰是最难做出来的那一类,这就是"圣杯"的全部含义。

它现在是"真的":临床现实,不只是机制故事

怀疑者会说"听起来很美,但分子胶是不是只活在论文里"。答案是否定的。第一代 CRBN 调节剂(IMiD:沙利度胺 → 来那度胺 → 泊马度胺)早已是多发性骨髓瘤的支柱用药;真正说明范式成熟的,是下一代 CELMoD 的临床读出:mezigdomide 的 III 期研究(SUCCESSOR-2,2026-03)取得无进展生存的显著获益,iberdomide 的新药申请已被 FDA 受理,golcadomide 等也在推进。分子胶不再是机制故事,是临床现实。

CRBN 调节剂的进化:从偶然到临床现实 效力 / 理性化程度 → thalidomide 偶然发现 lenalidomide 第一代 IMiD · 已上市 pomalidomide 第一代 · 已上市 下一代 CELMoD mezigdomide Ⅲ期阳性 · SUCCESSOR-2 PFS 显著获益 · 2026-03 iberdomide NDA 已被 FDA 受理 golcadomide GOLSEEK 推进中
图 0.1·c从偶然发现的沙利度胺,到经理性优化的下一代 CELMoD。SUCCESSOR-2 的 III 期阳性与 iberdomide 的 NDA 受理,标志分子胶范式已进入临床现实阶段。
✕ 开讲前先拆掉的误区
  • 误区「分子胶 = 小号 PROTAC」。→ 错。分子胶是单价、非模块化的,不能像 PROTAC 那样把"靶点配体 + 连接子 + E3 配体"拼起来——活性来自整体协同,无法拆件设计。
  • 误区「降解一定优于抑制」。→ 错。是否该降解、降解是否更好,取决于靶点生物学与治疗窗口;很多场景抑制反而更合适。
▮ 本节学习要点 · S1
一个好用的比喻想象一个保安按住门把手不放——他一松手,门就开了。这是过去一百年几乎所有药的工作方式(占据型)。现在换个保安:他只走过去给捣乱的人贴张"请清退"的条子,然后转身去贴下一个。这就是降解(事件驱动)。
怎么读 UPS 这段如果你是计算背景,请把图 0.1·d 看透——这是你的模型最终必须尊重的机制;如果你是生物背景,这段是快速复习,记住"E3 贴标签、蛋白酶体销毁、主战场 CRBN"即可,把精力多留给后面"圣杯"那段。
两个常见疑问,先想清楚
  • "降解不是一定更好吗?"——不一定。是否更优取决于靶点生物学与治疗窗,别带着"降解万能"的错觉往下走(见误区②)。
  • "PROTAC 不是更好设计吗,为什么还做胶?"——答案在本节收尾的"圣杯矛盾":是药学性质(口服、透脑、低分子量)决定了胶值得啃。
把一个判断先悬着你现在一定想问"AI 到底能不能设计胶了"。先别急着下结论——把这个判断悬在半空,S4 我们会用硬数字把它落地。这正是全课"诚实优先"的态度。
承上启下既然胶这么难设计,就得先问一个最根本的问题:一个分子胶,到底在做什么?答案只有一句话——这就是 S2。
◆ 动手练习 · 想一想5′ · 两人一组

题面:给定一个慢性、需长期口服、要穿过血脑屏障的中枢神经系统靶点。相对 PROTAC,分子胶有哪些先天优势?又付出什么代价?先自己想 2 分钟,再展开下面的参考答案对照。

参考答案 · 自评用
分子胶是单价小分子,分子量小、口服生物利用度好、更可能穿过血脑屏障,符合慢性中枢用药对成药性的苛刻要求;PROTAC 双价、分子量大(常超 bRo5),口服与透脑都更难。代价是分子胶更难理性设计。收口一句:"对这类靶点,药学性质常常是决定性约束——这正是值得啃下'圣杯'的理由。"
本节收获

能向任何人讲清"分子胶是什么、和 PROTAC 差在哪、为什么值得做"。

55′10:10
Session 2 · 10:10–11:05 · M0.2

核心命题:制造一个不存在的界面

推导出 Q1–Q5前置:S1形态:讲 + 算例 + 批判性阅读
本节目标
  • 理解讲清单价 vs 双价,说明分子胶活性几乎全部来自三元复合物协同。
  • 理解定义协同性 α,说明 α>1 / α<1 的物理含义。
  • 应用从"制造 neo-PPI"一句话推导出 ≥3 个下游技术挑战。
  • 评价区分一段宣传讲的是"真正的胶"还是"普通高亲和力结合剂"。
本节学习路径 · 建议顺序55′
  1. 单价 vs 双价:为什么"可拼装性"是分水岭。(约6min)
  2. 看图核心命题 neo-PPI + 真实例 lenalidomide–CRBN–IKZF(图 0.2·a)。(约10min)
  3. 算例协同性 α:二元→三元 + α 数字直觉算例(图 0.2·b)。(约12min)
  4. 钩状效应:α 的实务推论,剂量过高反而失效。(约5min)
  5. 从一句话推出四大技术难点 → 为何天然是数据问题。(约8min)
  6. 速记偶然发现三连:thalidomide / indisulam / auxin。(约5min)
  7. 练习批判性阅读:判真胶 vs 普通结合剂,写 2 条判据(练习 A)。(约9min)

单价 vs 双价:为什么这是分水岭

先把胶和 PROTAC 的"身材"讲清楚。PROTAC 是双价的:一端配体抓靶点、一端配体抓 E3、中间一根连接子。这意味着它可拼装、可枚举——换连接子、换 E3 配体,像搭积木一样优化。分子胶是单价的:一个完整的小分子整体起效,没有"可替换的零件"。这一字之差决定了一切下游的难度——胶不能拆件设计,只能整体地、几乎是一次性地"碰对"。

核心命题:制造一个不存在的界面

把全课压缩成一句话写在黑板上:一个分子胶的全部工作,是用一个小分子"制造"出一个自然界本不存在的蛋白—蛋白界面(neo-PPI)。胶坐在两个蛋白之间,把它们"焊"在一起——而这两个蛋白原本压根不会相遇。这正是它与 PROTAC 最根本的不同:PROTAC 靠两端各自的强结合把两者"拽"到一起,而胶几乎不靠对靶点的单体亲和力。

① 天然:互不相遇 ② 胶坐进 E3 → 造出新表面 ③ neo-PPI 形成 · 协同放大 E3 靶蛋白 ✗ 本无相互作用 E3 新表面 neosurface 胶=单价,只先结合 E3 E3 界面把弱结合补成强结合 活性 = 协同 α
图 0.2·a分子胶把一个原本不存在的蛋白—蛋白界面"焊"了出来。靶点本征亲和力可近于零,活性几乎全部来自三元复合物的协同——这是它与 PROTAC(靠两端各自的强结合)最根本的不同。
真实例子 · 讲这一段时务必给
来那度胺(lenalidomide)本身对转录因子 IKZF1/IKZF3(Ikaros/Aiolos)几乎没有意义上的亲和力,对 CRBN 的结合也不算强。但它一旦坐进 CRBN 的口袋,就在 CRBN 表面制造出一个新的"着陆面",让原本与 CRBN 毫无关系的 IKZF1/3 被招募过来、降解。"不存在的界面"不是比喻——它是被这一个小分子真实制造出来的。

协同性 α:分子胶的"心率"

既然胶对靶点本征亲和力极低甚至为零,活性从哪来?答案是三元复合物的协同(cooperativity)。我们用一个数 α 来刻画它:α 衡量"三个东西凑在一起"比"两两单独结合"被增强(α>1,正协同)还是被削弱(α<1,负协同)的倍数。分子胶之所以成立,正因为新界面创造的额外接触把单体的微弱亲和力放大成了有效的三元亲和力。一句话:追求 α,而不是追求单体亲和力。

α = 三元结合相对二元结合被增强(α>1) 或削弱(α<1) 的倍数 α > 1 · 正协同 E3 新界面带来额外有利接触 弱结合 → 被"补强" → 真正的胶 α < 1 · 负协同 E3 ⚡位阻 / 排斥 三者互相妨碍 三元复合物比预期更不稳定
图 0.2·b协同性 α 的物理含义。正协同(α>1)是好胶的核心特征:界面创造的额外接触把微弱的单体亲和力放大成有效的三元亲和力。追求 α,而非追求单体亲和力。
▦ 把 α 算一遍 · 数字直觉

设想一个分子胶,单独与靶点的二元亲和力弱到几乎没用Kd(二元) ≈ 50 µM。协同性会在三元复合物里把它放大,近似关系是 Kd(三元) ≈ Kd(二元) ÷ α

α = 1  → Kd(三元) ≈ 50 µM  // 无协同,依旧没用
α = 500 → Kd(三元) ≈ 100 nM  // 强正协同 → 成药级三元亲和力
α = 0.2 → Kd(三元) ≈ 250 µM  // 负协同 → 比单体还弱,不成胶

同一个分子,单体亲和力没动一分,仅靠界面协同就跨越了三个数量级。这就是"追 α、不追亲和力"的全部含义——也是为什么一个普通的高亲和结合剂冒充不了分子胶。

钩状效应:α 的实务推论

顺带提一个你后面一定会撞上的现象——钩状效应(hook effect)。三元复合物需要"一个胶同时连着靶点和 E3"。当胶的浓度过高时,它反而会分别占满靶点和 E3,把本该形成的三元拆成两个无用的二元,于是三元产量随剂量先升后降,呈钟形曲线。这解释了为什么降解剂的剂量–效应常常不是越高越好,也是 Q4"能成药吗"里一个绕不开的实务约束。这里点到为止,第四篇会展开。

从一句话,推出整门课的技术难点

现在把"制造一个不存在的界面"当成种子,看它如何长出后面所有的麻烦——这同时解释了为什么分子胶天然就是一个 AI / 数据问题
· 化学空间巨大:要造的不是已知口袋的配体,而是全新界面,候选分子近乎无穷。
· 负样本几乎不存在:文献只报成功的胶,"试过但不成胶"的分子几乎从不发表——模型缺"什么是坏胶"的反例。
· 非模块化,无法拼装:不能像 PROTAC 那样枚举连接子,每个胶都得整体设计,经验难迁移。
· 历史靠偶然发现:里程碑多是"撞上的",不是设计出来的。

一个巨大、稀疏、缺负样本、不可拆解、历史上全靠运气的问题——这恰恰是机器学习最该上场、也最难啃的地方。这就是为什么本课把 AI 当主线。

1957 上市 · 数十年后才懂
沙利度胺

作镇静止吐药上市,因严重致畸被撤回;几十年后人们才发现:它结合 CRBN、改写其底物清单——这是人类用上的第一个分子胶,机制完全是事后才补上的。

抗癌筛选 · 机制后知
indisulam

作为细胞毒化合物被筛出,多年后才被认出是分子胶:它招募 E3 接头 DCAF15,把剪接因子 RBM39 拽去降解。又一个"先有活性、后懂原理"的故事。

植物 · 自然界先发明
生长素 auxin–TIR1

植物激素生长素把底物粘到 E3 受体 TIR1 上促其降解,借此调控生长。说明"分子胶"是自然界早已进化出的策略——人类只是后来才给它命名。

三个里程碑的共同点:都是"撞上的",不是设计出来的——这正是"分子胶难在理性设计、天然是个数据问题"的历史注脚。

✕ 开讲前先拆掉的误区
  • 误区「亲和力越高越好」。→ 错。胶要的是协同 α,不是单体亲和力;一个高亲和力分子很可能只是普通结合剂,反而未必是胶。
  • 误区「设计胶 = 设计一个强结合剂」。→ 错。设计胶是设计一个能诱导出强协同界面的分子,目标对象是"界面"而非"结合口袋"。
▮ 本节学习要点 · S2
只记一句话如果这一篇你只带走一句话,就是这句:一个分子胶的全部工作,是用一个小分子,制造出一个自然界本来不存在的蛋白界面(neo-PPI)。把它抄下来——后面所有技术难点都从这句推出来。
怎么理解 α 不被吓到不必先记公式。先抓直觉:α 衡量"三个一起"比"两两分别结合"被增强(α>1)还是被削弱(α<1)多少倍。再看算例框里 50 µM → 100 nM 的跳变,亲眼感受三个数量级。如果你想深一层,记住关系式 Kd,三元 ≈ Kd,二元 ÷ α;如果暂时不想,只需记"α 越大胶越强、α<1 就不成胶"。
最该纠正的一个直觉很多人第一反应是"那把亲和力做高不就行了"。这是本节最关键的纠正:高亲和力分子很可能只是普通结合剂/抑制剂,根本不是胶。胶要的是协同,不是单体亲和力。这正是文末练习 A 要你练的判断。
三个偶然发现说明什么沙利度胺、indisulam、植物生长素 auxin——它们的共同点只有一句:都是撞上的,不是设计出来的。这就是"为什么这天然是个 AI/数据问题"最硬的历史证据。
承上启下一句话长出了这么多难题。好消息是,整门课就是把这些难题整理成五个能逐个攻打的问题——这就是 S3 要画的地图。
◆ 动手练习 · 批判性阅读(练习 A)9′ · 小组 + 汇报

发下练习 A 的虚构新闻稿(全文见文末资源包)。任务:判断它描述的是"真正的分子胶"还是"普通高亲和力结合剂",并写出 2 条判据。小组 5 分钟,汇报 4 分钟。

参考答案 · 自评用
该稿强调"以纳摩尔级亲和力直接结合靶点"、"高选择性清除",却只字未提 E3、三元复合物、协同 α 或降解依赖于邻近——这更像一个普通强结合剂/抑制剂的话术。两条判据:(1) 真胶对靶点单体亲和力通常极弱甚至为零,活性来自三元协同,"纳摩尔直接结合靶点"反而不像胶;(2) 缺乏胶的机制证据——没有 E3 / 三元 / 协同 / 邻近依赖的任何描述。收口:判断是不是胶,看的是"有没有制造界面、靠不靠协同",不是看亲和力数字漂不漂亮。
本节收获

能用"制造一个不存在的界面"一句,推出全课所有技术挑战。

40′11:20
Session 3 · 11:20–12:00 · M0.3

把研发拆成五个根本问题(全课地图)

导航中枢前置:S2形态:讲 + 映射 + 定位练习
本节目标
  • 理解复述五问,并说明每问的难点与 AI 切入点。
  • 应用拿到任意一项分子胶工作,能把它定位到对应的 Q。
本节学习路径 · 建议顺序40′
  1. 看图逐行读懂五问,每问都配"难点 + AI 切入点"(图 0.3)。(约16min)
  2. 看表Q → 后续篇/模块 映射:把地图接成课程目录。(约6min)
  3. 关键洞察:带回流的循环(数据飞轮),不是流水线。(约6min)
  4. 练习五问定位练习:给一段摘要,标注它主要回答了哪几个 Q。(约12min)

五问:把一团乱麻整理成五个能攻打的问题

S2 推出的所有难题,可以收敛成五个根本问题。把这张图投出来,逐行翻译成大白话,并对每一问点出"难在哪"和"AI 从哪切入":

· Q1 什么蛋白能被粘?(可成胶组 / 降解子识别)——难点:不是所有蛋白都有能被诱导出的"可粘表面"。AI 切入:从结构/序列挖掘可成胶位点。
· Q2 粘起来长什么样?(三元结构与协同 α)——难点:三元构象与协同极难预测。AI 切入:共折叠/结构预测。
· Q3 用什么分子去粘?(化学设计)——难点:巨大化学空间 + 非模块化。AI 切入:生成式设计、对接。
· Q4 粘了会降解吗、能成药吗?(功能 / 选择性 / DMPK)——难点:脱靶降解、钩状效应、成药性。AI 切入:性质与脱靶预测。
· Q5 怎么闭环迭代?(DMTA / 平台)——难点:把前四问连成可持续转动的系统。AI 切入:主动学习挑下一个实验。

分子胶研发的五问 · 这是带回流的循环,不是流水线 Q1 什么蛋白 能被粘? 可成胶组 / 降解子识别 AI: 表面/模板挖掘 Q2 粘起来 长什么样? 三元结构 与协同 α AI: 共折叠预测 Q3 用什么分子 去粘? 化学设计 生成 / 对接 AI: 生成式设计 Q4 会降解吗? 能成药吗? 功能/选择性 / DMPK AI: 性质/脱靶 Q5 怎么闭环 迭代? DMTA 平台/自动化 主动学习 数据飞轮:Q5 的实验数据回喂 Q1–Q4 — 数据回流是这张地图的灵魂 —
图 0.3 · 全课核心可视化五问研发流程图。绿色箭头是设计正向流,琥珀色回流弧才是关键:Q5 的真实数据回喂前四问的模型,形成数据飞轮。后续每个第四篇模块开头都会回到这张图,点亮"当前所在的 Q"。

这张地图,就是整门课的目录

这张地图最值钱的一层,是让你知道"每一问后面在课程的哪里展开"——这样导论的地图就直接接成了课程目录,你随时都能知道"我在攻打哪一问"。

五问一句话在完整课程里的落点
Q1什么蛋白能被粘第一篇(生物根基)打底 + 第四篇 Q1 模块展开可成胶组/降解子识别。
Q2粘起来长什么样第二篇(AI 工具箱·共折叠)+ 第四篇 Q2 模块:三元结构与协同预测。
Q3用什么分子去粘第二篇(生成式设计/对接)+ 第四篇 Q3 模块:化学设计。
Q4会降解/能成药吗第四篇 Q4 模块 + 第五篇(验证转化):功能、选择性、DMPK。
Q5怎么闭环迭代第三篇(数据层)+ 第六篇(平台前沿):DMTA、数据飞轮、主动学习。

灵魂在回流:这是循环,不是流水线

最后强调一件最容易被讲错的事:五问不是五个独立步骤、不是一条单向流水线,而是一个带回流的循环。图里那条琥珀色的回流弧才是关键——Q5 的真实实验数据回喂 Q1–Q4 的模型,形成数据飞轮。把它当流水线,就会错过分子胶 AI 真正的护城河(S4 收口)。后面第四篇每个模块开头都会回到这张图,点亮"当前所在的 Q"。

✕ 开讲前先拆掉的误区
  • 误区「五问是 5 个独立步骤 / 一条单向流水线」。→ 错。它是带反馈的循环,Q5 数据回流到 Q1–Q4 才是灵魂;当成流水线就会错过数据飞轮这个护城河。
▮ 本节学习要点 · S3
把五问当"目录"来记每读一问,就对照映射表看它落在后面哪一篇细讲。建立"这张地图 = 整门课的结构"的心智——之后无论读到哪一节,你都能立刻定位"我现在在攻打哪一问"。
最该记住的一点数据回流是灵魂。顺着图把那条琥珀色的回流弧在脑子里描一遍:正向的绿色箭头谁都画得出,真正分胜负的是这条"回头的弧"——记住它,S4 会揭晓为什么它决定成败。
动手胜过空读五问的逐行翻译读一遍就够,把更多精力放到定位练习上——亲手给几段工作描述定位一次,胜过反复读十遍定义。
承上启下现在你有地图了。但地图上每一问,AI 到底走到哪了?接下来就是全篇最重要、也最"扫兴"的一节——S4,我们来说真话。
◆ 动手练习 · 五问定位12′ · 小组

五问定位卡(6 段工作描述,全文见文末资源包)。任务:判断每段主要回答了五问中的哪几问?想清楚后展开参考答案对照。

参考答案 · 自评用
卡1"用蛋白质组数据评估某胶的脱靶降解"→ Q4(选择性/功能)。卡2"预测某靶点–胶–CRBN 三元复合物结构"→ Q2卡3"生成式模型批量设计候选胶分子"→ Q3卡4"扫描蛋白组找可被降解的新靶点"→ Q1卡5"用上一轮实验结果再训练模型、挑下一批要合成的分子"→ Q5(含回流)。卡6"一篇同时报告了新靶点识别 + 三元结构 + 降解验证的论文"→ Q1+Q2+Q4(多问,正好示范一项工作常跨多问)。
本节收获

能用五问给任意一项分子胶工作"定位坐标"。

45′12:00
Session 4 · 12:00–12:45 · M0.4

诚实的版图:2026 年 AI 能与不能立场宣言

本课"说真话"人设前置:S3形态:讲 + 数字 + 批判性阅读
本节目标
  • 评价准确陈述共折叠模型当前对分子胶三元界面的真实成功率与失败模式。
  • 评价说明"真正的瓶颈是数据不是模型""赢家是有数据飞轮的人"。
  • 评价看到任何"AI 设计的分子胶"宣传,能判断含金量与水分。
本节学习路径 · 建议顺序45′
  1. 看图硬数字:AF3 在 MGBench 上的真实成绩(图 0.4·a)。(约7min)
  2. 最锋利的一刀:记忆 vs 泛化是什么、失败模式有哪些。(约10min)
  3. 看表共折叠模型家族对比(AF3/Boltz/Chai/Protenix/RFAA)。(约6min)
  4. 真正的瓶颈在数据:MG-PDB≈221、缺负样本、湿-干不匹配。(约7min)
  5. 看图全课暗线:有专有数据飞轮者赢(图 0.4·b,QuEEN 引子)。(约6min)
  6. 练习批判性阅读:"AI 从头设计胶"宣传,3 追问 + 水分句(练习 B)。(约9min)

先给硬数字

这一讲奠定全课的"说真话"人设,先把数字摆上桌。在 MGBench 基准上(已正式发表于 J Chem Inf Model, 2026),AF3 是当前最好的共折叠模型,但它在分子胶任务上的真实成绩是:蛋白—蛋白界面成功率约 50.6%,而分子胶—蛋白相互作用恢复率仅约 32.9%。先让这个数字沉一会儿——一半都不到。

AF3 在 MGBench 上的体检结果(J Chem Inf Model, 2026) 0% 50% 100% 50.6% 蛋白–蛋白 界面成功率 32.9% 分子胶–蛋白 相互作用恢复率 阴影部分 = 来自记忆,非泛化 这 33% 大部分是"背出"训练里 见过的相似结构 → 实际能力更低 新型 E3 / 大界面 → 基本失灵
图 0.4·a最好的共折叠模型 AF3 在分子胶任务上的真实成绩:界面恢复率约 33%,且其中大部分来自记忆而非泛化。这是本课"反炒作"立场的数据基石——看到"AI 设计分子胶",先在心里打折。

最锋利的一刀:那 33% 还要打折

真正扎心的是下一句:研究发现这约 33% 的"成功"大部分来自记忆(memorization)而非泛化(generalization)。什么意思?模型在训练里见过相似的结构,于是把答案"背"了出来——这不等于它学会了规律、能迁移到没见过的体系。一旦换成新型 E3 体系、大界面、domain–domain 复合物、降解剂复合物,模型尤其吃力,遇到全新的 E3 基本失灵。结论:33% 本就不高,而这 33% 里还掺了"背答案"的水分——真实能力比账面更低。

那换个更大的模型行不行?看看这个家族

很多人本能地以为"AF3 不够,换个更新更大的就好"。先看清楚这个家族里有谁,再说为什么这条路走不通:

共折叠模型来源 / 性质在分子胶语境下的定位
AF3MGBench 最佳 AlphaFold3 · DeepMind / Isomorphic 当前最强共折叠模型,也是 MGBench 的基准对象:蛋白–蛋白界面 ~50.6%、MG–蛋白恢复 ~32.9%,且多为记忆。
Boltz 开放权重 · 社区 AF3 思路的开源实现代表,可本地复现;为研究"模型 vs 数据"提供了可控对照。
Chai-1 Chai Discovery · 开放研究权重 另一多组分生物分子复合物预测模型,覆盖蛋白 + 配体 + 核酸。
Protenix 字节跳动 · 开源 AF3 的开源复现 / 再训练实现之一,便于做数据与训练策略的消融。
RFAA RoseTTAFold All-Atom · Baker 实验室 较早的全原子统一建模(蛋白 + 小分子 + 核酸),常被用作早期对照基线。

注意:本表只有 AF3 带 MGBench 的具体数字,其余为定位性描述,不应据此排名。它们的失败模式高度一致——这正是下一段的引子。

真正的瓶颈是数据,不是模型

为什么换模型不解决问题?因为瓶颈在数据
· 整个 PDB 里,非共价分子胶的三元复合物结构,只有大约 200 个(MG-PDB 收录 221 个)。对数据饥渴的深度模型,这点样本薄得可怜。
· 负样本几乎缺失(S2 已埋):没人系统发表"试过但不成胶"的分子,模型学不到"什么是失败"。
· 湿实验与模型匹配度差:能算出几何,却对接不上真实的降解读出。

全课暗线:谁赢

把这一刀收成贯穿全课的暗线:拥有专有数据飞轮的人赢,而不是拥有最大模型的人赢。模型家族是公开的、可复制的;干净、专有、能回流的数据闭环,才是真正不可复制的护城河。Monte Rosa 的 QuEEN 平台(Science, 2025)就是这个逻辑的注脚——价值不在某个"大模型",而在用专有数据系统刻画了 CRBN 的可成胶靶点空间(第三篇展开)。

护城河 = 专有数据飞轮,不是最大的模型 🧠 "最大的模型" ≠ 赢家 公开 · 可复制 vs ① 实验 ② 数据 ③ 更好的模型 ④ 更聪明实验 数据飞轮 专有 · 复利 · 难复制
图 0.4·b本课暗线:模型是公开可复制的;能回流、复利的专有数据闭环才是护城河。PDB 中非共价 MG 三元结构仅约 200 个——数据稀缺正是当前一切的天花板。
可选 · 现场演示(如有基础设施) 若条件允许,现场跑一次共折叠预测(AF3/Boltz 任一),挑一个已知的 MG 三元复合物,让大家看模型给出的结构"看着挺像、其实关键界面错了"。这是全场最有冲击力的一环。无 GPU/无网络环境时,用预录视频或一组对照截图代替即可,不要现场等待。
✕ 开讲前先拆掉的误区
  • 误区「AI 已经能设计分子胶了」。→ 错。当前 AI 是辅助假设生成器,不是真相机器;它给出值得验证的假设,不直接给出答案。
  • 误区「模型越大越强」。→ 错。数据质量与专有性才是天花板;在 ~200 个结构、缺负样本的现实下,单纯做大模型收益有限。
▮ 本节学习要点 · S4
读这一节的心态这一节会给出一堆冷冰冰的数字,容易让人"泄气"。请用诚实但建设性的心态读:这不是说 AI 没用——恰恰相反。重点是看清它现在的正确用法是"假设生成器",不是"真相机器"。看清这一点的人,才知道把钱和数据该投在哪。
回到你 S0 的那个数字还记得 S0 你给"AI 能设计分子胶"打的分吗?现在看完这些数字,问自己一句:我想改这个分吗?让证据自己说话——这正是整篇导论的结构性收口。
"记忆 vs 泛化"用一个比喻记住把它想成考试:学生考前背了往年原题,考了 33 分——但这 33 分里有一半是背出来的原题。换一套全新卷子,分数还会掉。模型在 MG 界面上的成绩,就是这种"背了原题的 33 分"。
承上启下说了这么多"不能",不是让你悲观,是让你有判断力。最后一节 S5,我们把这一篇收成你能直接用起来的东西。
◆ 动手练习 · 批判性阅读(练习 B)9′ · 小组 + 汇报

阅读练习 B 的虚构宣传稿("AI 从头设计分子胶",全文见文末资源包)。任务:列出你会追问的 3 个问题,并指出最可能是"水分"的一句。想清楚后对照参考答案。

参考答案 · 自评用
三个该问的问题:(1) 用了什么数据?验证是否泛化到训练集没见过的 E3 / 界面,还是召回了已知结构(记忆)?(2) "命中率提升 10 倍"的分母与基线是什么?样本量多大、是前瞻验证还是回顾统计?(3) 有没有湿实验证据(降解读出 / 选择性),还是只有计算出的结构?最像水分的一句:"AI 一次性预测出三元复合物结构并指导合成"——当前最强的 AF3 在 MG 界面恢复仅约 33% 且多为记忆,"一次性预测准"高度存疑。收口:回扣三律令③,看任何 AI 宣传,先问数据、先问泛化、先问湿实验。
本节收获

看任何 AI 分子胶宣传,能一眼分辨含金量与水分。

20′12:45
Session 5 · 12:45–13:05 · 收束

收束与桥接超出大纲新增

导论收口形态:回扣 + 速记 + 退场票桥接:第一篇
本节目标
  • 评价把上午四节收束成一套可迁移的判断力,并自检"信几分"是否已被证据校正。
  • 应用说得出"学完导论现在能做的 5 件事"。
本节学习路径 · 建议顺序20′
  1. 回扣三律令 + 五问地图 + 开场投票(对比"信几分"前后)。(约6min)
  2. 速记"你现在能做的 5 件事"——可随身保存的速记页。(约5min)
  3. 桥接:为什么下一步要先补生物(第一篇)。(约4min)
  4. 自测做一遍自测 6 题(见资源包),自评收口。(约5min)

把今天上午收成"判断力"

用三件东西收口:三条律令(圆心是胶、AI 是主线、诚实优先)、五问地图(带回流的循环)、以及那句黑板话——分子胶就是制造一个不存在的界面。然后回到 S0 的投票:把开场的"信几分"分布和现在对照,问一句"看完证据,你的判断变了吗"。这不是要大家变得悲观,而是变得有判断力——这正是导论的全部目的。

你现在能做的 5 件事 · 速记页

下面这张速记卡建议你保存随身回看(也是文末资源包里的可打印页):

一句话总纲

分子胶用一个小分子"制造"出自然界本不存在的蛋白界面(neo-PPI),靠三元协同 α 起效、催化式清除靶点;它最像传统小分子、却最难理性设计。把研发拆成带回流的五问循环。而 2026 年诚实的结论是:AI 仍只是假设生成器(AF3 在分子胶上仅 ~33% 且多为记忆),真正的护城河是专有数据飞轮,而非最大的模型

0.1范式革命
  • 占据型(按住·化学计量) vs 事件驱动(贴标签送走·亚化学计量/催化)。
  • 胶在诱导邻近谱系里:最像小分子(口服/透脑),却最难设计——业界叫"圣杯"。
  • 已是临床现实:mezigdomide SUCCESSOR-2 Ⅲ 期阳性、iberdomide NDA 受理。
0.2核心命题
  • 全课种子句:分子胶 = 制造一个不存在的界面
  • 活性来自三元协同 α,不是单体亲和力;Kd(三元) ≈ Kd(二元) ÷ α。
  • 推出四难:化学空间巨大 / 缺负样本 / 非模块化 / 史靠偶然 → 天然是数据问题
0.3五问地图
  • Q1 能被粘?→ Q2 长什么样?→ Q3 用什么粘?→ Q4 会降解/能成药?→ Q5 怎么闭环?
  • 关键:带回流的循环(数据飞轮),不是单向流水线。
  • 第四篇每个模块开头都回到这张图,点亮"当前所在的 Q"。
0.4诚实版图
  • AF3 最好但仍弱:界面 ~50.6%、MG 恢复 ~32.9%,且多为记忆非泛化
  • 瓶颈在数据不在模型:非共价 MG 三元结构 PDB 仅 ~221、缺负样本、湿干不匹配。
  • 暗线:有专有数据飞轮者赢,非有最大模型者赢(QuEEN 引子)。
一眼识真假胶
  • 真胶:低/零单体亲和、强三元协同(α>1)、非模块化、看降解读出。
  • 水分话术:把"高亲和结合剂"当胶、"从头设计"却无负样本对照、不报脱靶/不报 α。
  • 见"AI 设计的分子胶"先追问:用了什么数据?泛化到新 E3 没有?有无实验证据?
误区合订本
  • 分子胶 = 小号 PROTAC  单价/非模块化,不能拼装。
  • 降解一定优于抑制  看靶点生物学与治疗窗。
  • 亲和力越高越好  要协同,不要单体亲和。
  • 五问是独立步骤  是带反馈的循环。
  • AI 已能设计胶 / 模型越大越强  它是假设生成器;数据才是天花板。

桥接:为什么下一步先补生物

导论装好了世界观,但要真正攻打五问,第一篇要先让 AI 尊重生物学:计算背景的同学补生物机制,化学/生物背景的同学补深度。没有这一篇,第四篇里模型吐出的结构就只是"好看的数字"。这就是我们下午/接下来要走的下一站。

◆ 动手练习 · 自测(Exit Ticket)5′ · 个人

做一遍自测 6 题(全文 + 答案见文末资源包)。独立作答后自评——答不上的点,就是你该回看的地方。

为什么这样设计 · 学习提示
自测的目的不是给自己打分,而是一次主动回忆(retrieval practice)——靠回忆把知识"焊牢"比重读更有效。如果第 5 题(为什么 33% 还要打折)你答不上来,说明 S4 的"记忆 vs 泛化"还没读透,回去再看一遍那一节。
导论收束 · 一句话

看任何一项分子胶工作、任何一句"AI 设计药物"的宣传,你已经能定位它、并分辨它的含金量与水分。

资源包 · 学习材料

练习全文 · 五问卡 · 自测题 · 术语表 · 延伸阅读

可直接打印保存参考答案已附

本节集中放置全篇各练习的完整题面与参考答案,以及术语表和延伸阅读清单,便于一次性保存或打印。

练习 A · 真胶 vs 普通结合剂(用于 S2)

虚构新闻稿 · 仅供教学
NovaGlue 宣布口服小分子 NG-114 实现对转录因子 XTF-1 的强效清除

NovaGlue 今日公布临床前数据:其口服小分子 NG-114 以纳摩尔级亲和力直接结合靶蛋白 XTF-1,并在多种肿瘤细胞系中实现对该靶点的高选择性清除。公司称 NG-114"成药性优异、口服暴露良好",有望成为"同类首创的 XTF-1 靶向疗法"。新闻稿未提及作用机制的进一步细节。

判据答案:① 真胶对靶点单体亲和力通常极弱甚至为零,活性来自三元协同——"纳摩尔直接结合靶点"反而不像胶;② 全文未提 E3 / 三元复合物 / 协同 α / 邻近依赖,缺乏胶的机制证据。结论:更可能是普通强结合剂/抑制剂,或至少该稿未能证明它是胶。

练习 B · "AI 从头设计胶"的含金量(用于 S4)

虚构宣传稿 · 仅供教学
DeepBind AI:生成式平台"从头设计"出全新分子胶 DB-7

DeepBind AI 宣布其生成式平台成功从头设计出全新分子胶 DB-7。公司称平台一次性预测出三元复合物结构并指导合成,并称在内部评测中命中率较传统方法提升 10 倍,"标志着 AI 设计分子胶进入新时代"。稿件未披露训练数据、基线定义与湿实验验证细节。

追问答案:① 用了什么数据?是否泛化到训练集未见过的 E3/界面,还是召回已知结构(记忆)?② "提升 10 倍"的分母/基线是什么、样本量多大、前瞻还是回顾?③ 有无湿实验(降解读出/选择性)证据?最像水分的一句:"一次性预测出三元复合物结构并指导合成"——最强的 AF3 在 MG 界面恢复仅约 33% 且多为记忆,"一次预测准"高度存疑。

五问定位卡(用于 S3)

题面
  • 卡 1:用蛋白质组数据评估某分子胶的脱靶降解。
  • 卡 2:预测某靶点–胶–CRBN 三元复合物的三维结构。
  • 卡 3:用生成式模型批量设计候选胶分子。
  • 卡 4:扫描蛋白质组、寻找可被降解的新靶点。
  • 卡 5:用上一轮实验结果再训练模型、挑出下一批要合成的分子。
  • 卡 6:一篇同时报告了新靶点识别 + 三元结构 + 降解验证的论文。
答案锚点
  • 卡 1 → Q4(功能/选择性) · 卡 2 → Q2 · 卡 3 → Q3
  • 卡 4 → Q1 · 卡 5 → Q5(含数据回流) · 卡 6 → Q1+Q2+Q4(示范一项工作常跨多问)

退场快测 6 题(用于 S5)

1占据型与事件驱动型药理学的"化学计量学"差别是什么?
答案占据型 = 化学计量(1:1),需持续高占据;事件驱动型 = 亚化学计量(催化),一个分子可反复清除多份靶蛋白。
2分子胶的活性主要来自单体亲和力,还是三元复合物的协同 α?
答案来自三元协同 α;单体亲和力常常极弱甚至为零。"追 α,不追亲和力。"
3α<1 意味着什么?
答案负协同——三元结合比两两二元还弱,分子"不成胶"。
4"用蛋白质组数据评估某胶的脱靶降解"属于五问的哪一问?应用
答案Q4(会降解吗 / 能成药吗 —— 功能与选择性)。
5AF3 在 MGBench 上约 33% 的恢复率,为什么"还要打折"?
答案因为这 33% 大部分来自记忆(背训练里见过的相似结构)而非泛化;遇到新型 E3/大界面基本失灵,真实能力更低。
6本课暗线一句话:谁赢——拥有最大模型的人,还是拥有专有数据飞轮的人?
答案拥有专有数据飞轮的人赢。模型可复制,干净且专有、能回流的数据闭环才是护城河。

术语表 · 28 词

诱导邻近 · Induced Proximity
用一个分子强行把两个本不相遇的蛋白拉到一起,以触发事件(降解 / 稳定 / 信号)。
neo-PPI
自然界本不存在、由小分子诱导出来的蛋白—蛋白界面。分子胶工作的本质。
协同性 α · Cooperativity
三元复合物形成相对两两二元结合被增强(α>1)或削弱(α<1)的倍数;分子胶活性的核心来源。
占据型 vs 事件驱动型
抑制=持续占据口袋、化学计量;降解=促成一次相遇后催化清除、亚化学计量。
催化型降解
一个降解剂分子可循环驱动多份靶蛋白被清除(亚化学计量、事件驱动)。
CRBN / CRL4
分子胶主战场 E3:Cullin4-RING 连接酶 + DDB1 + CRBN 底物受体。
IMiD / CELMoD
CRBN 调节剂:第一代(thalidomide / lenalidomide / pomalidomide)与下一代(mezigdomide / iberdomide / golcadomide)。
共折叠 · Co-folding
把蛋白 + 小分子 + 蛋白等多组分一起预测出三维结构的模型范式(如 AF3)。
MGBench
评测共折叠模型在分子胶任务上表现的基准(J Chem Inf Model, 2026);AF3 界面恢复率约 33%。
记忆 vs 泛化 · Memorization
模型"背出"训练里见过的相似结构(记忆)≠ 真正学会规律(泛化);前者无法迁移到新体系。
数据飞轮 · Data Flywheel
实验→数据→更好的模型→更聪明的实验的复利闭环;分子胶 AI 真正的护城河。
五问地图 · Q1–Q5
可被粘?→长什么样?→用什么粘?→会降解/能成药?→怎么闭环迭代?带回流的循环。
单价 vs 双价 · Monovalent/Bivalent
分子胶是单价(一个小分子整体起效);PROTAC 双价(两端配体 + 连接子)。决定能否"拼装式"设计。
三元复合物 · Ternary Complex
靶点 + 胶 + E3 三者结合形成的复合物,是分子胶活性发生的现场。
二元亲和力 · Kd (binary)
胶与靶点单独结合的强度;对真正的胶而言常常很弱、甚至可忽略。
钩状效应 · Hook Effect
胶浓度过高时反把三元拆成两个二元、三元产量下降的钟形曲线现象。
降解子 / 可成胶组 · Degron
能被诱导降解的蛋白及其结构特征的集合——Q1 要回答的对象。
脱靶降解 · Off-target
胶意外降解非目标蛋白;是选择性评估(Q4)的核心风险,常用蛋白质组学检测。
泛素–蛋白酶体系统 · UPS
细胞的蛋白降解机器:泛素打标签、蛋白酶体执行清除。事件驱动药理学的下游。
DMTA 循环
Design–Make–Test–Analyze,研发的基本迭代单元,也是 Q5 平台与数据飞轮的骨架。
主动学习 · Active Learning
让模型挑"最值得做的下一个实验",使数据飞轮转得更快、更省。
共折叠模型家族
AF3 / Boltz / Chai / Protenix / RFAA 等把蛋白 + 小分子 + 蛋白多组分一起预测结构的模型。
沙利度胺 · Thalidomide
第一个被理解机制的分子胶(结合 CRBN、改写其底物清单);偶然发现的原点。
indisulam / DCAF15
经 E3 接头 DCAF15 降解剪接因子 RBM39 的分子胶;又一例"先有药、后懂机制"。
auxin–TIR1
植物激素生长素经 E3 受体 TIR1 诱导降解——自然界自带的分子胶。
bRo5 · beyond Rule of 5
超出经典成药性边界的化学空间;PROTAC 常落于此,口服与透脑更难。
血脑屏障 · BBB
中枢用药的门槛;单价小分子胶更易穿过,是其相对 PROTAC 的先天优势。
假设生成器 ≠ 真相机器
当前 AI 的正确定位:它生成"值得拿去验证的假设",而不是直接吐出真相。

必读清单(导论 · 每模块 1–3 篇)

M0.1 · 范式与临床现实
  • 诱导邻近 / 靶向蛋白降解(TPD)范式综述一篇。
  • CELMoD 临床里程碑一篇:IMiD → 下一代(mezigdomide SUCCESSOR-2 Ⅲ 期阳性 2026、iberdomide NDA、golcadomide GOLSEEK)。
M0.2 · 核心命题
  • 协同性与三元复合物综述一篇(cooperativity & ternary complex)。
M0.3 · 全课地图
  • 无(导航模块)。建议把"五问地图"做成知识库首页的可交互导航图。
M0.4 · 诚实版图(反炒作)
  • MGBench / co-folding 基准(J Chem Inf Model, 2026)。
  • QuEEN(Science, 2025)——专有数据刻画 CRBN 可成胶靶点空间,引子段。

学完导论 · 自检清单(勾一遍再进第一篇)