全课心脏 · 严格按 5 个根本问题展开

把分子胶研发，
拆成五个能被回答的问题

这是整门课的心脏。每个模块都回到同一张「5 问地图」点亮当前位置，统一按 问题定义 → 生物/化学约束 → AI 方法 → 当前能力边界 → 与实验如何咬合 展开。诚实优先于炒作——每一讲都讲清 AI 此刻能做什么、不能做什么。

5问

研发主线

学习模块

~16h

本篇学时

3案例

端到端复盘

The Spine · 全篇导航

5 问研发地图

这不是一条直线流水线，而是一个带数据回流的循环。点击任意一问跳到对应模块——每讲开头你都会回到这张图，点亮自己当前的位置。

怎么闭环迭代？

DMTA 循环：每轮实验回喂模型，让下一轮设计更聪明。

↺ 数据回流是灵魂：Q5 产出的实验数据，回喂 Q1–Q4 的所有模型——这正是"数据飞轮"。把 5 问看成 5 个独立步骤，是这一篇最大的误区。

Q1M4.1 · 前置 M1.4 / M2.1 / M2.2 / M3.1

靶点 / neo-substrate 选择

"什么蛋白，能被粘？"

在 5 问地图中： Q1 入口可成胶组识别全蛋白组扫描三轴交叉排序

↻ 开始前·30 秒回顾前置

来自 M1.4（neo-substrate 语法）：能被粘的蛋白在结构上有迹可循——G-loop（甘氨酸环）、螺旋型降解子、表面模拟、mTOR 那样的 HLH 型，这套"语法"就是 Q1 做结构判据的依据。

来自 M3.1（数据饥饿）：负样本几乎不存在 + 结构数据稀缺，这是压低本模块所有预测天花板的根因。

欢迎来到全课的心脏。第四篇把分子胶研发拆成 5 个能被回答的问题，而 Q1 是一切的起点：在两万多个人类蛋白里，我们要找出那些"长得像能被粘"的——也就是构建所谓的可成胶基因组（gluable genome）。这件事的意义直接指向行业最性感的目标：MYC、STAT3、KRAS 这些经典"不可成药"靶点，能不能被纳入可成胶的版图。

◎学完本模块，你将能够

理解解释两条挖掘路线：G-loop 结构模板匹配 vs surface matchmaking（表面互补匹配）各自在找什么。

应用用云端 notebook 在一个蛋白家族里做一次"可成胶性"打分。

分析把可成胶性 × 疾病生物学 × E3 相容性三轴交叉，对候选排序。

评价说清"预测 = 可能性 ≠ 验证"，并识别为何非经典降解子的预测最弱。

①问题定义：把"可成胶"变成一个打分

把模糊的"哪些蛋白能被分子胶招募"翻译成一个可计算的问题：给两万多个人类蛋白，每个打一个"可成胶性"分数。它的结构判据，正来自 M1.4 学过的那套语法（G-loop / 螺旋型 / 表面模拟 / HLH）。

②AI 方法：两条互补的挖掘路线

路线一 · G-loop 结构模板匹配。拿已知降解子（比如 CRBN 招募的那些带 G-loop 的蛋白）当模板，去全蛋白组里扫描"长得像"的口袋。直觉上像"以图搜图"，但搜的是三维结构 motif。

路线二 · surface matchmaking（表面互补匹配）。用几何深度学习把"可成胶表面 patch"投影到全蛋白组，寻找几何与化学性质都互补的口袋——这正是 QuEEN / MaSIF 路线（你在 M3.4 见过 QuEEN，它预测出 >1600 个 G-loop 相容蛋白）。

核心可视化：三轴交叉打分漏斗 —— 从 >1600 个几何相容候选，收敛到真正可立项的少数。优先级排序，是本模块的实操灵魂。

③实操灵魂：三轴交叉排序

预测出>1600 个候选只是开始。真正决定立项的是三轴交叉：

可成胶性——几何/结构上"接得住"分子胶吗？（路线一、二的输出）
疾病生物学——降解它对某种疾病真的有治疗意义吗？一个完美可成胶但与疾病无关的蛋白没有价值。
E3 相容性——现有的 E3 连接酶（尤其 CRBN）能把它招募过去吗？

三轴同时为真的交集，才是值得投入湿实验的"可立项的少数"。

✓ AI 能

把全蛋白组的几何特征投影出来，产出一份带排序的候选清单（QuEEN 给出 >1600）。这是人力无法穷举的全局扫描。

✕ AI 不能

断言某个蛋白"一定会被降解"。打分高只代表几何相容；非经典降解子（无 G-loop、表面模拟型、mTOR HLH 型）可靠性显著下降。

⚠ 瓶颈在哪

负样本缺失 + 结构数据稀缺共同压低天花板（回扣 M3.1）。模型几乎只见过"成功"的例子，不知道什么是"粘不上"。

⚑ 开讲前先拆掉这三个错觉

打分高 = 可降解

打分高只是几何相容。能不能形成三元、能不能真降解，是后面 Q2、Q4 的事。

候选上千 = 靶点上千

绝大多数候选会被实验淘汰。>1600 经三轴交叉后只剩少数可立项。

AI 给了清单就能省掉实验

清单是假设，不是结论。每个候选都必须回到实验验证级联（M5.1）。

⚙ 动手实操

在一个激酶家族里做可成胶性打分

必做

用 G-loop 模板在一个激酶家族打分，与 QuEEN / 已知底物对照（云端 notebook，零本地 GPU）。亲手体会"全蛋白组投影 → 候选清单"是怎么产生的，以及它的置信度该怎么读。

交付物 → 跑完打分，挑出前 3 名候选，并写清你还需要哪些湿实验才能把它们推进到立项。

✓自测一下（先想，再点开看答案锚点）

1G-loop 模板匹配与 surface matchmaking 各在找什么？检索＋

答案锚点
G-loop 模板匹配：拿已知降解子当模板，在全蛋白组扫"长得像 G-loop 口袋"的结构 motif。surface matchmaking：用几何深度学习把"可成胶表面 patch"投影到全蛋白组，找几何与化学互补的口袋（QuEEN/MaSIF 路线）。前者是模板匹配，后者是表面互补搜索。

2为什么"候选上千"不等于"靶点上千"？检索＋

答案锚点
因为 >1600 只是几何相容的候选。要立项必须再过疾病生物学与 E3 相容性两轴，绝大多数会在三轴交叉与后续湿实验中被淘汰。预测 = 可能性 ≠ 验证。

3跑完打分，挑出前 3 名，说明还需要哪些湿实验才能立项。应用＋

参考思路
合理回答应包含：① 验证蛋白确实能被某 E3（如 CRBN）招募——共免疫沉淀 / 邻近实验；② 验证存在能形成三元的化学起点（接 Q2/Q3）；③ 确认降解该蛋白的疾病学意义——细胞表型 / 通路读出。强调"清单是假设、实验才是裁判"。

▤ 必读

2025QuEEN，Science —— 全蛋白组 neo-substrate 预测的范式之作方法MaSIF / 几何深度学习一篇 —— 表面互补匹配的技术底座

⏱ 本模块学时

30min视频

45min阅读

90min实操

15min检查

一句话拿到一个蛋白组，你能产出一份带可成胶性排序与诚实置信度的候选清单。

✓标记本模块已完成

Q2M4.2 · 前置 M1.3 / M2.3 / M3.1

三元复合物与协同性建模

"粘起来，长什么样？"

在 5 问地图中： Q2 共折叠模型界面 / 埋藏面积协同性 ΔΔG 该信 / 该弃

↻ 开始前·30 秒回顾前置

来自 M1.3（机制）：分子胶的活性几乎全部来自三元复合物的协同——协同性的结构与动力学来源，是本模块"贴得牢不牢"的物理依据。

来自 M2.3（结构预测）：读懂 AF3 的置信度信号 PAE / ipTM，是判断"这次该不该信"的关键工具。

Q1 帮你选出了"靶 + E3 + 候选胶"。Q2 要把它们折成一个三元结构，并判断它们"贴得牢不牢"——也就是协同。这一讲是全篇最诚实、也最让人清醒的一课。

◎学完本模块，你将能够

应用用共折叠模型（AF3 / Boltz / Chai…）建三元复合物，做界面预测、埋藏面积与协同性 / ΔΔG 估计，再用 MD 精修。

评价直面 AF3 的失败模式（诱导成型口袋、大界面、新型 E3），判断何时该信、何时该弃。

理解说明专用方法（GlueFold 类引导扩散）的适用场景。

①方法：AI 快筛 + 物理精修

用共折叠模型把三元复合物折出来，读界面、算埋藏面积、估 ΔΔG / 协同，再用分子动力学（MD）精修它的动态稳定性。这套"AI 快筛 + 物理精修"的组合你在 M2.2 见过——AI 给出快速假设，物理给出可信度的校验。

震撼时刻

本模块的诚实硬课：在 MGBench 基准上，AF3 是最好的共折叠模型，但分子胶—蛋白界面的恢复率仅约 33%，而且这 ~33% 还大部分来自记忆，而非泛化。

建模不是"真相机器"，它是假设生成器。这一句话，是整个 Q2 的灵魂。

~50%

AF3 蛋白—蛋白界面成功率

MGBench · J Chem Inf Model 2026

~33%

分子胶—蛋白相互作用恢复率（且掺记忆）

MGBench · J Chem Inf Model 2026

~221

PDB 里非共价 MG 三元结构总数（MG-PDB 收录）

数据稀缺 = 天花板

核心震撼图：一个"高置信但错"的 AF3 三元复合物 vs 真实结构。亲眼看见 33% 是什么意思——这是全员的"震撼时刻"。

②教学的关键：不是"怎么跑模型"，是"怎么判断这次该不该信"

跑通一个共折叠模型很容易。真正的能力，是面对一份输出时做出判断。三个判断维度：

看置信度——读 M2.3 的 PAE / ipTM，但要记住高置信≠正确。
看是否落在见过的体系——这个 E3、这类界面，模型训练时见过吗？域外就是"猜"。
看物理是否自洽——埋藏面积、互补性、MD 下稳不稳，能不能自圆其说。

AF3 在三类情形最容易错：诱导成型口袋（口袋是被胶诱导出来的，原结构里不存在）、大界面、新型 E3 体系。

③当通用模型不灵：专用方法

当 AF3 这类通用模型失效时，GlueFold 类引导扩散给分子胶先验，适用于"已知 E3、想精修界面"的场景。它不是万能替代，而是特定问题下的更优解。

✓ AI 能

给出三元结构假设 + 可读的置信度 + 界面 / 埋藏量估计。作为后续证伪的起点，价值很大。

✕ AI 不能

保证界面正确（~33% 且掺记忆）。对诱导口袋 / 大界面 / 新型 E3 体系高失败率。

⚠ 瓶颈在哪

结构数据稀缺（非共价 MG 三元仅约 221 个）。模型在训练域外，本质上是在"猜"。

⚑ 开讲前先拆掉这三个错觉

建出来就是真相

它是假设，不是真相。把它当成需要被证伪的科学命题。

ipTM 高 = 界面对

域外不可靠。高置信经常是高置信地错。

跑通了模型 = 完成了 Q2

没有。Q2 的完成标志是你能判断该信还是该弃，并设计出证伪它的实验。

⚙ 动手实操

跑一个已知 MG 三元复合物，亲眼看 33%

必做 · 震撼时刻

用 AF3 / Boltz 跑一个已知的分子胶三元复合物，对照实验结构，亲眼看"33% 恢复率"是什么意思（云端 notebook）。这是全篇情绪上最关键的一次动手——很多结论你听一百遍，不如自己跑错一次。

交付物 → 给定一份 AF3 三元输出，写出你的"信 / 不信"判断及依据，并设计一个能证伪它的湿实验。

✓自测一下

1~33% 恢复率，为什么意味着"建模是假设生成器，不是真相机器"？检索＋

答案锚点
三次里只有约一次界面恢复正确，而且这 ~33% 还大部分来自记忆而非泛化。因此任何一份输出都不能当结论，只能当待证伪的假设；下游必须用 SPR/TR-FRET/结构生物学去检验。

2AF3 在哪三类情形最容易出错？检索＋

答案锚点
① 诱导成型口袋（口袋由胶诱导，原结构不存在）；② 大界面；③ 新型 E3 体系（训练域外）。共性是：模型没见过、或几何被诱导改变。

3给一份 AF3 三元输出，判断信不信，并设计一个证伪它的湿实验。应用＋

参考思路
判断三件事：置信度（PAE/ipTM）、是否落在见过的体系、物理是否自洽。证伪实验示例：① 对预测界面上的关键残基做定点突变，若预测正确则三元结合应被破坏（SPR/TR-FRET 测协同）；② 若可得，直接做共结晶 / cryo-EM 对照预测界面。核心是设计一个"如果模型错了就会失败"的实验。

▤ 必读

基石AF3 论文 —— 共折叠一代的代表 2026MGBench，J Chem Inf Model —— 那个 50% / 33% 的诚实基准专用GlueFold 类引导扩散一篇 —— 已知 E3 下的界面精修

⏱ 本模块学时

35min视频

50min阅读

90min实操

20min检查

一句话你能建出三元复合物假设，并诚实判断这次该信还是该弃。

✓标记本模块已完成

Q3M4.3 · 前置 M2.4 / M4.2

分子设计与优化

"用什么分子，去粘？"

在 5 问地图中： Q3 苗头发现三条路从头生成非直觉 SAR/SDR 多参数优化 MPO

↻ 开始前·30 秒回顾前置

来自 M2.4（生成式与逆向设计）："面向界面互补的从头生成"把界面条件当作生成约束——这是本模块从头设计的方法底座。

来自 M4.2（Q2）：你要设计的分子，必须能制造出那个你刚刚学会建模与判断的三元界面。

Q1 选出了能被粘的蛋白，Q2 教会你看"粘起来什么样"。Q3 的任务很直接：造出能制造那个全新蛋白—蛋白界面（neo-PPI）的分子。它要同时坐进 E3 口袋、又改造出与靶互补的新表面。这一讲藏着全篇最反直觉的硬核。

◎学完本模块，你将能够

应用说明苗头发现三条路：分子胶样库虚拟筛选 · DEL+ML · 从 E3 口袋出发的片段生长。

应用做面向三元界面的从头生成（把界面互补性当作生成条件）。

分析解释分子胶 SDR/SAR 为何比抑制剂更"非直觉"，并做 MPO（活性/选择性/合成可及性/IP/成药性）与为 IP 的骨架跃迁。

①苗头发现：三条互补的路

三条苗头路线图：三条路各有数据假设与盲区，实战中常组合使用；再叠加面向界面的从头生成。

②全篇最反直觉的硬核：分子胶的 SAR/SDR

传统抑制剂的构效关系（SAR）相对可外推：改一个基团，亲和力大致按经验变化。但分子胶极其非直觉——一个极小的化学改动，可能彻底反转降解谱：换一个降解的底物、甚至从"降解"变成"不降解"。

原因在于：你改的不是"对单一口袋的亲和力"，而是那张被诱导出来的界面的形状。这让传统 SAR 经验直接失灵，也正是用 ML 建"结构—降解关系（SDR）"的价值所在与难点所在。

非直觉

分子胶里，一个甲基的增减，可能就把降解谱从蛋白 A 整个切换到蛋白 B，或让分子彻底失去降解能力。

因为分子胶改变的是诱导界面的几何，而不是单点亲和力——所以抑制剂的 SAR 直觉在这里会骗你。

MPO 帕累托前沿：活性、选择性、合成可及性、IP 空间、成药性同时优化——没有单一最优，只有一组互不支配的权衡候选。

③多参数优化（MPO）与为 IP 的骨架跃迁

真实的优化从来不是"把活性做高"那么简单。活性、选择性、合成可及性、IP 空间、成药性必须同时优化（帕累托权衡）。此外，为了专利空间，还要做骨架跃迁（scaffold hopping）——在保持作用的前提下换一套化学骨架。

咬合实验：生成模型给的是"想法"。可合成性与三元活性必须由实验定夺（回扣 M2.4 的收口）。

✓ AI 能

产出大量候选与新骨架，并建出 SDR 的趋势。在化学空间里给你海量起点。

✕ AI 不能

保证可合成、保证三元活性；SDR 外推不可靠——小改动可能大反转。

⚠ 瓶颈在哪

SDR 数据稀缺且高度非线性。越界外推就越不可信。

⚑ 开讲前先拆掉这三个错觉

分子胶 SAR 和抑制剂一样可外推

极度非直觉。改的是诱导界面的形状，不是单点亲和力。

生成出来就能合成

很多生成分子合成不出来。可合成性是必过的一关。

优化活性就行

是 MPO：活性只是其中一维，选择性 / 合成 / IP / 成药性同等重要。

⚙ 动手实操

对一个 E3 口袋生成苗头并讨论可合成性

选做

用生成模型对一个 E3 口袋生成苗头分子，并讨论它们的可合成性（云端 notebook）。体会"生成出想法"与"想法能不能落地"之间的距离。

交付物 → 生成器给了 1000 个候选，设计一套过滤流程，收敛到可合成、选择性好的少数。

✓自测一下

1为什么分子胶 SAR 比抑制剂更难外推？检索＋

答案锚点
因为分子胶改变的是被诱导出来的界面形状，而非对单一口袋的亲和力。一个极小改动可能彻底反转降解谱（换底物、甚至从降解变不降解），传统 SAR 的"渐变"直觉因此失灵。

2面向界面的从头生成，要喂给模型什么条件？检索＋

答案锚点
把三元界面的互补性当作生成条件——即让生成的分子去匹配 E3 与靶之间需要被制造出来的那张界面（几何 + 化学互补），而不是只优化对单一口袋的结合。

3生成器给了 1000 个候选，设计一套过滤流程收敛到可合成、选择性好的少数。应用＋

参考思路
合理流程示例：① 合成可及性打分先粗筛（去掉合成不可行的）；② 三元界面互补 / docking 复评保留几何合理者；③ 全蛋白组选择性预筛（接 Q4，去掉高脱靶风险）；④ MPO 帕累托排序（活性 × 选择性 × IP × 成药性）；⑤ 多样性 / 骨架去冗余，留下覆盖不同骨架的少数进合成。强调"想法要过可合成与三元活性两关"。

▤ 必读

方法分子胶从头设计 / DEL+ML 一篇案例分子胶 SAR 非直觉性案例一篇 —— 看"小改动→大反转"

⏱ 本模块学时

35min视频

45min阅读

60min实操

20min检查

一句话你能为一个三元界面规划设计路线，并知道想法要过可合成与活性两关。

✓标记本模块已完成

Q4M4.4 · 前置 M1.1 / M3.3

功能、选择性与成药性预测

"会降解吗？能成药吗？"

在 5 问地图中： Q4 DC50 / Dmax 全蛋白组脱靶 bRo5 ADMET Go / No-Go

↻ 开始前·30 秒回顾前置

来自 M1.1（UPS 深解）：核心结论"招募 ≠ 降解"——结果还取决于泛素链拓扑、处理性、复合物几何与停留时间。这正是 DC50/Dmax 难预测的根因。

来自 M3.3（实验数据→训练信号）：全局蛋白组数据如何变成监督脱靶预测的训练信号——本模块招牌风险的数据来源。

分子能制造三元界面了（Q3），但两个要命的问题还没回答。Q4 把它们分成两层：粘了会不会真降解（功能），以及降了会不会误伤别的蛋白（选择性）、能不能成药（DMPK）。

◎学完本模块，你将能够

分析评估预测 DC50 / Dmax / 降解半衰期 的 ML 模型及其局限。

评价说明全蛋白组选择性 / 脱靶降解预测，为何是分子胶特有的核心风险。

分析做面向"超越五规则 bRo5"空间的 ADMET / DMPK 预测与三元复合物感知的性质模型，设计 Go/No-Go 节点。

①功能层：为什么 DC50 / Dmax 那么难预测

回扣 M1.1 的铁律——招募 ≠ 降解。一个分子即使能把靶招募到 E3 旁边，能不能真正泛素化并送进蛋白酶体，还取决于链拓扑、处理性、复合物几何这些缺数据的动力学量。这正是为什么预测 DC50/Dmax 的绝对值很难——它依赖的恰恰是我们最缺乏数据的那部分物理。

②本模块的招牌风险：全蛋白组脱靶降解

这是分子胶特有的核心风险，请重点理解。还记得 Q1 里那个 G-loop 模板能匹配 >1600 个蛋白吗？那把双刃剑的另一面是：一个 G-loop 模板可能匹配上千个蛋白——意味着你的分子胶可能在降解目标靶点的同时，误降解一大批不该碰的蛋白。

特有风险

抑制剂的脱靶，通常是"结合了不该结合的口袋"。分子胶的脱靶更危险：它会真的把脱靶蛋白降解掉、清除掉——而且因为模板匹配的广谱性，潜在脱靶可能数以千计。

所以选择性绝不能只看对靶点的亲和力，必须用全局蛋白组数据来监督预测与裁判。

核心风险图：左 — 一个 G-loop 模板可匹配上千蛋白；右 — 蛋白组选择性火山图，目标靶（绿）应被显著降解，红点是必须警惕的脱靶降解。

③成药性：分子胶常落在五规则之外（bRo5）

分子胶常常落在"超越五规则"（bRo5）的化学空间里——分子量、氢键、极性表面积超出 Lipinski 五规则。传统 ADMET/DMPK 性质模型在这个空间外推不准，需要三元复合物感知的性质模型。

④决策：整合成 Go / No-Go 节点

把功能、选择性、DMPK 整合成早期成药性打分与 Go/No-Go 节点——明确什么指标不过就砍掉。预测出的选择性与性质，最终都要被蛋白组学与 DMPK 实验证实（接 M5.1 / M5.3）。

✓ AI 能

用蛋白组数据训练选择性 / 脱靶预测，做趋势性的 DMPK 打分。在全局尺度上发现风险。

✕ AI 不能

可靠预测 DC50 / Dmax 的绝对值（动力学缺数据）；bRo5 空间外推弱。

⚠ 瓶颈在哪

功能与 PK 的训练标签又贵又少。最关键的数据，恰恰最难获取。

⚑ 开讲前先拆掉这三个错觉

能形成三元就会降解

回扣 M1.1：招募 ≠ 降解。还要看链拓扑、处理性、几何与停留时间。

选择性靠看靶点亲和

要看全蛋白组。分子胶会真的降解脱靶蛋白，且潜在脱靶上千。

五规则适用于胶

分子胶常 bRo5，传统性质模型外推不准。

⚙ 动手实操

用全局蛋白组数据做脱靶降解选择性分析

必做

用一份全局蛋白组数据（如定量质谱）做一次脱靶降解选择性分析（云端 notebook）。亲手画出选择性火山图，看清目标靶与脱靶在全蛋白组尺度上的分布。

交付物 → 基于脱靶选择性结果，给出该分子的去 / 留判断（Go/No-Go），并写明你设的阈值依据。

✓自测一下

1为什么脱靶降解是分子胶"特有"的核心风险？检索＋

答案锚点
因为分子胶通过模板/表面匹配工作，一个模板可匹配上千蛋白，而且分子胶会真的把脱靶蛋白降解清除（不只是结合）。抑制剂脱靶通常只是占据口袋，分子胶脱靶是不可逆的清除，且潜在范围广，所以是特有且严重的风险。

2DC50 / Dmax 为什么难精准预测？检索＋

答案锚点
因为招募 ≠ 降解：真实降解效率取决于泛素链拓扑、链延伸处理性、复合物几何与停留时间这些动力学量，而这恰恰是训练数据最稀缺的部分。模型能给趋势，难给可靠绝对值。

3用一份全局蛋白组数据做脱靶选择性分析，给出该分子的去/留判断。应用＋

参考思路
合理回答应包含：① 画选择性火山图，看目标靶是否被显著降解、有多少蛋白同被显著降解；② 设阈值（如 log2FC + 显著性双阈），统计脱靶数量与其生物学风险（是否命中必需蛋白 / 安全相关蛋白）；③ 据此给 Go（选择性窗口足够）或 No-Go（脱靶过多 / 命中高危蛋白），并说明阈值依据。强调"选择性是全蛋白组判断，不是单靶亲和"。

▤ 必读

核心脱靶降解 / 全蛋白组选择性一篇 DMPKbRo5 ADMET 一篇 —— 五规则之外的性质预测

⏱ 本模块学时

35min视频

50min阅读

90min实操

20min检查

一句话你能用蛋白组数据评估一个胶的选择性风险并给出 Go / No-Go 判断。

✓标记本模块已完成

Q5M4.5 · 前置 M4.1–M4.4 / M3.4

闭环迭代：DMTA 与自主化

"怎么让这个轮子，转起来？"

在 5 问地图中： Q5 · 让前四问转起来主动学习贝叶斯优化自驱动实验室迭代 / 砍 / 换

↻ 开始前·30 秒回顾前置

来自 M3.4（数据飞轮 / QuEEN 范式）：DMTA 直接呼应数据飞轮——每轮实验回喂模型，让护城河越转越深。

来自 M1.2 / M1.5（E3 版图 / 模态权衡）："换 E3"与"换模态"是 Q5 决策框架里的两条退路，依据来自这两讲。

前四问解决了"选谁、长啥样、用什么粘、会不会成药"。Q5 把它们连成一个转起来的轮子：Design → Make → Test → Analyze（DMTA）不是直线，而是一个每轮都让下一轮更聪明的循环。但这一讲的灵魂不是工具，是决策框架。

◎学完本模块，你将能够

应用用主动学习 / 贝叶斯优化驱动 Design-Make-Test-Analyze 循环。

理解说明实验自动化 / 自驱动实验室与模型再训练如何衔接。

评价建立决策框架：何时迭代、何时砍、何时换 E3 / 换模态。

①DMTA：一个带回流的循环

DMTA 闭环 + 主动学习选点：每轮实验数据回喂模型（直接呼应 M3.4 的数据飞轮），主动学习挑出信息增益最大、不确定性最高的点优先实验。

②AI 方法与自动化

主动学习——让模型自己挑"最值得做的下一个实验"：信息增益最大、或不确定性最高的那个点。这能显著减少达标所需的实验数。
贝叶斯优化——在多目标空间里高效搜索最优权衡（呼应 Q3 的 MPO）。
自驱动实验室——把"设计→合成→测试→分析→再训练"闭成一个自动环，让飞轮转得更快。但关键不是买设备，而是数据闭环与再训练能不能真正打通。

③本模块的灵魂：决策框架，而非工具

真正的研发领导力，是知道什么时候不该继续。给你一套判据：

迭代

还在收敛、还有信息可挖、主动学习仍在缩小不确定性 → 继续转

砍

撞上不可逾越的选择性 / PK 墙，多轮迭代无改善 → 止损

换

问题出在体系本身 → 换 E3 或换模态（M1.2 / M1.5 的退路）

"会砍"和"会换"，与"会迭代"一样重要。这是把工程能力升级成研发判断力的分水岭。

✓ AI 能

用主动学习显著减少达标所需的实验数。把有限的实验预算花在刀刃上。

✕ AI 不能

替代关于"何时止损 / 转向"的人类判断。算法能优化路径，定不了战略。

⚠ 瓶颈在哪

自动化与数据回流的工程化落地难（接 M6.1）。打通闭环比单点先进更难。

⚑ 开讲前先拆掉这三个错觉

DMTA 是线性流程

是循环 + 回流。数据回喂模型才是它的灵魂。

自动化 = 买设备

关键是数据闭环与再训练能否打通，不是硬件清单。

能优化就别砍

会止损是核心能力。撞上 PK / 选择性墙时，砍和换比硬磨更明智。

⚙ 动手实操

在玩具优化问题上跑主动学习

选做

在一个玩具优化问题上跑主动学习，对比"随机选点"的效率差距（云端 notebook）。直观看到主动学习如何用更少的实验更快逼近目标。

交付物 → 画出主动学习 vs 随机选点的收敛曲线，说明主动学习省了多少实验。

✓自测一下

1主动学习如何减少实验数？检索＋

答案锚点
它不盲目铺实验，而是让模型挑信息增益最大 / 不确定性最高的点优先做。每个实验都最大化地缩小模型的不确定性，因此达到同样目标所需的实验数显著低于随机选点。

2给三个"该砍"和"该换 E3"的判据。检索＋

答案锚点
该砍：① 连续多轮迭代选择性/PK 无改善（撞墙）；② 脱靶谱命中高危/必需蛋白且无法绕开；③ 治疗窗口在 bRo5 约束下无法打开。该换 E3：① 现有 E3（如 CRBN）几何上根本接不住该靶；② 该 E3 的组织表达与适应症不匹配；③ 换一个 E3 体系后界面可行性 / 选择性明显更优。

3一个项目连续三轮选择性都过不了，你迭代、砍、还是换模态？说明判据。应用＋

参考思路
没有唯一答案，关键是判据清晰。合理框架：先诊断选择性问题的根源——若是分子局部可调（脱靶来自个别可改造基团）→ 还有信息可挖，再迭代一轮（主动学习聚焦选择性）；若脱靶源于 E3 模板的广谱匹配本身、属体系问题 → 换 E3 / 换模态（如转 PROTAC 获得双价选择性）；若多路径都撞墙、窗口无法打开 → 砍。强调用"问题是否属于体系层面"来区分迭代与换/砍。

▤ 必读

方法主动学习 / 贝叶斯优化在分子设计中的应用一篇前沿自驱动实验室（self-driving lab）一篇

⏱ 本模块学时

35min视频

40min阅读

20min检查

一句话你能设计一轮 DMTA 迭代，并判断何时迭代、何时砍、何时换。

✓标记本模块已完成

★ 总集成M4.6 · 前置 M4.1–M4.5

端到端实战案例复盘

把 5 问，焊成一条链路

在 5 问地图中： Q1→Q5 全链路正向案例回溯案例共价案例 Capstone 样板

这一讲把 5 问从"分散的技能"焊成"一条链路"，用三个真实案例完整走一遍。最重要的训练目标，是校准你"AI 能 / 不能"的直觉——在每一步诚实标注：AI 在这步真起了作用，还是仍然靠经验与运气？这正是全篇的能力收口，也是你 Capstone 毕业项目的预演与样板。

◎学完本模块，你将能够

分析沿 5 问复盘一个完整发现链路，标注 AI 在每一步的真实作用。

评价对正向、回溯、共价三类案例，分辨"AI 真正起作用 vs 仍靠经验 / 运气"。

案例 ①正向 · CRBN neo-substrate 全蛋白组挖掘（QuEEN 链路）

从全蛋白组挖掘到候选、再到验证的完整 QuEEN 链路，逐步对应 5 问。它是"AI 真正深度参与"的代表，但即便如此，仍有几步靠经验与运气。

QuEEN 正向链路 · AI 贡献度：Q1 挖掘与 Q4 选择性 AI 贡献最大；Q2 建模受 33% 限制、Q3 受 SAR 非直觉限制、Q5 的"何时砍/换"仍是人类判断。

案例 ②回溯 · indisulam / E7820–DCAF15–RBM39

这是历史上偶然发现的非 CRBN 分子胶。我们做一个思想实验："如果用今天的 AI 重做，会怎样？"——让你看清 AI 能加速什么、又卡在哪。结论往往清醒：在非 CRBN 体系上，今天的建模能力仍然偏弱，AI 未必能在当年就做出来。

案例 ③共价 · DCAF16–BRD4 共价分子胶

展示共价稳定路线与非共价路线在 5 问上的差异，尤其是 Q2 建模上的不同：共价键的形成改变了三元复合物的稳定性与建模假设。

▦三案例 · AI 贡献度对照

案例	Q1 挖掘	Q2 建三元	Q3 化学	Q4 选择性	Q5 迭代
① QuEEN 正向（CRBN）	高	中	中低	高	中
② indisulam 回溯（非 CRBN）	中	低	中低	中	无/弱
③ DCAF16–BRD4 共价	中	低（共价特殊）	中	中	中

图例：高 AI 深度参与 · 中 / 中低 AI 部分参与 · 低 AI 难以胜任 · 无/弱 几乎全靠经验或运气。注意非 CRBN 与共价体系在 Q2 建模上 AI 普遍偏弱。

✓ 三案例让你看到 AI 能

在 Q1 全蛋白组挖掘与 Q4 全蛋白组选择性这两类"全局尺度"问题上，AI 提供人力无法替代的规模优势。

✕ 也让你看到 AI 不能

在 非 CRBN / 共价 / 诱导口袋等数据稀缺体系的 Q2 建模上，AI 仍偏弱；许多关键决策与突破仍靠经验与运气。

⚑ 复盘时要警惕这两个错觉

成功案例里 AI 包办了一切

很多步仍靠经验 / 运气。即便 QuEEN 这样的正向链路，Q2/Q3/Q5 也都有 AI 够不着的地方。

回溯案例说明 AI 当年就能做

受限于数据与 E3 体系。非 CRBN 体系今天的建模仍弱，AI 未必能在当年复现这个发现。

✓自测一下

1在 QuEEN 正向链路里，AI 贡献最大和最小的分别是哪一步？检索＋

答案锚点
贡献最大：Q1 全蛋白组挖掘（与 Q4 全蛋白组选择性）——这是 AI 的规模优势所在。贡献最小 / 最受限：Q2 三元建模（受 ~33% 恢复率制约）与 Q5 的"何时砍/换"决策（本质是人类判断）。

2共价与非共价胶在 Q2 建模上有何不同？检索＋

答案锚点
共价分子胶通过共价键稳定三元复合物，改变了复合物的稳定性与停留时间，因此建模假设与非共价不同——通用共折叠模型主要面向非共价相互作用，对共价稳定与新型 E3（如 DCAF16）体系尤其吃力，可靠性更低。

3选一个你熟悉的靶点，口头走一遍 5 问，标注每步 AI 能否帮上。应用＋

参考思路
合理回答应对所选靶点逐问标注：Q1（该靶可成胶性 / 是否 G-loop 相容 → AI 可投影评估）；Q2（E3 是否 CRBN 等常见体系 → 决定 AI 建模可信度）；Q3（化学起点来源 + SAR 非直觉风险）；Q4（全蛋白组脱靶 + bRo5 风险 → AI 可做趋势）；Q5（迭代/砍/换的判据）。关键是诚实标注每步 AI 是高/中/低/无，尤其指出体系是否落在 AI 的强项区间——这正是 Capstone 的核心动作。

▤ 必读

2025QuEEN，Science —— 正向链路回溯indisulam–DCAF15–RBM39 一篇共价DCAF16–BRD4 共价胶一篇

⏱ 本模块学时

40min视频

50min阅读

20min检查

一句话你能沿 5 问复盘任一项目，并诚实标注 AI 在每步的真实作用——直接进入 Capstone。

✓标记本模块已完成

把分子胶研发，
拆成五个能被回答的问题

5 问研发地图

什么能被粘？

粘起来长什么样？

用什么分子去粘？

会降解吗·能成药吗？

怎么闭环迭代？

靶点 / neo-substrate 选择

①问题定义：把"可成胶"变成一个打分

②AI 方法：两条互补的挖掘路线

③实操灵魂：三轴交叉排序

在一个激酶家族里做可成胶性打分

三元复合物与协同性建模

①方法：AI 快筛 + 物理精修

②教学的关键：不是"怎么跑模型"，是"怎么判断这次该不该信"

③当通用模型不灵：专用方法

跑一个已知 MG 三元复合物，亲眼看 33%

分子设计与优化

①苗头发现：三条互补的路

②全篇最反直觉的硬核：分子胶的 SAR/SDR

③多参数优化（MPO）与为 IP 的骨架跃迁

对一个 E3 口袋生成苗头并讨论可合成性

功能、选择性与成药性预测

①功能层：为什么 DC50 / Dmax 那么难预测

②本模块的招牌风险：全蛋白组脱靶降解

③成药性：分子胶常落在五规则之外（bRo5）

④决策：整合成 Go / No-Go 节点

用全局蛋白组数据做脱靶降解选择性分析

闭环迭代：DMTA 与自主化

①DMTA：一个带回流的循环

②AI 方法与自动化

③本模块的灵魂：决策框架，而非工具

在玩具优化问题上跑主动学习

端到端实战案例复盘

案例 ①正向 · CRBN neo-substrate 全蛋白组挖掘（QuEEN 链路）

案例 ②回溯 · indisulam / E7820–DCAF15–RBM39

案例 ③共价 · DCAF16–BRD4 共价分子胶

▦三案例 · AI 贡献度对照