← 课程门户
全课心脏 · 严格按 5 个根本问题展开

把分子胶研发,
拆成五个能被回答的问题

这是整门课的心脏。每个模块都回到同一张「5 问地图」点亮当前位置,统一按 问题定义 → 生物/化学约束 → AI 方法 → 当前能力边界 → 与实验如何咬合 展开。诚实优先于炒作——每一讲都讲清 AI 此刻能做什么、不能做什么。

5
研发主线
6
学习模块
~16h
本篇学时
3案例
端到端复盘
The Spine · 全篇导航

5 问研发地图

这不是一条直线流水线,而是一个带数据回流的循环。点击任意一问跳到对应模块——每讲开头你都会回到这张图,点亮自己当前的位置。

数据回流是灵魂:Q5 产出的实验数据,回喂 Q1–Q4 的所有模型——这正是"数据飞轮"。把 5 问看成 5 个独立步骤,是这一篇最大的误区。
01
Q1M4.1 · 前置 M1.4 / M2.1 / M2.2 / M3.1

靶点 / neo-substrate 选择

"什么蛋白,能被粘?"

在 5 问地图中: Q1 入口 可成胶组识别 全蛋白组扫描 三轴交叉排序
↻ 开始前·30 秒回顾前置

来自 M1.4(neo-substrate 语法):能被粘的蛋白在结构上有迹可循——G-loop(甘氨酸环)、螺旋型降解子、表面模拟、mTOR 那样的 HLH 型,这套"语法"就是 Q1 做结构判据的依据。

来自 M3.1(数据饥饿):负样本几乎不存在 + 结构数据稀缺,这是压低本模块所有预测天花板的根因。

欢迎来到全课的心脏。第四篇把分子胶研发拆成 5 个能被回答的问题,而 Q1 是一切的起点:在两万多个人类蛋白里,我们要找出那些"长得像能被粘"的——也就是构建所谓的可成胶基因组(gluable genome)。这件事的意义直接指向行业最性感的目标:MYC、STAT3、KRAS 这些经典"不可成药"靶点,能不能被纳入可成胶的版图。

学完本模块,你将能够
理解解释两条挖掘路线:G-loop 结构模板匹配 vs surface matchmaking(表面互补匹配)各自在找什么。
应用用云端 notebook 在一个蛋白家族里做一次"可成胶性"打分。
分析可成胶性 × 疾病生物学 × E3 相容性三轴交叉,对候选排序。
评价说清"预测 = 可能性 ≠ 验证",并识别为何非经典降解子的预测最弱。

问题定义:把"可成胶"变成一个打分

把模糊的"哪些蛋白能被分子胶招募"翻译成一个可计算的问题:给两万多个人类蛋白,每个打一个"可成胶性"分数。它的结构判据,正来自 M1.4 学过的那套语法(G-loop / 螺旋型 / 表面模拟 / HLH)。

AI 方法:两条互补的挖掘路线

路线一 · G-loop 结构模板匹配。拿已知降解子(比如 CRBN 招募的那些带 G-loop 的蛋白)当模板,去全蛋白组里扫描"长得像"的口袋。直觉上像"以图搜图",但搜的是三维结构 motif。

路线二 · surface matchmaking(表面互补匹配)。用几何深度学习把"可成胶表面 patch"投影到全蛋白组,寻找几何与化学性质都互补的口袋——这正是 QuEEN / MaSIF 路线(你在 M3.4 见过 QuEEN,它预测出 >1600 个 G-loop 相容蛋白)。

全蛋白组 ~20,000+ 蛋白 QuEEN 全蛋白组投影 >1600 个 G-loop 相容候选 三轴交叉过滤 可成胶性 × 疾病生物学 × E3 相容性 可立项的少数 每一个都还要进实验验证级联(M5.1)
核心可视化:三轴交叉打分漏斗 —— 从 >1600 个几何相容候选,收敛到真正可立项的少数。优先级排序,是本模块的实操灵魂。

实操灵魂:三轴交叉排序

预测出>1600 个候选只是开始。真正决定立项的是三轴交叉

  • 可成胶性——几何/结构上"接得住"分子胶吗?(路线一、二的输出)
  • 疾病生物学——降解它对某种疾病真的有治疗意义吗?一个完美可成胶但与疾病无关的蛋白没有价值。
  • E3 相容性——现有的 E3 连接酶(尤其 CRBN)能把它招募过去吗?

三轴同时为真的交集,才是值得投入湿实验的"可立项的少数"。

✓ AI 能

把全蛋白组的几何特征投影出来,产出一份带排序的候选清单(QuEEN 给出 >1600)。这是人力无法穷举的全局扫描。

✕ AI 不能

断言某个蛋白"一定会被降解"。打分高只代表几何相容;非经典降解子(无 G-loop、表面模拟型、mTOR HLH 型)可靠性显著下降。

⚠ 瓶颈在哪

负样本缺失 + 结构数据稀缺共同压低天花板(回扣 M3.1)。模型几乎只见过"成功"的例子,不知道什么是"粘不上"。

⚑ 开讲前先拆掉这三个错觉
打分高 = 可降解
打分高只是几何相容。能不能形成三元、能不能真降解,是后面 Q2、Q4 的事。
候选上千 = 靶点上千
绝大多数候选会被实验淘汰。>1600 经三轴交叉后只剩少数可立项。
AI 给了清单就能省掉实验
清单是假设,不是结论。每个候选都必须回到实验验证级联(M5.1)。
⚙ 动手实操

在一个激酶家族里做可成胶性打分

必做

用 G-loop 模板在一个激酶家族打分,与 QuEEN / 已知底物对照(云端 notebook,零本地 GPU)。亲手体会"全蛋白组投影 → 候选清单"是怎么产生的,以及它的置信度该怎么读。

交付物 → 跑完打分,挑出前 3 名候选,并写清你还需要哪些湿实验才能把它们推进到立项。
自测一下(先想,再点开看答案锚点)
1G-loop 模板匹配与 surface matchmaking 各在找什么?检索
答案锚点
G-loop 模板匹配:拿已知降解子当模板,在全蛋白组扫"长得像 G-loop 口袋"的结构 motif。surface matchmaking:用几何深度学习把"可成胶表面 patch"投影到全蛋白组,找几何与化学互补的口袋(QuEEN/MaSIF 路线)。前者是模板匹配,后者是表面互补搜索。
2为什么"候选上千"不等于"靶点上千"?检索
答案锚点
因为 >1600 只是几何相容的候选。要立项必须再过疾病生物学E3 相容性两轴,绝大多数会在三轴交叉与后续湿实验中被淘汰。预测 = 可能性 ≠ 验证。
3跑完打分,挑出前 3 名,说明还需要哪些湿实验才能立项。应用
参考思路
合理回答应包含:① 验证蛋白确实能被某 E3(如 CRBN)招募——共免疫沉淀 / 邻近实验;② 验证存在能形成三元的化学起点(接 Q2/Q3);③ 确认降解该蛋白的疾病学意义——细胞表型 / 通路读出。强调"清单是假设、实验才是裁判"。
▤ 必读
2025QuEEN,Science —— 全蛋白组 neo-substrate 预测的范式之作 方法MaSIF / 几何深度学习一篇 —— 表面互补匹配的技术底座
⏱ 本模块学时
30min视频
45min阅读
90min实操
15min检查
一句话 拿到一个蛋白组,你能产出一份带可成胶性排序诚实置信度的候选清单。
标记本模块已完成
02
Q2M4.2 · 前置 M1.3 / M2.3 / M3.1

三元复合物与协同性建模

"粘起来,长什么样?"

在 5 问地图中: Q2 共折叠模型 界面 / 埋藏面积 协同性 ΔΔG 该信 / 该弃
↻ 开始前·30 秒回顾前置

来自 M1.3(机制):分子胶的活性几乎全部来自三元复合物的协同——协同性的结构与动力学来源,是本模块"贴得牢不牢"的物理依据。

来自 M2.3(结构预测):读懂 AF3 的置信度信号 PAE / ipTM,是判断"这次该不该信"的关键工具。

Q1 帮你选出了"靶 + E3 + 候选胶"。Q2 要把它们折成一个三元结构,并判断它们"贴得牢不牢"——也就是协同。这一讲是全篇最诚实、也最让人清醒的一课。

学完本模块,你将能够
应用共折叠模型(AF3 / Boltz / Chai…)建三元复合物,做界面预测、埋藏面积与协同性 / ΔΔG 估计,再用 MD 精修
评价直面 AF3 的失败模式(诱导成型口袋、大界面、新型 E3),判断何时该信、何时该弃
理解说明专用方法(GlueFold 类引导扩散)的适用场景。

方法:AI 快筛 + 物理精修

用共折叠模型把三元复合物折出来,读界面、算埋藏面积、估 ΔΔG / 协同,再用分子动力学(MD)精修它的动态稳定性。这套"AI 快筛 + 物理精修"的组合你在 M2.2 见过——AI 给出快速假设,物理给出可信度的校验。

震撼时刻

本模块的诚实硬课:在 MGBench 基准上,AF3 是最好的共折叠模型,但分子胶—蛋白界面的恢复率仅约 33%,而且这 ~33% 还大部分来自记忆,而非泛化

建模不是"真相机器",它是假设生成器。这一句话,是整个 Q2 的灵魂。

~50%
AF3 蛋白—蛋白界面成功率
MGBench · J Chem Inf Model 2026
~33%
分子胶—蛋白相互作用恢复率(且掺记忆)
MGBench · J Chem Inf Model 2026
~221
PDB 里非共价 MG 三元结构总数(MG-PDB 收录)
数据稀缺 = 天花板
AF3 预测的三元结构 ipTM = 0.86 · 看着很"对" E3 实验真实结构 界面方向完全不同 E3 高 ipTM 不代表界面正确——尤其在模型没见过的体系里
核心震撼图:一个"高置信但错"的 AF3 三元复合物 vs 真实结构。亲眼看见 33% 是什么意思——这是全员的"震撼时刻"。

教学的关键:不是"怎么跑模型",是"怎么判断这次该不该信"

跑通一个共折叠模型很容易。真正的能力,是面对一份输出时做出判断。三个判断维度:

  • 看置信度——读 M2.3 的 PAE / ipTM,但要记住高置信≠正确。
  • 看是否落在见过的体系——这个 E3、这类界面,模型训练时见过吗?域外就是"猜"。
  • 看物理是否自洽——埋藏面积、互补性、MD 下稳不稳,能不能自圆其说。

AF3 在三类情形最容易错:诱导成型口袋(口袋是被胶诱导出来的,原结构里不存在)、大界面新型 E3 体系

当通用模型不灵:专用方法

当 AF3 这类通用模型失效时,GlueFold 类引导扩散给分子胶先验,适用于"已知 E3、想精修界面"的场景。它不是万能替代,而是特定问题下的更优解。

✓ AI 能

给出三元结构假设 + 可读的置信度 + 界面 / 埋藏量估计。作为后续证伪的起点,价值很大。

✕ AI 不能

保证界面正确(~33% 且掺记忆)。对诱导口袋 / 大界面 / 新型 E3 体系高失败率。

⚠ 瓶颈在哪

结构数据稀缺(非共价 MG 三元仅约 221 个)。模型在训练域外,本质上是在"猜"。

⚑ 开讲前先拆掉这三个错觉
建出来就是真相
它是假设,不是真相。把它当成需要被证伪的科学命题。
ipTM 高 = 界面对
域外不可靠。高置信经常是高置信地错。
跑通了模型 = 完成了 Q2
没有。Q2 的完成标志是你能判断该信还是该弃,并设计出证伪它的实验
⚙ 动手实操

跑一个已知 MG 三元复合物,亲眼看 33%

必做 · 震撼时刻

用 AF3 / Boltz 跑一个已知的分子胶三元复合物,对照实验结构,亲眼看"33% 恢复率"是什么意思(云端 notebook)。这是全篇情绪上最关键的一次动手——很多结论你听一百遍,不如自己跑错一次。

交付物 → 给定一份 AF3 三元输出,写出你的"信 / 不信"判断及依据,并设计一个能证伪它的湿实验。
自测一下
1~33% 恢复率,为什么意味着"建模是假设生成器,不是真相机器"?检索
答案锚点
三次里只有约一次界面恢复正确,而且这 ~33% 还大部分来自记忆而非泛化。因此任何一份输出都不能当结论,只能当待证伪的假设;下游必须用 SPR/TR-FRET/结构生物学去检验。
2AF3 在哪三类情形最容易出错?检索
答案锚点
诱导成型口袋(口袋由胶诱导,原结构不存在);② 大界面;③ 新型 E3 体系(训练域外)。共性是:模型没见过、或几何被诱导改变。
3给一份 AF3 三元输出,判断信不信,并设计一个证伪它的湿实验。应用
参考思路
判断三件事:置信度(PAE/ipTM)、是否落在见过的体系、物理是否自洽。证伪实验示例:① 对预测界面上的关键残基做定点突变,若预测正确则三元结合应被破坏(SPR/TR-FRET 测协同);② 若可得,直接做共结晶 / cryo-EM 对照预测界面。核心是设计一个"如果模型错了就会失败"的实验。
▤ 必读
基石AF3 论文 —— 共折叠一代的代表 2026MGBench,J Chem Inf Model —— 那个 50% / 33% 的诚实基准 专用GlueFold 类引导扩散一篇 —— 已知 E3 下的界面精修
⏱ 本模块学时
35min视频
50min阅读
90min实操
20min检查
一句话 你能建出三元复合物假设,并诚实判断这次该信还是该弃
标记本模块已完成
03
Q3M4.3 · 前置 M2.4 / M4.2

分子设计与优化

"用什么分子,去粘?"

在 5 问地图中: Q3 苗头发现三条路 从头生成 非直觉 SAR/SDR 多参数优化 MPO
↻ 开始前·30 秒回顾前置

来自 M2.4(生成式与逆向设计):"面向界面互补的从头生成"把界面条件当作生成约束——这是本模块从头设计的方法底座。

来自 M4.2(Q2):你要设计的分子,必须能制造出那个你刚刚学会建模与判断的三元界面。

Q1 选出了能被粘的蛋白,Q2 教会你看"粘起来什么样"。Q3 的任务很直接:造出能制造那个全新蛋白—蛋白界面(neo-PPI)的分子。它要同时坐进 E3 口袋、又改造出与靶互补的新表面。这一讲藏着全篇最反直觉的硬核。

学完本模块,你将能够
应用说明苗头发现三条路:分子胶样库虚拟筛选 · DEL+ML · 从 E3 口袋出发的片段生长
应用做面向三元界面的从头生成(把界面互补性当作生成条件)。
分析解释分子胶 SDR/SAR 为何比抑制剂更"非直觉",并做 MPO(活性/选择性/合成可及性/IP/成药性)与为 IP 的骨架跃迁

苗头发现:三条互补的路

1 分子胶样库 虚拟筛选 在分子胶样化学库里 用模型大规模筛打分 2 DEL + ML 用 DNA 编码库的海量 结合数据,训练一个 判别器 3 片段生长 从已知的 E3 口袋出发, 一步步"长出"伸向靶 的化学结构 + 面向三元界面的从头生成:把"界面互补"当作生成条件(回扣 M2.4)
三条苗头路线图:三条路各有数据假设与盲区,实战中常组合使用;再叠加面向界面的从头生成。

全篇最反直觉的硬核:分子胶的 SAR/SDR

传统抑制剂的构效关系(SAR)相对可外推:改一个基团,亲和力大致按经验变化。但分子胶极其非直觉——一个极小的化学改动,可能彻底反转降解谱:换一个降解的底物、甚至从"降解"变成"不降解"。

原因在于:你改的不是"对单一口袋的亲和力",而是那张被诱导出来的界面的形状。这让传统 SAR 经验直接失灵,也正是用 ML 建"结构—降解关系(SDR)"的价值所在与难点所在。

非直觉

分子胶里,一个甲基的增减,可能就把降解谱从蛋白 A 整个切换到蛋白 B,或让分子彻底失去降解能力。

因为分子胶改变的是诱导界面的几何,而不是单点亲和力——所以抑制剂的 SAR 直觉在这里会骗你。

合成可及性 / IP 空间 / 成药性 → 活性 · 选择性 → 帕累托前沿 最优权衡候选 灰点 = 被支配(总有更优解)
MPO 帕累托前沿:活性、选择性、合成可及性、IP 空间、成药性同时优化——没有单一最优,只有一组互不支配的权衡候选。

多参数优化(MPO)与为 IP 的骨架跃迁

真实的优化从来不是"把活性做高"那么简单。活性、选择性、合成可及性、IP 空间、成药性必须同时优化(帕累托权衡)。此外,为了专利空间,还要做骨架跃迁(scaffold hopping)——在保持作用的前提下换一套化学骨架。

咬合实验:生成模型给的是"想法"。可合成性与三元活性必须由实验定夺(回扣 M2.4 的收口)。

✓ AI 能

产出大量候选与新骨架,并建出 SDR 的趋势。在化学空间里给你海量起点。

✕ AI 不能

保证可合成、保证三元活性;SDR 外推不可靠——小改动可能大反转

⚠ 瓶颈在哪

SDR 数据稀缺且高度非线性。越界外推就越不可信。

⚑ 开讲前先拆掉这三个错觉
分子胶 SAR 和抑制剂一样可外推
极度非直觉。改的是诱导界面的形状,不是单点亲和力。
生成出来就能合成
很多生成分子合成不出来。可合成性是必过的一关。
优化活性就行
MPO:活性只是其中一维,选择性 / 合成 / IP / 成药性同等重要。
⚙ 动手实操

对一个 E3 口袋生成苗头并讨论可合成性

选做

用生成模型对一个 E3 口袋生成苗头分子,并讨论它们的可合成性(云端 notebook)。体会"生成出想法"与"想法能不能落地"之间的距离。

交付物 → 生成器给了 1000 个候选,设计一套过滤流程,收敛到可合成、选择性好的少数。
自测一下
1为什么分子胶 SAR 比抑制剂更难外推?检索
答案锚点
因为分子胶改变的是被诱导出来的界面形状,而非对单一口袋的亲和力。一个极小改动可能彻底反转降解谱(换底物、甚至从降解变不降解),传统 SAR 的"渐变"直觉因此失灵。
2面向界面的从头生成,要喂给模型什么条件?检索
答案锚点
三元界面的互补性当作生成条件——即让生成的分子去匹配 E3 与靶之间需要被制造出来的那张界面(几何 + 化学互补),而不是只优化对单一口袋的结合。
3生成器给了 1000 个候选,设计一套过滤流程收敛到可合成、选择性好的少数。应用
参考思路
合理流程示例:① 合成可及性打分先粗筛(去掉合成不可行的);② 三元界面互补 / docking 复评保留几何合理者;③ 全蛋白组选择性预筛(接 Q4,去掉高脱靶风险);④ MPO 帕累托排序(活性 × 选择性 × IP × 成药性);⑤ 多样性 / 骨架去冗余,留下覆盖不同骨架的少数进合成。强调"想法要过可合成三元活性两关"。
▤ 必读
方法分子胶从头设计 / DEL+ML 一篇 案例分子胶 SAR 非直觉性案例一篇 —— 看"小改动→大反转"
⏱ 本模块学时
35min视频
45min阅读
60min实操
20min检查
一句话 你能为一个三元界面规划设计路线,并知道想法要过可合成活性两关。
标记本模块已完成
04
Q4M4.4 · 前置 M1.1 / M3.3

功能、选择性与成药性预测

"会降解吗?能成药吗?"

在 5 问地图中: Q4 DC50 / Dmax 全蛋白组脱靶 bRo5 ADMET Go / No-Go
↻ 开始前·30 秒回顾前置

来自 M1.1(UPS 深解):核心结论"招募 ≠ 降解"——结果还取决于泛素链拓扑、处理性、复合物几何与停留时间。这正是 DC50/Dmax 难预测的根因。

来自 M3.3(实验数据→训练信号):全局蛋白组数据如何变成监督脱靶预测的训练信号——本模块招牌风险的数据来源。

分子能制造三元界面了(Q3),但两个要命的问题还没回答。Q4 把它们分成两层:粘了会不会真降解(功能),以及降了会不会误伤别的蛋白(选择性)、能不能成药(DMPK)

学完本模块,你将能够
分析评估预测 DC50 / Dmax / 降解半衰期 的 ML 模型及其局限。
评价说明全蛋白组选择性 / 脱靶降解预测,为何是分子胶特有的核心风险。
分析做面向"超越五规则 bRo5"空间的 ADMET / DMPK 预测与三元复合物感知的性质模型,设计 Go/No-Go 节点。

功能层:为什么 DC50 / Dmax 那么难预测

回扣 M1.1 的铁律——招募 ≠ 降解。一个分子即使能把靶招募到 E3 旁边,能不能真正泛素化并送进蛋白酶体,还取决于链拓扑、处理性、复合物几何这些缺数据的动力学量。这正是为什么预测 DC50/Dmax 的绝对值很难——它依赖的恰恰是我们最缺乏数据的那部分物理。

本模块的招牌风险:全蛋白组脱靶降解

这是分子胶特有的核心风险,请重点理解。还记得 Q1 里那个 G-loop 模板能匹配 >1600 个蛋白吗?那把双刃剑的另一面是:一个 G-loop 模板可能匹配上千个蛋白——意味着你的分子胶可能在降解目标靶点的同时,误降解一大批不该碰的蛋白

特有风险

抑制剂的脱靶,通常是"结合了不该结合的口袋"。分子胶的脱靶更危险:它会真的把脱靶蛋白降解掉、清除掉——而且因为模板匹配的广谱性,潜在脱靶可能数以千计。

所以选择性绝不能只看对靶点的亲和力,必须用全局蛋白组数据来监督预测与裁判。

一个模板 → 上千匹配 模板 …上千潜在脱靶 蛋白组选择性火山图 丰度变化 (log2FC) → 显著性 → 目标靶 脱靶降解
核心风险图:左 — 一个 G-loop 模板可匹配上千蛋白;右 — 蛋白组选择性火山图,目标靶(绿)应被显著降解,红点是必须警惕的脱靶降解。

成药性:分子胶常落在五规则之外(bRo5)

分子胶常常落在"超越五规则"(bRo5)的化学空间里——分子量、氢键、极性表面积超出 Lipinski 五规则。传统 ADMET/DMPK 性质模型在这个空间外推不准,需要三元复合物感知的性质模型

决策:整合成 Go / No-Go 节点

把功能、选择性、DMPK 整合成早期成药性打分与 Go/No-Go 节点——明确什么指标不过就砍掉。预测出的选择性与性质,最终都要被蛋白组学与 DMPK 实验证实(接 M5.1 / M5.3)。

✓ AI 能

用蛋白组数据训练选择性 / 脱靶预测,做趋势性的 DMPK 打分。在全局尺度上发现风险。

✕ AI 不能

可靠预测 DC50 / Dmax 的绝对值(动力学缺数据);bRo5 空间外推弱

⚠ 瓶颈在哪

功能与 PK 的训练标签又贵又少。最关键的数据,恰恰最难获取。

⚑ 开讲前先拆掉这三个错觉
能形成三元就会降解
回扣 M1.1:招募 ≠ 降解。还要看链拓扑、处理性、几何与停留时间。
选择性靠看靶点亲和
要看全蛋白组。分子胶会真的降解脱靶蛋白,且潜在脱靶上千。
五规则适用于胶
分子胶常 bRo5,传统性质模型外推不准。
⚙ 动手实操

用全局蛋白组数据做脱靶降解选择性分析

必做

用一份全局蛋白组数据(如定量质谱)做一次脱靶降解选择性分析(云端 notebook)。亲手画出选择性火山图,看清目标靶与脱靶在全蛋白组尺度上的分布。

交付物 → 基于脱靶选择性结果,给出该分子的去 / 留判断(Go/No-Go),并写明你设的阈值依据。
自测一下
1为什么脱靶降解是分子胶"特有"的核心风险?检索
答案锚点
因为分子胶通过模板/表面匹配工作,一个模板可匹配上千蛋白,而且分子胶会真的把脱靶蛋白降解清除(不只是结合)。抑制剂脱靶通常只是占据口袋,分子胶脱靶是不可逆的清除,且潜在范围广,所以是特有且严重的风险。
2DC50 / Dmax 为什么难精准预测?检索
答案锚点
因为招募 ≠ 降解:真实降解效率取决于泛素链拓扑、链延伸处理性、复合物几何与停留时间这些动力学量,而这恰恰是训练数据最稀缺的部分。模型能给趋势,难给可靠绝对值。
3用一份全局蛋白组数据做脱靶选择性分析,给出该分子的去/留判断。应用
参考思路
合理回答应包含:① 画选择性火山图,看目标靶是否被显著降解、有多少蛋白同被显著降解;② 设阈值(如 log2FC + 显著性双阈),统计脱靶数量与其生物学风险(是否命中必需蛋白 / 安全相关蛋白);③ 据此给 Go(选择性窗口足够)或 No-Go(脱靶过多 / 命中高危蛋白),并说明阈值依据。强调"选择性是全蛋白组判断,不是单靶亲和"。
▤ 必读
核心脱靶降解 / 全蛋白组选择性一篇 DMPKbRo5 ADMET 一篇 —— 五规则之外的性质预测
⏱ 本模块学时
35min视频
50min阅读
90min实操
20min检查
一句话 你能用蛋白组数据评估一个胶的选择性风险并给出 Go / No-Go 判断。
标记本模块已完成
05
Q5M4.5 · 前置 M4.1–M4.4 / M3.4

闭环迭代:DMTA 与自主化

"怎么让这个轮子,转起来?"

在 5 问地图中: Q5 · 让前四问转起来 主动学习 贝叶斯优化 自驱动实验室 迭代 / 砍 / 换
↻ 开始前·30 秒回顾前置

来自 M3.4(数据飞轮 / QuEEN 范式):DMTA 直接呼应数据飞轮——每轮实验回喂模型,让护城河越转越深。

来自 M1.2 / M1.5(E3 版图 / 模态权衡):"换 E3"与"换模态"是 Q5 决策框架里的两条退路,依据来自这两讲。

前四问解决了"选谁、长啥样、用什么粘、会不会成药"。Q5 把它们连成一个转起来的轮子:Design → Make → Test → Analyze(DMTA)不是直线,而是一个每轮都让下一轮更聪明的循环。但这一讲的灵魂不是工具,是决策框架

学完本模块,你将能够
应用主动学习 / 贝叶斯优化驱动 Design-Make-Test-Analyze 循环。
理解说明实验自动化 / 自驱动实验室与模型再训练如何衔接。
评价建立决策框架:何时迭代、何时砍、何时换 E3 / 换模态

DMTA:一个带回流的循环

Design设计 Make合成 Test测试 Analyze分析 数据回流 再训练模型 主动学习选点 挑"最值得做的下一个实验" 不确定性最高点 = 信息增益最大 → 优先做
DMTA 闭环 + 主动学习选点:每轮实验数据回喂模型(直接呼应 M3.4 的数据飞轮),主动学习挑出信息增益最大、不确定性最高的点优先实验。

AI 方法与自动化

  • 主动学习——让模型自己挑"最值得做的下一个实验":信息增益最大、或不确定性最高的那个点。这能显著减少达标所需的实验数。
  • 贝叶斯优化——在多目标空间里高效搜索最优权衡(呼应 Q3 的 MPO)。
  • 自驱动实验室——把"设计→合成→测试→分析→再训练"闭成一个自动环,让飞轮转得更快。但关键不是买设备,而是数据闭环与再训练能不能真正打通。

本模块的灵魂:决策框架,而非工具

真正的研发领导力,是知道什么时候不该继续。给你一套判据:

迭代
还在收敛、还有信息可挖、主动学习仍在缩小不确定性 → 继续转
撞上不可逾越的选择性 / PK 墙,多轮迭代无改善 → 止损
问题出在体系本身 → 换 E3 或换模态(M1.2 / M1.5 的退路)

"会砍"和"会换",与"会迭代"一样重要。这是把工程能力升级成研发判断力的分水岭。

✓ AI 能

用主动学习显著减少达标所需的实验数。把有限的实验预算花在刀刃上。

✕ AI 不能

替代关于"何时止损 / 转向"的人类判断。算法能优化路径,定不了战略。

⚠ 瓶颈在哪

自动化与数据回流的工程化落地难(接 M6.1)。打通闭环比单点先进更难。

⚑ 开讲前先拆掉这三个错觉
DMTA 是线性流程
循环 + 回流。数据回喂模型才是它的灵魂。
自动化 = 买设备
关键是数据闭环与再训练能否打通,不是硬件清单。
能优化就别砍
会止损是核心能力。撞上 PK / 选择性墙时,砍和换比硬磨更明智。
⚙ 动手实操

在玩具优化问题上跑主动学习

选做

在一个玩具优化问题上跑主动学习,对比"随机选点"的效率差距(云端 notebook)。直观看到主动学习如何用更少的实验更快逼近目标。

交付物 → 画出主动学习 vs 随机选点的收敛曲线,说明主动学习省了多少实验。
自测一下
1主动学习如何减少实验数?检索
答案锚点
它不盲目铺实验,而是让模型挑信息增益最大 / 不确定性最高的点优先做。每个实验都最大化地缩小模型的不确定性,因此达到同样目标所需的实验数显著低于随机选点。
2给三个"该砍"和"该换 E3"的判据。检索
答案锚点
该砍:① 连续多轮迭代选择性/PK 无改善(撞墙);② 脱靶谱命中高危/必需蛋白且无法绕开;③ 治疗窗口在 bRo5 约束下无法打开。该换 E3:① 现有 E3(如 CRBN)几何上根本接不住该靶;② 该 E3 的组织表达与适应症不匹配;③ 换一个 E3 体系后界面可行性 / 选择性明显更优。
3一个项目连续三轮选择性都过不了,你迭代、砍、还是换模态?说明判据。应用
参考思路
没有唯一答案,关键是判据清晰。合理框架:先诊断选择性问题的根源——若是分子局部可调(脱靶来自个别可改造基团)→ 还有信息可挖,再迭代一轮(主动学习聚焦选择性);若脱靶源于 E3 模板的广谱匹配本身、属体系问题 → 换 E3 / 换模态(如转 PROTAC 获得双价选择性);若多路径都撞墙、窗口无法打开 → 。强调用"问题是否属于体系层面"来区分迭代与换/砍。
▤ 必读
方法主动学习 / 贝叶斯优化在分子设计中的应用一篇 前沿自驱动实验室(self-driving lab)一篇
⏱ 本模块学时
35min视频
40min阅读
20min检查
一句话 你能设计一轮 DMTA 迭代,并判断何时迭代、何时砍、何时换
标记本模块已完成
06
★ 总集成M4.6 · 前置 M4.1–M4.5

端到端实战案例复盘

把 5 问,焊成一条链路

在 5 问地图中: Q1→Q5 全链路 正向案例 回溯案例 共价案例 Capstone 样板

这一讲把 5 问从"分散的技能"焊成"一条链路",用三个真实案例完整走一遍。最重要的训练目标,是校准你"AI 能 / 不能"的直觉——在每一步诚实标注:AI 在这步真起了作用,还是仍然靠经验与运气?这正是全篇的能力收口,也是你 Capstone 毕业项目的预演与样板。

学完本模块,你将能够
分析沿 5 问复盘一个完整发现链路,标注 AI 在每一步的真实作用
评价对正向、回溯、共价三类案例,分辨"AI 真正起作用 vs 仍靠经验 / 运气"。

案例 ①正向 · CRBN neo-substrate 全蛋白组挖掘(QuEEN 链路)

从全蛋白组挖掘到候选、再到验证的完整 QuEEN 链路,逐步对应 5 问。它是"AI 真正深度参与"的代表,但即便如此,仍有几步靠经验与运气。

每步 AI 贡献度(柱越高,AI 作用越大) Q1 挖掘 全蛋白组投影 Q2 建三元 ~33% 仍靠验证 中低 Q3 化学 SAR 非直觉 Q4 选择性 蛋白组脱靶 Q5 迭代 人定何时砍
QuEEN 正向链路 · AI 贡献度:Q1 挖掘与 Q4 选择性 AI 贡献最大;Q2 建模受 33% 限制、Q3 受 SAR 非直觉限制、Q5 的"何时砍/换"仍是人类判断。

案例 ②回溯 · indisulam / E7820–DCAF15–RBM39

这是历史上偶然发现的非 CRBN 分子胶。我们做一个思想实验:"如果用今天的 AI 重做,会怎样?"——让你看清 AI 能加速什么、又卡在哪。结论往往清醒:在非 CRBN 体系上,今天的建模能力仍然偏弱,AI 未必能在当年就做出来。

案例 ③共价 · DCAF16–BRD4 共价分子胶

展示共价稳定路线与非共价路线在 5 问上的差异,尤其是 Q2 建模上的不同:共价键的形成改变了三元复合物的稳定性与建模假设。

三案例 · AI 贡献度对照

案例 Q1 挖掘 Q2 建三元 Q3 化学 Q4 选择性 Q5 迭代
① QuEEN 正向(CRBN) 中低
② indisulam 回溯(非 CRBN) 中低 无/弱
③ DCAF16–BRD4 共价 低(共价特殊)

图例: AI 深度参与 · 中 / 中低 AI 部分参与 · AI 难以胜任 · 无/弱 几乎全靠经验或运气。注意非 CRBN 与共价体系在 Q2 建模上 AI 普遍偏弱。

✓ 三案例让你看到 AI 能

Q1 全蛋白组挖掘Q4 全蛋白组选择性这两类"全局尺度"问题上,AI 提供人力无法替代的规模优势。

✕ 也让你看到 AI 不能

非 CRBN / 共价 / 诱导口袋等数据稀缺体系的 Q2 建模上,AI 仍偏弱;许多关键决策与突破仍靠经验与运气

⚑ 复盘时要警惕这两个错觉
成功案例里 AI 包办了一切
很多步仍靠经验 / 运气。即便 QuEEN 这样的正向链路,Q2/Q3/Q5 也都有 AI 够不着的地方。
回溯案例说明 AI 当年就能做
受限于数据与 E3 体系。非 CRBN 体系今天的建模仍弱,AI 未必能在当年复现这个发现。
自测一下
1在 QuEEN 正向链路里,AI 贡献最大和最小的分别是哪一步?检索
答案锚点
贡献最大:Q1 全蛋白组挖掘(与 Q4 全蛋白组选择性)——这是 AI 的规模优势所在。贡献最小 / 最受限:Q2 三元建模(受 ~33% 恢复率制约)与 Q5 的"何时砍/换"决策(本质是人类判断)。
2共价与非共价胶在 Q2 建模上有何不同?检索
答案锚点
共价分子胶通过共价键稳定三元复合物,改变了复合物的稳定性与停留时间,因此建模假设与非共价不同——通用共折叠模型主要面向非共价相互作用,对共价稳定与新型 E3(如 DCAF16)体系尤其吃力,可靠性更低。
3选一个你熟悉的靶点,口头走一遍 5 问,标注每步 AI 能否帮上。应用
参考思路
合理回答应对所选靶点逐问标注:Q1(该靶可成胶性 / 是否 G-loop 相容 → AI 可投影评估);Q2(E3 是否 CRBN 等常见体系 → 决定 AI 建模可信度);Q3(化学起点来源 + SAR 非直觉风险);Q4(全蛋白组脱靶 + bRo5 风险 → AI 可做趋势);Q5(迭代/砍/换的判据)。关键是诚实标注每步 AI 是高/中/低/无,尤其指出体系是否落在 AI 的强项区间——这正是 Capstone 的核心动作。
▤ 必读
2025QuEEN,Science —— 正向链路 回溯indisulam–DCAF15–RBM39 一篇 共价DCAF16–BRD4 共价胶一篇
⏱ 本模块学时
40min视频
50min阅读
20min检查
一句话 你能沿 5 问复盘任一项目,并诚实标注 AI 在每步的真实作用——直接进入 Capstone
标记本模块已完成

第四篇 · 学完之后

你已经走完整门课的心脏:把分子胶研发拆成 5 个能被回答的问题,并为每一问建立了"AI 能 / 不能"的诚实校准。下一步——

第五篇:验证、转化与临床前(每一问的实验如何反哺 AI)
第六篇:平台、组织、IP 与前沿
Capstone:沿 5 问完成你自己的发现项目,标注每步 AI 的真实作用

本篇关键事实已折入截至 2026 年 5 月的认知:AF3 ~50% / ~33%(且记忆而非泛化)· QuEEN >1600 · 非共价 MG 三元 ~221 · bRo5 · 三轴交叉。诚实优先于炒作。

↑ 回到 5 问地图