把分子胶研发,
拆成五个能被回答的问题
这是整门课的心脏。每个模块都回到同一张「5 问地图」点亮当前位置,统一按 问题定义 → 生物/化学约束 → AI 方法 → 当前能力边界 → 与实验如何咬合 展开。诚实优先于炒作——每一讲都讲清 AI 此刻能做什么、不能做什么。
5 问研发地图
这不是一条直线流水线,而是一个带数据回流的循环。点击任意一问跳到对应模块——每讲开头你都会回到这张图,点亮自己当前的位置。
什么能被粘?
粘起来长什么样?
用什么分子去粘?
会降解吗·能成药吗?
怎么闭环迭代?
↻ 开始前·30 秒回顾前置
来自 M1.4(neo-substrate 语法):能被粘的蛋白在结构上有迹可循——G-loop(甘氨酸环)、螺旋型降解子、表面模拟、mTOR 那样的 HLH 型,这套"语法"就是 Q1 做结构判据的依据。
来自 M3.1(数据饥饿):负样本几乎不存在 + 结构数据稀缺,这是压低本模块所有预测天花板的根因。
欢迎来到全课的心脏。第四篇把分子胶研发拆成 5 个能被回答的问题,而 Q1 是一切的起点:在两万多个人类蛋白里,我们要找出那些"长得像能被粘"的——也就是构建所谓的可成胶基因组(gluable genome)。这件事的意义直接指向行业最性感的目标:MYC、STAT3、KRAS 这些经典"不可成药"靶点,能不能被纳入可成胶的版图。
①问题定义:把"可成胶"变成一个打分
把模糊的"哪些蛋白能被分子胶招募"翻译成一个可计算的问题:给两万多个人类蛋白,每个打一个"可成胶性"分数。它的结构判据,正来自 M1.4 学过的那套语法(G-loop / 螺旋型 / 表面模拟 / HLH)。
②AI 方法:两条互补的挖掘路线
路线一 · G-loop 结构模板匹配。拿已知降解子(比如 CRBN 招募的那些带 G-loop 的蛋白)当模板,去全蛋白组里扫描"长得像"的口袋。直觉上像"以图搜图",但搜的是三维结构 motif。
路线二 · surface matchmaking(表面互补匹配)。用几何深度学习把"可成胶表面 patch"投影到全蛋白组,寻找几何与化学性质都互补的口袋——这正是 QuEEN / MaSIF 路线(你在 M3.4 见过 QuEEN,它预测出 >1600 个 G-loop 相容蛋白)。
③实操灵魂:三轴交叉排序
预测出>1600 个候选只是开始。真正决定立项的是三轴交叉:
- 可成胶性——几何/结构上"接得住"分子胶吗?(路线一、二的输出)
- 疾病生物学——降解它对某种疾病真的有治疗意义吗?一个完美可成胶但与疾病无关的蛋白没有价值。
- E3 相容性——现有的 E3 连接酶(尤其 CRBN)能把它招募过去吗?
三轴同时为真的交集,才是值得投入湿实验的"可立项的少数"。
把全蛋白组的几何特征投影出来,产出一份带排序的候选清单(QuEEN 给出 >1600)。这是人力无法穷举的全局扫描。
断言某个蛋白"一定会被降解"。打分高只代表几何相容;非经典降解子(无 G-loop、表面模拟型、mTOR HLH 型)可靠性显著下降。
负样本缺失 + 结构数据稀缺共同压低天花板(回扣 M3.1)。模型几乎只见过"成功"的例子,不知道什么是"粘不上"。
在一个激酶家族里做可成胶性打分
必做用 G-loop 模板在一个激酶家族打分,与 QuEEN / 已知底物对照(云端 notebook,零本地 GPU)。亲手体会"全蛋白组投影 → 候选清单"是怎么产生的,以及它的置信度该怎么读。
G-loop 模板匹配:拿已知降解子当模板,在全蛋白组扫"长得像 G-loop 口袋"的结构 motif。surface matchmaking:用几何深度学习把"可成胶表面 patch"投影到全蛋白组,找几何与化学互补的口袋(QuEEN/MaSIF 路线)。前者是模板匹配,后者是表面互补搜索。
因为 >1600 只是几何相容的候选。要立项必须再过疾病生物学与 E3 相容性两轴,绝大多数会在三轴交叉与后续湿实验中被淘汰。预测 = 可能性 ≠ 验证。
合理回答应包含:① 验证蛋白确实能被某 E3(如 CRBN)招募——共免疫沉淀 / 邻近实验;② 验证存在能形成三元的化学起点(接 Q2/Q3);③ 确认降解该蛋白的疾病学意义——细胞表型 / 通路读出。强调"清单是假设、实验才是裁判"。
↻ 开始前·30 秒回顾前置
来自 M1.3(机制):分子胶的活性几乎全部来自三元复合物的协同——协同性的结构与动力学来源,是本模块"贴得牢不牢"的物理依据。
来自 M2.3(结构预测):读懂 AF3 的置信度信号 PAE / ipTM,是判断"这次该不该信"的关键工具。
Q1 帮你选出了"靶 + E3 + 候选胶"。Q2 要把它们折成一个三元结构,并判断它们"贴得牢不牢"——也就是协同。这一讲是全篇最诚实、也最让人清醒的一课。
①方法:AI 快筛 + 物理精修
用共折叠模型把三元复合物折出来,读界面、算埋藏面积、估 ΔΔG / 协同,再用分子动力学(MD)精修它的动态稳定性。这套"AI 快筛 + 物理精修"的组合你在 M2.2 见过——AI 给出快速假设,物理给出可信度的校验。
本模块的诚实硬课:在 MGBench 基准上,AF3 是最好的共折叠模型,但分子胶—蛋白界面的恢复率仅约 33%,而且这 ~33% 还大部分来自记忆,而非泛化。
建模不是"真相机器",它是假设生成器。这一句话,是整个 Q2 的灵魂。
②教学的关键:不是"怎么跑模型",是"怎么判断这次该不该信"
跑通一个共折叠模型很容易。真正的能力,是面对一份输出时做出判断。三个判断维度:
- 看置信度——读 M2.3 的
PAE/ipTM,但要记住高置信≠正确。 - 看是否落在见过的体系——这个 E3、这类界面,模型训练时见过吗?域外就是"猜"。
- 看物理是否自洽——埋藏面积、互补性、MD 下稳不稳,能不能自圆其说。
AF3 在三类情形最容易错:诱导成型口袋(口袋是被胶诱导出来的,原结构里不存在)、大界面、新型 E3 体系。
③当通用模型不灵:专用方法
当 AF3 这类通用模型失效时,GlueFold 类引导扩散给分子胶先验,适用于"已知 E3、想精修界面"的场景。它不是万能替代,而是特定问题下的更优解。
给出三元结构假设 + 可读的置信度 + 界面 / 埋藏量估计。作为后续证伪的起点,价值很大。
保证界面正确(~33% 且掺记忆)。对诱导口袋 / 大界面 / 新型 E3 体系高失败率。
结构数据稀缺(非共价 MG 三元仅约 221 个)。模型在训练域外,本质上是在"猜"。
跑一个已知 MG 三元复合物,亲眼看 33%
必做 · 震撼时刻用 AF3 / Boltz 跑一个已知的分子胶三元复合物,对照实验结构,亲眼看"33% 恢复率"是什么意思(云端 notebook)。这是全篇情绪上最关键的一次动手——很多结论你听一百遍,不如自己跑错一次。
三次里只有约一次界面恢复正确,而且这 ~33% 还大部分来自记忆而非泛化。因此任何一份输出都不能当结论,只能当待证伪的假设;下游必须用 SPR/TR-FRET/结构生物学去检验。
① 诱导成型口袋(口袋由胶诱导,原结构不存在);② 大界面;③ 新型 E3 体系(训练域外)。共性是:模型没见过、或几何被诱导改变。
判断三件事:置信度(PAE/ipTM)、是否落在见过的体系、物理是否自洽。证伪实验示例:① 对预测界面上的关键残基做定点突变,若预测正确则三元结合应被破坏(SPR/TR-FRET 测协同);② 若可得,直接做共结晶 / cryo-EM 对照预测界面。核心是设计一个"如果模型错了就会失败"的实验。
↻ 开始前·30 秒回顾前置
来自 M2.4(生成式与逆向设计):"面向界面互补的从头生成"把界面条件当作生成约束——这是本模块从头设计的方法底座。
来自 M4.2(Q2):你要设计的分子,必须能制造出那个你刚刚学会建模与判断的三元界面。
Q1 选出了能被粘的蛋白,Q2 教会你看"粘起来什么样"。Q3 的任务很直接:造出能制造那个全新蛋白—蛋白界面(neo-PPI)的分子。它要同时坐进 E3 口袋、又改造出与靶互补的新表面。这一讲藏着全篇最反直觉的硬核。
①苗头发现:三条互补的路
②全篇最反直觉的硬核:分子胶的 SAR/SDR
传统抑制剂的构效关系(SAR)相对可外推:改一个基团,亲和力大致按经验变化。但分子胶极其非直觉——一个极小的化学改动,可能彻底反转降解谱:换一个降解的底物、甚至从"降解"变成"不降解"。
原因在于:你改的不是"对单一口袋的亲和力",而是那张被诱导出来的界面的形状。这让传统 SAR 经验直接失灵,也正是用 ML 建"结构—降解关系(SDR)"的价值所在与难点所在。
分子胶里,一个甲基的增减,可能就把降解谱从蛋白 A 整个切换到蛋白 B,或让分子彻底失去降解能力。
因为分子胶改变的是诱导界面的几何,而不是单点亲和力——所以抑制剂的 SAR 直觉在这里会骗你。
③多参数优化(MPO)与为 IP 的骨架跃迁
真实的优化从来不是"把活性做高"那么简单。活性、选择性、合成可及性、IP 空间、成药性必须同时优化(帕累托权衡)。此外,为了专利空间,还要做骨架跃迁(scaffold hopping)——在保持作用的前提下换一套化学骨架。
咬合实验:生成模型给的是"想法"。可合成性与三元活性必须由实验定夺(回扣 M2.4 的收口)。
产出大量候选与新骨架,并建出 SDR 的趋势。在化学空间里给你海量起点。
保证可合成、保证三元活性;SDR 外推不可靠——小改动可能大反转。
SDR 数据稀缺且高度非线性。越界外推就越不可信。
对一个 E3 口袋生成苗头并讨论可合成性
选做用生成模型对一个 E3 口袋生成苗头分子,并讨论它们的可合成性(云端 notebook)。体会"生成出想法"与"想法能不能落地"之间的距离。
因为分子胶改变的是被诱导出来的界面形状,而非对单一口袋的亲和力。一个极小改动可能彻底反转降解谱(换底物、甚至从降解变不降解),传统 SAR 的"渐变"直觉因此失灵。
把三元界面的互补性当作生成条件——即让生成的分子去匹配 E3 与靶之间需要被制造出来的那张界面(几何 + 化学互补),而不是只优化对单一口袋的结合。
合理流程示例:① 合成可及性打分先粗筛(去掉合成不可行的);② 三元界面互补 / docking 复评保留几何合理者;③ 全蛋白组选择性预筛(接 Q4,去掉高脱靶风险);④ MPO 帕累托排序(活性 × 选择性 × IP × 成药性);⑤ 多样性 / 骨架去冗余,留下覆盖不同骨架的少数进合成。强调"想法要过可合成与三元活性两关"。
↻ 开始前·30 秒回顾前置
来自 M1.1(UPS 深解):核心结论"招募 ≠ 降解"——结果还取决于泛素链拓扑、处理性、复合物几何与停留时间。这正是 DC50/Dmax 难预测的根因。
来自 M3.3(实验数据→训练信号):全局蛋白组数据如何变成监督脱靶预测的训练信号——本模块招牌风险的数据来源。
分子能制造三元界面了(Q3),但两个要命的问题还没回答。Q4 把它们分成两层:粘了会不会真降解(功能),以及降了会不会误伤别的蛋白(选择性)、能不能成药(DMPK)。
①功能层:为什么 DC50 / Dmax 那么难预测
回扣 M1.1 的铁律——招募 ≠ 降解。一个分子即使能把靶招募到 E3 旁边,能不能真正泛素化并送进蛋白酶体,还取决于链拓扑、处理性、复合物几何这些缺数据的动力学量。这正是为什么预测 DC50/Dmax 的绝对值很难——它依赖的恰恰是我们最缺乏数据的那部分物理。
②本模块的招牌风险:全蛋白组脱靶降解
这是分子胶特有的核心风险,请重点理解。还记得 Q1 里那个 G-loop 模板能匹配 >1600 个蛋白吗?那把双刃剑的另一面是:一个 G-loop 模板可能匹配上千个蛋白——意味着你的分子胶可能在降解目标靶点的同时,误降解一大批不该碰的蛋白。
抑制剂的脱靶,通常是"结合了不该结合的口袋"。分子胶的脱靶更危险:它会真的把脱靶蛋白降解掉、清除掉——而且因为模板匹配的广谱性,潜在脱靶可能数以千计。
所以选择性绝不能只看对靶点的亲和力,必须用全局蛋白组数据来监督预测与裁判。
③成药性:分子胶常落在五规则之外(bRo5)
分子胶常常落在"超越五规则"(bRo5)的化学空间里——分子量、氢键、极性表面积超出 Lipinski 五规则。传统 ADMET/DMPK 性质模型在这个空间外推不准,需要三元复合物感知的性质模型。
④决策:整合成 Go / No-Go 节点
把功能、选择性、DMPK 整合成早期成药性打分与 Go/No-Go 节点——明确什么指标不过就砍掉。预测出的选择性与性质,最终都要被蛋白组学与 DMPK 实验证实(接 M5.1 / M5.3)。
用蛋白组数据训练选择性 / 脱靶预测,做趋势性的 DMPK 打分。在全局尺度上发现风险。
可靠预测 DC50 / Dmax 的绝对值(动力学缺数据);bRo5 空间外推弱。
功能与 PK 的训练标签又贵又少。最关键的数据,恰恰最难获取。
用全局蛋白组数据做脱靶降解选择性分析
必做用一份全局蛋白组数据(如定量质谱)做一次脱靶降解选择性分析(云端 notebook)。亲手画出选择性火山图,看清目标靶与脱靶在全蛋白组尺度上的分布。
因为分子胶通过模板/表面匹配工作,一个模板可匹配上千蛋白,而且分子胶会真的把脱靶蛋白降解清除(不只是结合)。抑制剂脱靶通常只是占据口袋,分子胶脱靶是不可逆的清除,且潜在范围广,所以是特有且严重的风险。
因为招募 ≠ 降解:真实降解效率取决于泛素链拓扑、链延伸处理性、复合物几何与停留时间这些动力学量,而这恰恰是训练数据最稀缺的部分。模型能给趋势,难给可靠绝对值。
合理回答应包含:① 画选择性火山图,看目标靶是否被显著降解、有多少蛋白同被显著降解;② 设阈值(如 log2FC + 显著性双阈),统计脱靶数量与其生物学风险(是否命中必需蛋白 / 安全相关蛋白);③ 据此给 Go(选择性窗口足够)或 No-Go(脱靶过多 / 命中高危蛋白),并说明阈值依据。强调"选择性是全蛋白组判断,不是单靶亲和"。
↻ 开始前·30 秒回顾前置
来自 M3.4(数据飞轮 / QuEEN 范式):DMTA 直接呼应数据飞轮——每轮实验回喂模型,让护城河越转越深。
来自 M1.2 / M1.5(E3 版图 / 模态权衡):"换 E3"与"换模态"是 Q5 决策框架里的两条退路,依据来自这两讲。
前四问解决了"选谁、长啥样、用什么粘、会不会成药"。Q5 把它们连成一个转起来的轮子:Design → Make → Test → Analyze(DMTA)不是直线,而是一个每轮都让下一轮更聪明的循环。但这一讲的灵魂不是工具,是决策框架。
①DMTA:一个带回流的循环
②AI 方法与自动化
- 主动学习——让模型自己挑"最值得做的下一个实验":信息增益最大、或不确定性最高的那个点。这能显著减少达标所需的实验数。
- 贝叶斯优化——在多目标空间里高效搜索最优权衡(呼应 Q3 的 MPO)。
- 自驱动实验室——把"设计→合成→测试→分析→再训练"闭成一个自动环,让飞轮转得更快。但关键不是买设备,而是数据闭环与再训练能不能真正打通。
③本模块的灵魂:决策框架,而非工具
真正的研发领导力,是知道什么时候不该继续。给你一套判据:
"会砍"和"会换",与"会迭代"一样重要。这是把工程能力升级成研发判断力的分水岭。
用主动学习显著减少达标所需的实验数。把有限的实验预算花在刀刃上。
替代关于"何时止损 / 转向"的人类判断。算法能优化路径,定不了战略。
自动化与数据回流的工程化落地难(接 M6.1)。打通闭环比单点先进更难。
在玩具优化问题上跑主动学习
选做在一个玩具优化问题上跑主动学习,对比"随机选点"的效率差距(云端 notebook)。直观看到主动学习如何用更少的实验更快逼近目标。
它不盲目铺实验,而是让模型挑信息增益最大 / 不确定性最高的点优先做。每个实验都最大化地缩小模型的不确定性,因此达到同样目标所需的实验数显著低于随机选点。
该砍:① 连续多轮迭代选择性/PK 无改善(撞墙);② 脱靶谱命中高危/必需蛋白且无法绕开;③ 治疗窗口在 bRo5 约束下无法打开。该换 E3:① 现有 E3(如 CRBN)几何上根本接不住该靶;② 该 E3 的组织表达与适应症不匹配;③ 换一个 E3 体系后界面可行性 / 选择性明显更优。
没有唯一答案,关键是判据清晰。合理框架:先诊断选择性问题的根源——若是分子局部可调(脱靶来自个别可改造基团)→ 还有信息可挖,再迭代一轮(主动学习聚焦选择性);若脱靶源于 E3 模板的广谱匹配本身、属体系问题 → 换 E3 / 换模态(如转 PROTAC 获得双价选择性);若多路径都撞墙、窗口无法打开 → 砍。强调用"问题是否属于体系层面"来区分迭代与换/砍。
这一讲把 5 问从"分散的技能"焊成"一条链路",用三个真实案例完整走一遍。最重要的训练目标,是校准你"AI 能 / 不能"的直觉——在每一步诚实标注:AI 在这步真起了作用,还是仍然靠经验与运气?这正是全篇的能力收口,也是你 Capstone 毕业项目的预演与样板。
案例 ①正向 · CRBN neo-substrate 全蛋白组挖掘(QuEEN 链路)
从全蛋白组挖掘到候选、再到验证的完整 QuEEN 链路,逐步对应 5 问。它是"AI 真正深度参与"的代表,但即便如此,仍有几步靠经验与运气。
案例 ②回溯 · indisulam / E7820–DCAF15–RBM39
这是历史上偶然发现的非 CRBN 分子胶。我们做一个思想实验:"如果用今天的 AI 重做,会怎样?"——让你看清 AI 能加速什么、又卡在哪。结论往往清醒:在非 CRBN 体系上,今天的建模能力仍然偏弱,AI 未必能在当年就做出来。
案例 ③共价 · DCAF16–BRD4 共价分子胶
展示共价稳定路线与非共价路线在 5 问上的差异,尤其是 Q2 建模上的不同:共价键的形成改变了三元复合物的稳定性与建模假设。
▦三案例 · AI 贡献度对照
| 案例 | Q1 挖掘 | Q2 建三元 | Q3 化学 | Q4 选择性 | Q5 迭代 |
|---|---|---|---|---|---|
| ① QuEEN 正向(CRBN) | 高 | 中 | 中低 | 高 | 中 |
| ② indisulam 回溯(非 CRBN) | 中 | 低 | 中低 | 中 | 无/弱 |
| ③ DCAF16–BRD4 共价 | 中 | 低(共价特殊) | 中 | 中 | 中 |
图例:高 AI 深度参与 · 中 / 中低 AI 部分参与 · 低 AI 难以胜任 · 无/弱 几乎全靠经验或运气。注意非 CRBN 与共价体系在 Q2 建模上 AI 普遍偏弱。
在 Q1 全蛋白组挖掘与 Q4 全蛋白组选择性这两类"全局尺度"问题上,AI 提供人力无法替代的规模优势。
在 非 CRBN / 共价 / 诱导口袋等数据稀缺体系的 Q2 建模上,AI 仍偏弱;许多关键决策与突破仍靠经验与运气。
贡献最大:Q1 全蛋白组挖掘(与 Q4 全蛋白组选择性)——这是 AI 的规模优势所在。贡献最小 / 最受限:Q2 三元建模(受 ~33% 恢复率制约)与 Q5 的"何时砍/换"决策(本质是人类判断)。
共价分子胶通过共价键稳定三元复合物,改变了复合物的稳定性与停留时间,因此建模假设与非共价不同——通用共折叠模型主要面向非共价相互作用,对共价稳定与新型 E3(如 DCAF16)体系尤其吃力,可靠性更低。
合理回答应对所选靶点逐问标注:Q1(该靶可成胶性 / 是否 G-loop 相容 → AI 可投影评估);Q2(E3 是否 CRBN 等常见体系 → 决定 AI 建模可信度);Q3(化学起点来源 + SAR 非直觉风险);Q4(全蛋白组脱靶 + bRo5 风险 → AI 可做趋势);Q5(迭代/砍/换的判据)。关键是诚实标注每步 AI 是高/中/低/无,尤其指出体系是否落在 AI 的强项区间——这正是 Capstone 的核心动作。