第六篇 / 共七篇 · 能力落地 + 未来地图

把全课变成研发能力
并看清未来 3–5 年

前五篇你学了生物、AI、数据、5 问核心、验证转化。这一篇做最后一件事:把这些零散知识焊成一条能转起来的发现流水线,用 IP 建一道商业护城河,看清四个前沿方向各自卡在哪,并领走一套分辨真伪的批判工具箱。贯穿全篇的暗线只有一句——数据,才是分子胶 AI 真正的护城河

4
模块 M6.1–6.4
~6h
学员学时
12
自测 + 答案锚点
'26
最新前沿与临床
① 先读脉络

每个模块开头有「学习目标」和讲授脉络——先建立骨架,再看细节。

② 看图与案例

架构图 / 三维白空间 / 未来地图,配 2026 真实案例(带文献编号)。

③ 做自测

每模块末尾的自测题先自己答,再点开「参考答案」对照。

④ 守住暗线

读到任何「AI 能做 X」,都回到「能|不能|瓶颈」三栏校准一次。

00
本篇导言 · 读前必看

这一篇为什么放在最后

前五篇给你的是「零件」,这一篇教你把零件装成一台能跑的机器,再抬头看路。

到这里,你已经走完了一条很长的路。第一篇讲了泛素-蛋白酶体系统、E3 连接酶、降解子;第二篇讲了 AI 的表示与模型家族;第三篇讲了数据这条暗线;第四篇是全课心脏——围绕分子胶发现的「5 个核心问题」;第五篇讲了验证与临床转化。

但你可能已经发现一个尴尬的事实:单独一个工具,哪怕再厉害,也救不了一个项目。AlphaFold3 能算结构,可它在分子胶三元界面上的准确率只有约三分之一,而且大部分还是「背答案」(M6.3 会给你确切数字);一个生成模型能吐出分子,但它给的高分不等于细胞里真能降解。所以真正的问题从来不是「我该用哪个工具」,而是——我怎么把这些工具,串成一条能转起来的流水线

这条流水线,就是平台(M6.1)。有了平台你能做出好分子,但好分子守不住,于是要谈IP,建一道商业护城河(M6.2)。做完当下,要看未来——四个前沿方向各自卡在哪(M6.3)。最后,全课收口到一套批判工具箱,这是你的「毕业线」(M6.4)。

贯穿全篇的一条暗线

四个模块讲的东西看似不同——工程、法务、科研、思辨——但它们指向同一个结论:分子胶 AI 的护城河不在任何单点工具,而在专有数据的闭环。这一篇你会反复撞见它。读完若只能记住一句话,就记这句。

本篇地图(四张图串起「能力—商业—未来—批判」)

模块核心问题关键图学完你能做
M6.1
平台
怎么把全课技术拼成能转的流水线?DMTA 闭环架构图为不同体量的组织设计一条以数据闭环为核心的发现流水线
M6.2
IP
做出好分子后怎么守住?靶点×E3×骨架 三维白空间用 AI 找 IP 白空间,并把 IP 当作立项约束前置
M6.3
前沿
未来 3–5 年往哪走、卡在哪?四方向「未来地图」评估主要前沿方向的成熟度,看穿共同的数据瓶颈
M6.4
批判
怎么分辨真本事与水分?失败模式随身卡 + 逐句拆解拿到任何论文/宣传/benchmark,用一套清单分辨含金量
6.1
能力落地 · 前置:第三、四篇(尤其 M3.4 数据飞轮、M4.5 DMTA 闭环)

搭建 AI-分子胶发现平台

把「一堆工具」焊成「一条能转的流水线」——而真功夫不在工具,在数据闭环的工程化。
学习目标
  • 分析说明 CADD/物理方法 + ML 模型 + 实验自动化 + 蛋白组学如何按 5 问拼成一条 DMTA 闭环流水线,并指出数据在各模块间如何回流。
  • 评价对比中小 Biotech 与大药企的三种打法(自建 vs 采购 vs 合作),用「是否专有数据资产」这把尺子做取舍。
  • 应用为一家约 30 人的 Biotech 设计一套最小可行平台(MVP),明确哪几块自建、哪几块外采、哪几块合作。

1为什么现在才谈平台

前面我们把所有零件都讲过了。但零件不等于机器。一台离心机、一管试剂、一个模型,单拎出来都没有竞争力——它们是商品,谁都买得到。真正分胜负的,是你能不能把它们组织成一条每跑一轮就变强一点的流水线。这一讲就是教你做这件组织的事。

先记住一个判断标准,它会贯穿整个模块:凡是市面上能买到的,就不是你的护城河。共折叠模型开源、对接软件商用、ADMET 预测有 API——这些谁都能装。你的护城河只能是别人没有的东西,而在分子胶领域,那个东西就是你自己湿实验产出的专有数据,以及让这些数据干净流动、复利回喂的工程能力。

2四大技术,按 5 问串成 DMTA 闭环

这条流水线由四块技术拼成,用贯穿全课的「5 问」来组织,落成 DMTA(Design–Make–Test–Analyze,设计-合成-测试-分析)的循环:

  • Design(设计)对应 Q1(靶点 / neo-substrate 挖掘)+ Q2(三元复合物 / 协同建模)+ Q3(分子生成与优化)。技术栈:几何深度学习、共折叠模型(AF3 / Boltz / Chai)、生成器与自由能微扰(FEP)。
  • Make(合成)把苗头变成一系列类似物。多数中小公司这一段外包给 CRO
  • Test(测试)对应 Q4 的功能与选择性验证。技术栈:细胞降解读出(HiBiT / Western blot)+ 全局蛋白组学(脱靶选择性的「终审裁判」,回扣 M5.1/M5.3)+ 生物物理(SPR / TR-FRET)。
  • Analyze(分析)对应 Q5。把实验结果按 M3.3 的「实验 → 标签」映射变成训练信号,喂回 Design 段的模型——闭环就此完成(回扣 M4.5)。

关键不是这四块各自多先进,而是它不是一条直线,是一个带回流的环。Q5 跑出来的实验数据要回喂 Q1–Q4 的模型,转完一圈再来一圈,每一圈都让下一圈更准。这才是 DMTA 的灵魂。

DMTA 闭环流水线 DESIGN · 计算设计 Q1 靶点/neo-substrate 挖掘 几何深度学习 · G-loop 模板 Q2 三元复合物 / 协同建模 AF3 · Boltz · Chai 共折叠 Q3 分子设计 / 优化 生成器 · 对接 · FEP MAKE · 合成 化学合成(多可外包 CRO) 苗头→类似物系列 TEST · 实验验证 Q4 功能:HiBiT / WB 降解读出 Q4 选择性:全局蛋白组学 脱靶降解的「终审裁判」 生物物理:SPR / TR-FRET ANALYZE · 数据引擎(护城河) 实验→标签映射(M3.3)· 本体统一 · FAIR 治理 专有蛋白组数据 → 复利回喂模型 外人没有你的内部数据 = 追不上 数据回流 · 复利
图 M6.1 | 平台流水线 = 5 问铺成 DMTA 闭环。朱红箭头是分子流向,墨绿虚线是数据回流——平台真正的护城河在中央那块黑色「数据引擎」,不在任一单点工具。

3本讲真重点:护城河在数据闭环,不在工具

这是整个模块要敲黑板的地方。平台 ≠ 买齐工具。你把市面所有工具买回来堆一起,那不叫平台,叫「工具仓库」。真正的真功夫,是研发数据闭环的工程化——让你每一轮湿实验产出的数据干干净净地流动、标准化地回喂、随轮次复利。

这正是 M3.4 讲过的 QuEEN 数据飞轮原理的工程落地:实验 → 数据 → 更好的模型 → 更聪明的下一批实验 → 更好的数据……外人没有你的内部蛋白组数据,就追不上你。所以平台建设的核心工作量,其实在数据治理(策展、本体统一、FAIR 原则、实验元数据捕获),而不在调模型。很多团队把这件事的顺序搞反了——先猛调模型,想着「数据治理以后再说」,结果每一轮湿实验产出的数据都因为没标准、没元数据而白白浪费,飞轮根本转不起来。

一个昂贵的顺序错误

「先把模型调好,数据治理以后补」——错。数据治理是飞轮能转的前提,不是装饰。治理欠的债,会让你每一轮花真金白银做出来的实验数据都无法回喂,等于白做。正确顺序:先搭好干净的数据管道(ELN、本体、元数据捕获),再谈模型。

4组织与战略:自建、采购,还是合作

讲完技术,更要紧的是组织选择,因为这才是真正决定一家公司能不能活下来的地方。同一条流水线,大药企和中小 Biotech 的打法完全不同。大药企家底厚,可以全栈自建——数据、模型、湿实验、结构产能全自己养。中小 Biotech 不能这么干,必须算账。

怎么算?用一把尺子分流,这把尺子就是「是否构成专有数据资产或差异化模型」:

自建BUILD

核心专有数据引擎(自家蛋白组降解谱)、差异化模型、数据治理与本体统一——这些是护城河,必须握在手里,绝不外包。

采购BUY

通用计算工具:共折叠模型、对接 / FEP、ADMET 预测、ELN / 数据平台。人人都能装的能力,买现成更划算,不要重复造轮子。

合作PARTNER

重资产、按需用的产能:结构生物学(cryo-EM 解三元)、高通量湿实验、CRO 合成、蛋白组质谱机时。固定成本太高,按需租用。

样板:给一家 30 人 Biotech 设计最小可行平台(MVP)

这家公司专攻某一类组织特异性 E3(比如某个在特定肿瘤里高表达的 DCAF 家族成员)。30 人、资金有限,怎么搭?一句话原则:把全部稀缺资源压在「一个窄赛道的专有数据」上,其余全部租用。

1自建:围绕这一个 E3 的内部降解蛋白组数据集 + 一套干净的 ELN / 数据治理体系。这是公司唯一真正的资产,外人复制不了。
2采购:共折叠与对接用开源(AF3 / Boltz)、ADMET 用商用 API、数据平台用成熟 SaaS。一分钱不多花在「人人都有」的能力上。
3合作:三元结构解析外包给学术合作方,蛋白组质谱与化学合成走 CRO。重资产一概不自己买。

这样一家 30 人的小公司,也能在自己那个窄赛道上跑得比巨头还快——因为巨头摊子大,未必有你这条赛道上的专有数据。

能做

把数据飞轮工程化,让 DMTA 真正转起来、随轮次复利。

不能

靠买齐工具就凭空变出竞争力——工具是商品,谁都买得到。

瓶颈

真正的瓶颈在数据治理与闭环工程,不在单点工具的先进程度。

自测 · M6.13 题 · 答完再展开
平台的四大技术组成是什么,各自落在 DMTA 的哪一段?分析
参考答案
① CADD/物理方法 + ② ML 模型 → 主要在 Design 段(共折叠、对接、FEP、生成);③ 实验自动化 → 贯穿 Make + Test 段(高通量合成与测试);④ 蛋白组学 → 在 Test 段做选择性终审。而 Analyze 段把 Test 的结果映射成标签回喂 Design——这一段不是新工具,是「数据引擎」,也正是护城河所在。
中小 Biotech 用什么标准决定一块能力该自建 / 采购 / 合作?评价
参考答案
用「是否构成专有数据资产或差异化模型」这一把尺子:构成护城河的(专有数据、差异化模型、数据治理)→ 自建;通用、人人都有的能力(共折叠、对接、ADMET、ELN)→ 采购;重资产、按需用的产能(结构解析、高通量湿实验、CRO 合成、质谱机时)→ 合作。核心思想是「把钱花在护城河,不花在商品」。
给一家 30 人、专攻某一类 E3 的 Biotech 设计最小可行平台,列出自建 / 采购 / 合作各放哪些,并说明为什么数据治理必须自建。应用
参考答案
自建:该 E3 的内部降解蛋白组数据 + ELN/数据治理;采购:共折叠/对接(开源)、ADMET(商用 API)、数据平台(SaaS);合作:三元结构(学术合作)、质谱与合成(CRO)。数据治理为什么必须自建:因为飞轮的复利全靠数据能干净回喂,治理是飞轮转动的前提;外包治理等于把护城河的钥匙交出去,且第三方无法理解你这条窄赛道实验的元数据语义,回喂质量会崩。
视频 35 min 阅读 40 min 自测 15 min
一句话能为不同体量的组织设计一条以数据闭环为核心的发现流水线,并把钱花在护城河(专有数据)而非商品(工具)上。
6.2
商业护城河 · 前置:M6.1(平台)、M1.2(E3 版图)、M4.1(可成胶靶点空间)

IP 与竞争策略

再好的分子,没有 IP 保护也守不住。这一讲把「科学护城河」接到「商业护城河」。
学习目标
  • 理解说明分子胶专利的两条线——组合物专利(composition-of-matter)保护什么、机制/用途专利保护什么,以及为什么分子胶比传统小分子更依赖后者。
  • 应用用 AI 在 靶点 × E3 × 骨架 三维空间做专利地形分析、识别「白空间」,并据此评估 FTO(自由实施)风险。
  • 评价在「白空间但 FTO 有风险」的冲突情形下做立项权衡,给出至少两条可行路径。

1分子胶专利的两条线

专利保护的对象不止一种。对分子胶来说,最该理解的是两条线:

  • 组合物专利(composition-of-matter):保护分子本身的化学结构。这是最硬的一类——别人不能造你这个分子。但它也最容易被微调结构绕开:竞品换几个原子、改个骨架,就可能造出一个不落在你权利要求里、却干同样事的分子。
  • 机制 / 用途专利:保护「用这一类胶去降这个靶 / 经由这个 E3」这件事。它不限定到某一个精确分子,而是罩住一个机制空间。

为什么分子胶尤其依赖后者?因为分子胶的活性高度依赖「靶 × E3」这一对组合——同一个降解事件,往往可以由结构上不同的分子来实现(回扣 M1.1 招募的机制)。所以一条写得好的用途专利,能罩住一整片「用某类化学去经由某 E3 降某靶」的空间,比单个组合物专利更宽、更耐绕。传统小分子靠占住一个口袋起效,结构与活性绑得更死,组合物专利就够硬;分子胶不一样,机制专利常常才是真正的护城河。

2AI 的新用法:专利地形分析与白空间识别

这是 AI 在 IP 上最有价值的新用法。把已公开的专利与文献,映射到一个三维坐标系

  • X 轴:可成胶靶点(回扣 M4.1 的可成胶靶点空间)
  • Y 轴:E3 连接酶(回扣 M1.2 的 E3 版图)
  • Z 轴:化学骨架

已被占的「靶 × E3 × 骨架」组合是实心格子,没人占的就是白空间。AI 能加速地把这张三维地图铺出来,让你在立项前就主动往无人区走,而不是等做完科学才发现整条线撞了车。

专利地形:靶点 × E3 × 骨架 X · 可成胶靶点 M4.1 Y · E3 M1.2 Z · 骨架 已占 白空间 ⚠ 宽泛权利要求 仍可能覆盖 → FTO 风险 实心 = 已被专利占据的组合 虚框 = 白空间(立项往这走) 阴影 = 宽泛 claim 的覆盖范围
图 M6.2 | 在靶点 × E3 × 骨架三维空间里,实心格子是已被专利占据的组合,墨绿虚框是白空间。关键陷阱:白空间也可能被别人一条宽泛权利要求(金色阴影)罩住——白空间 ≠ FTO 通过

3白空间 ≠ 自由实施:FTO 风险评估

这是最容易踩的坑。白空间的意思只是「没人占这个精确组合」,但你的分子可能仍落在别人某条宽泛权利要求(claim)的覆盖范围内。比如有人申请了一条不限定骨架的用途专利,写的是「经由某 E3 降解某类靶」——那么哪怕你用了全新骨架(精确组合确实没人占),你依然可能撞进这条 claim。所以——

记住这个不等式

白空间 ≠ FTO(自由实施)通过。AI 的地形分析只是一个线索生成器,帮你把候选往无人区导;但最终的 FTO 结论必须由专业法务给出。宽泛权利要求恰恰是机器最容易漏的——专利文本到化学结构/机制的映射并不完美,一条用自然语言写得很宽的 claim,很难被三维结构坐标完整捕捉。

冲突权衡样板:白空间是真的,FTO 却有风险

AI 发现「靶 A × DCAF-X × 某新骨架」是白空间,看起来无人占。但法务检索发现某竞品有一条不限定骨架的宽泛用途专利,写的是「经由 DCAF-X 降解 A 类靶」。此时白空间是真的(精确组合没人占),FTO 却有风险(落在宽泛 claim 内)。你怎么办?至少有三条可行路径:

1换 E3:改走另一个连接酶降同一个靶,绕开那条 claim 对「DCAF-X」的核心限定。
2差异化机制:设计一个明显落在 claim 之外的机制再立项(比如改变招募逻辑或作用位点),从机制层面拉开距离。
3评估可专利性 / 被无效概率:把那条宽泛 claim 交法务,评估它本身是否站得住、能否被无效(很宽的 claim 有时反而不稳)。

结论永远由法务定,AI 只把选项摆出来。这正是「IP 是和分子设计同等重要的立项约束」的含义——它要前置进决策,而不是等科学做完再补。

能做

AI 加速专利地形铺设与白空间识别,把立项往无人区导。

不能

替代专业 FTO 法律判断——地形分析只是线索,不是结论。

瓶颈

专利文本到结构/机制的映射不完美,宽泛权利要求难以被结构坐标完整捕捉。

三个常见误区

「先做科学,IP 后补」——错:白空间应在立项前置识别,否则可能整条线撞车。

「AI 地形分析 = FTO 结论」——错:需要法务,宽泛 claim 是机器最易漏的。

「白空间 = 自由实施」——错:是否被宽泛权利要求覆盖,是另一码事。

自测 · M6.23 题 · 答完再展开
组合物专利与机制/用途专利各保护什么?为什么分子胶尤其依赖后者?理解
参考答案
组合物专利保护分子本身的化学结构(最硬,但易被微调结构绕开);机制/用途专利保护「用某类胶经由某 E3 降某靶」这件事(更宽、更耐绕)。分子胶尤其依赖后者,是因为分子胶活性高度依赖「靶 × E3」这对组合,同一降解事件可由结构不同的分子实现,所以罩住机制空间的用途专利往往是更有效的护城河。
「白空间」在哪三个维度上找?应用
参考答案
三个维度:X 轴可成胶靶点(M4.1)、Y 轴 E3 连接酶(M1.2)、Z 轴化学骨架。把已公开专利/文献映射到这个三维坐标系,已占组合是实心格子,没人占的是白空间。
AI 发现某靶 × 某 E3 是白空间,但法务提示有一条宽泛用途专利可能覆盖——你怎么权衡,给出至少两条可行路径?评价
参考答案
这是「白空间但 FTO 有风险」的经典冲突。可行路径(至少两条):① 换 E3绕开那条 claim 的核心限定;② 设计明显落在 claim 之外的差异化机制再立项;③ 评估该 claim 的可专利性 / 被无效概率(交法务)。核心原则:结论永远由法务定,AI 只负责把选项摆出来;并且 IP 必须前置进立项决策。
视频 30 min 阅读 35 min 自测 15 min
一句话能用 AI 找 IP 白空间、并把 IP(含 FTO)当作与分子设计同等重要的立项约束前置考虑。
6.3
未来 3–5 年 · 前置:全课(尤其 M1.2 E3 版图、M1.3 机制边界、M4.6 共价、M3.1 数据瓶颈)

前沿方向(2026 版)

给你一张「未来地图」。每个方向都讲清两件事:为什么重要 + 现在卡在哪。
学习目标
  • 评价评估四个前沿方向各自的价值与瓶颈:拓展 E3 空间、超越降解的胶、共价分子胶、诱导邻近的基础模型与生成式界面设计。
  • 评价解释为什么这四个方向尽管路径各异,却大多撞在同一堵墙上——数据。

这一节给你一张未来地图。先说一句最重要的判断,免得读完只记住热闹:这四个方向都还早,而且——无论路径多不同——它们全都撞在同一堵墙上:数据(回扣全课暗线 M3.1)。下面逐个看。

1拓展 E3 空间 · 成熟度:早—中期

当前分子胶高度集中在 CRBN(小脑蛋白,主战场)。但人类基因组编码 600 多个 E3 连接酶,真正被用于靶向蛋白降解的只有寥寥几个——CRBN、VHL、MDM2、DCAF15、DDB1、βTRCP 等。[1] 前沿在于发现两类新 E3:组织/肿瘤特异性 E3(在肿瘤里高表达、正常组织少表达,能拓宽治疗窗口、降低毒性)和可配体化的新 E3

这件事在 2024–2025 已经有了真实进展,不再只是设想:

真实案例 2025DCAF16 招募型「靶向胶」降解 BRD9

研究者用一种「连接酶无关(ligase-agnostic)」的细胞表型筛选思路,对 BRD9 抑制剂的溶剂暴露区做化学修饰,造出一类无需 linker 的单价「靶向胶」,经由 DCAF16(而非主流 CRBN)选择性降解 BRD9,并在体内拿到概念验证。[2] 这正是「把 CRBN 之外的 E3 拉进可用工具箱」的活样本。

另一条线是用动态追踪底物受体丰度来做 E3 特异的降解剂发现:在 1 万个磺胺类化合物里筛出 dRRM-1,一个经由 DCAF15 降解 RBM39/RBM23 的分子胶,并用 TR-FRET 与全局蛋白组学验证了机制。[3]

卡点很清楚:绝大多数 E3 还没找到可成药的口袋,可配体化筛选缺数据。每开拓一个新 E3,几乎都要从零积累它的结构、配体和降解谱。

2超越降解的胶 · 成熟度:早期

「诱导邻近」这个机制,不止能用来降解(回扣 M1.3 的概念边界)。把两个东西拉到一起,可以做的事远不止此:

  • 稳定剂(molecular glue stabilizer):粘住目标、抑制其降解,从而提升某蛋白的水平——和降解正好相反。
  • 诱导功能获得:通过拉近改变蛋白的活性或定位。
  • 去泛素化酶(DUB)胶:把 DUB 拉到底物旁,主动去掉泛素标签。
  • 作用于 RNA 等非蛋白靶标:把诱导邻近的对象从蛋白扩展到核酸。

它的价值,是把「诱导邻近」从一种降解手段,升级成一类通用的「事件诱导」平台。一个有意思的工具样本是 MRT-31619——一个让 CRBN 自身二聚并被降解的分子胶,相当于「化学敲除 CRBN」,几何上很非常规,适合用来理解三元复合物的边界(回扣 M1.3)。

卡点:每一种新机制都几乎从零积累数据——稳定、DUB、RNA 靶,各自的训练样本都极其稀少。

3共价分子胶设计 · 成熟度:早—中期

共价弹头把胶锁在 E3 或靶上(回扣 M1.2 / M4.6 的共价路线),可以拿下那些浅口袋、难成药的体系。2024–2025 一个代表性进展,是把 DCAF16 的一个半胱氨酸开发成共价化学把手,用于理性设计单价降解剂——这类共价把手已在 RNF114、RNF4、FEM1B、RNF126、DCAF11 等多个 E3 上被陆续发现。[2][4]

别把「共价」简单理解成「更强的胶」

共价能拿下浅口袋,但它带来的是新的难题,不是单纯的增强:共价反应性与选择性很难预测,脱靶共价是实打实的安全性隐患(一个乱反应的弹头可能把不该碰的蛋白也共价标记了)。所以共价是「换了一组权衡」,不是「免费的力量」。

4诱导邻近的基础模型与生成式界面设计 · 成熟度:最早期

这是最激动人心、也最早期的方向。终极愿景是:不再分步去做 5 个问题,而是同时设计蛋白与胶、端到端造出一个自然界不存在的 neo-PPI 界面(回扣 M0.2 的核心命题)——把整条流水线压缩成一个生成动作。

2025–2026 的进展是真实的,但要看清它在哪一层:原子级蛋白 binder 生成、全原子分子生成、部分隐空间流匹配(partially latent flow matching)等方法在蛋白-蛋白蛋白-小分子界面设计上都在快速推进。[5] 针对分子胶三元结构,已经出现专门的深度学习方法 DeepTernary,它在自建的 TernaryDB 上学习、可快速预测 PROTAC 与分子胶诱导的三元复合物结构。[6] 生成式分子胶设计也有了realistic 的尝试,比如用「连接酶条件化」的生成模型(LC-JT-VAE)针对不同 E3 生成可合成的候选分子。[7]

诚实收尾:四个方向,同一堵墙

不要指望「foundation model 一来就解决一切」。新 E3、新机制、共价体系、端到端生成——每一个都缺训练它所需的标注数据,而端到端生成恰恰是其中最缺数据的那个。所以 foundation model 同样受数据限制。这也正是为什么第三篇的数据飞轮才是真正的护城河:在数据稀缺的领域,谁有专有数据,谁就有未来。

01
拓展 E3 空间
早—中期

组织/肿瘤特异性 E3、可配体化新 E3 → 拓宽治疗窗口。墙:多数 E3 无可成药口袋、可配体化数据稀缺。活样本:DCAF16 降 BRD9[2]dRRM-1 经 DCAF15[3]

02
超越降解的胶
早期

稳定剂 / 功能获得 / DUB 胶 / RNA 等非蛋白靶。墙:每种新机制几乎从零积累数据。工具样本:MRT-31619(化学敲除 CRBN)

03
共价分子胶设计
早—中期

共价弹头拿下浅口袋、难成药体系(DCAF16/11 路线)。墙:反应性/选择性难预测,脱靶共价存安全隐患。进展:DCAF16 半胱氨酸共价把手[4]

04
诱导邻近基础模型 / 生成式界面设计
最早期

同时设计蛋白与胶、端到端造 neo-PPI(回扣 M0.2)。墙:最缺数据,受 M3.1 瓶颈最重。进展:DeepTernary[6]生成式 LC-JT-VAE[7]

5顺便看一眼临床:这门生意是真的

前沿之外,也别忘了分子胶当下已是有硬终点的临床现实,而不只是机制故事。这能帮你校准「值不值得投入」的判断:

临床进展 2026分子胶降解剂的临床与商业版图

下一代 CELMoD 已从「在研」走向「读出」:mezigdomide 的 III 期 SUCCESSOR 系列、iberdomidegolcadomide(BMS)持续推进,mezigdomide 的首个获批预计在 2026–2027。[8]

新一代分子胶公司也在拿数据:Monte Rosa(Nasdaq: GLUE)的 NEK7 导向分子胶 MRT-8102 在 1 期里让高 CVD 风险人群的 hsCRP 大幅下降(约八成),并显示约 80–90% 的 NEK7 降解;其 VAV1 导向的 MRT-6160 已与 Novartis 合作推进 2 期;GSPT1 导向的 MRT-2359 在前列腺癌(mCRPC)联合用药中显示活性。[9] AbbVie × Neomorph、Lilly × Magnet、Monte Rosa × Roche 等大额合作也接连落地。[8][10]

对学员的意义:当你评估一个前沿方向「值不值得做」时,记住分子胶已经有 III 期阳性与多笔重磅合作背书——它不再是 PPT 上的概念,而是一条有真实临床读出与资本投入的赛道。但也正因为热,M6.4 的批判工具箱才更重要。

能做

识别四个方向各自的价值与成熟度,判断哪些已有真实概念验证。

不能

指望任何一个方向短期内解决「数据稀缺 + 向新型体系泛化」的根本问题。

瓶颈

共同瓶颈仍是数据与向新型体系的泛化(回扣 M0.4/M3.1)——这正是为什么数据飞轮才是真护城河。

两个常见误区

「foundation model 快来了就解决一切」——错:它同样受数据限制,而且是四个方向里最缺数据的那个。

「共价就是更强的胶」——错:共价带来的是选择性与安全性的新难题,不是单纯增强。

自测 · M6.33 题 · 答完再展开
四个前沿方向各自的价值与瓶颈分别是什么?评价
参考答案
① 拓展 E3 空间:价值=组织特异性 E3 拓宽治疗窗口;瓶颈=多数 E3 无可成药口袋、配体化数据稀缺。② 超越降解的胶:价值=把诱导邻近升级成通用「事件诱导」平台(稳定/DUB/RNA);瓶颈=每种新机制从零积累数据。③ 共价分子胶:价值=拿下浅口袋难成药体系;瓶颈=反应性/选择性难预测、脱靶共价的安全性。④ 基础模型/生成式界面:价值=端到端造 neo-PPI;瓶颈=最缺数据、受 M3.1 瓶颈最重。
为什么这四个方向尽管路径不同,却大多仍卡在数据上?评价
参考答案
因为每个方向都需要它特有的标注数据来训练,而这些数据都极度稀缺:新 E3 缺结构与配体化数据、新机制缺各自的降解/稳定谱、共价缺反应性-选择性标签、端到端生成缺三元界面样本(非共价分子胶三元结构整个 PDB 里也只有约 200 个量级,见 M6.4/MGBench)。没有数据,再漂亮的模型也学不会泛化到新型体系——这就是为什么数据飞轮才是真护城河。
你最看好哪个方向?给一个能在 2 年内验证的小切口(说明用什么数据、做什么实验来证伪)。应用
参考答案(示范,非唯一)
示范答法(选「拓展 E3 空间」):小切口=聚焦一个已有初步配体证据的组织特异性 E3(如某 DCAF),不做宏大叙事。用什么数据=针对这一个 E3 自建一个数百量级的化合物-降解谱(自家湿实验),加公开的该 E3 结构。做什么实验证伪=在该 E3 高表达 vs 低表达的两类细胞里测同一批候选的降解差异——若治疗窗口假设成立,应看到高表达细胞里降解显著强于低表达;若两边无差异,则「组织特异性拓宽窗口」的假设在这个 E3 上被证伪。评分要点:切口够、有明确的可证伪判据、说清了数据从哪来
视频 35 min 阅读 40 min 自测 15 min
一句话能评估分子胶 AI 的主要前沿方向、判断其成熟度,并看穿它们共同的数据瓶颈。
6.4
全课收口 · 毕业线 · 前置:M2.5(ML 思维)、M0.4(诚实版图)、全课

批判性思维与陷阱

这是全课的「免疫系统」——把判断力收成一套可随身携带的批判工具箱。
学习目标
  • 评价用一份「失败模式清单」批判性地读论文 / 宣传 / benchmark,认出每个声明背后的常见陷阱。
  • 评价逐句拆解一段「AI 设计的药物」营销话术,区分真本事与水分。

我们到了最后一节,也是这门课的毕业线。把它叫做整门课的「免疫系统」——前面学了那么多 AI 的本事,这一节给你打一针疫苗:让你在面对任何一篇论文、任何一段宣传、任何一个 benchmark 时,不会被轻易骗到。它把 M0.4 的立场和 M2.5 的方法论,收成一套可以随身携带的工具箱。

1先看一个把全课立场钉死的数字

为什么我们整门课都在说「诚实优先于炒作、数据才是护城河」?因为有冷冰冰的 benchmark 数据撑着。MGBench(分子胶三元结构预测基准)是最该记住的一个:

MGBench:把共折叠模型的「33%」看穿

研究者整理了 221 个非共价分子胶三元复合物(MG-PDB),并用时间切分(time-split)挑出 88 个训练截止之后才发布的结构作为干净测试集(MGBench),系统评测了 AF3、Boltz-1、Chai-1、Protenix、RoseTTAFold-All-Atom 五个共折叠模型。[11]

表现最好的 AlphaFold3:蛋白-蛋白界面预测成功率约 50.6%,分子胶-蛋白相互作用恢复率约 32.9%。听起来还行?关键在后半句——同源性分析表明,它大部分的「成功」其实来自记忆(memorization),而不是真正的泛化。模型对大界面、domain–domain 复合物、降解剂复合物尤其吃力,遇到新型 E3 体系基本失灵[11]

这就是为什么本课反复说:「33% 已经不高,而这 33% 还掺了背答案的水分。」非共价分子胶三元结构整个 PDB 里也只有约两百个量级——没有数据,再漂亮的 foundation model 也学不会泛化。

2失败模式随身卡

下面这张卡,把全课讲过的失败模式列成一张随身清单,每条都钉回它的来源模块。读任何一篇「AI 设计分子胶」的论文或新闻,先把这八条在心里过一遍。

分子胶 AI · 失败模式随身卡Pocket Card
随机切分骗人——高 AUC 多半在「背答案」,要问 time-split。M2.5
置信度 ≠ 正确——模型说「很确定」不等于对。M2.3
招募 ≠ 降解——把靶拉到 E3 旁边不等于真被清除。M1.1
打分高 ≠ 可降解——可成胶性评分高 ≠ 实际能降。M4.1
建模 ≠ 真相——共折叠出一个三元结构 ≠ 它真实存在。M4.2
SAR 可外推的错觉——窗口内拟合好 ≠ 能外推到新化学空间。M4.3
细胞选择性 ≠ 体内安全——细胞干净 ≠ 体内没毒。M5.3
白空间 ≠ FTO 通过——没人占 ≠ 不撞别人宽泛 claim。M6.2

3实战:逐句拆解一段宣传

光有清单不够,来做一次实战。下面是一段典型风格的「AI 设计分子胶」宣传稿,逐句标注——哪句是真本事(有据可验)、哪句是半真(有水分但不全假)、哪句是话术(偷换口径/夸大/无实证)。读的时候先盖住右边自己判断。

「我们的 AI 平台用生成模型从头设计了一款全新分子胶。」
半真生成苗头确实可做(M4.3),但「从头设计」常掩盖「还得过可合成与活性两道实验关」——追问:合成了几个?活性实测如何?
「模型在内部基准上达到 0.92 的 AUC,远超传统方法。」
话术先问怎么切的数据(M2.5)。随机切分的 0.92 多半虚高;没报 time-split 和不确定性,这个数字不可信。
「AI 预测该分子能高选择性降解靶蛋白。」
话术打分高 ≠ 可降解(M4.1),且选择性的终审是全局蛋白组学(M5.1/M5.3),不是预测。追问:做了蛋白组没有?
「细胞实验中该分子对正常细胞无明显毒性。」
半真细胞选择性 ≠ 体内安全(M5.3)。是真数据但不能外推到体内——追问:有体内 PK/PD 与毒理吗?
「我们已用 cryo-EM 解出三元复合物,验证了 AI 的设计。」
真本事这是硬证据——实验结构是 AI 预测的真值来源(M4.2/M5.1)。若属实,是这段里含金量最高的一句。

4收口:既不轻信,也不轻蔑

最后,把整门课收口到一句价值观,请你记一辈子。对 AI,我们既不轻信,也不轻蔑。轻信,是它说什么你信什么,被话术牵着走;轻蔑,是觉得 AI 都是泡沫、一概看不起,那你会错过它真正能做的事。正确的姿态是校准——既看见它真能做什么,也诚实承认它不能做什么。然后永远记得那条暗线:

本课的毕业线

数据,才是护城河。

拿到任何论文 / 宣传 / benchmark,能用一套清单分辨含金量与水分——这就是你的毕业线。

一个最该拆掉的误区

「批判 = 否定 AI」——错。批判是校准,不是轻蔑——既要看见它真能做的,也要诚实承认它不能做的。本模块不增加新技术,它把全课的判断力收成一套可复用的清单。

自测 · M6.4(毕业考)3 题 · 答完再展开
列出本课讲过的 5 个失败模式,并各钉回其来源模块。评价
参考答案
任选 5 条(共 8 条):随机切分骗人(M2.5)、置信度≠正确(M2.3)、招募≠降解(M1.1)、打分高≠可降解(M4.1)、建模≠真相(M4.2)、SAR 外推错觉(M4.3)、细胞选择性≠体内安全(M5.3)、白空间≠FTO(M6.2)。评分要点:每条都能说出「X ≠ Y」的核心混淆 + 正确的对照问题(如「随机切分→要问 time-split」)。
MGBench 的核心发现是什么?它如何支撑「数据才是护城河」这个论点?评价
参考答案
核心发现:用 time-split 干净测试集评测,最强的 AF3 在分子胶-蛋白相互作用上恢复率约 32.9%,且大部分成功来自记忆而非泛化,遇到新型 E3 体系基本失灵。如何支撑论点:它证明当训练数据稀缺(三元结构约 200 个量级)时,再先进的共折叠模型也无法泛化到没见过的体系——所以决定胜负的不是模型,而是谁拥有别人没有的专有数据。这把 M0.4 / M4.2 的立场从「态度」升级成「有据可证的结论」。
(综合)给一篇「AI 设计分子胶」新闻稿,写一段约 200 字的批判性评估,逐点区分真本事与水分,并指出你会向作者追问的三个问题。应用·综合
参考答案(评分锚点)
不强求标准答案,按是否覆盖以下评分锚点打分:(1)至少用到 3 条失败模式逐点对照(如打分高≠可降解、随机切分、细胞≠体内);(2)区分出「真本事」(如有实验结构/蛋白组数据)与「话术」(如只报随机切分 AUC、只有预测无实测);(3)三个追问问题应直指验证缺口,例如:① 数据怎么切的,有没有 time-split?② 做了全局蛋白组学验证选择性吗?③ 有体内 PK/PD 与毒理,还是只有细胞数据? 能做到逐点区分、并提出可验证的追问,就跨过了毕业线。
视频 30 min 阅读 35 min 自测 20 min
一句话拿到任何论文 / 宣传 / benchmark,能用一套清单分辨含金量与水分——这是本课的毕业线。
全课收尾 · 毕业项目

Capstone 与毕业线

把本篇四个模块、乃至全课的能力,收成一份能交出去的判断报告。

这一篇结束,整门课也接近尾声。把第六篇的能力串起来,正好是一个完整的毕业项目:用一条真实靶点,走一遍从「能不能做」到「该不该做」的判断。

Capstone:分子胶立项判断报告

选一个你感兴趣的真实靶点,把四个云端实验串起来跑一遍,最终产出一份《分子胶立项判断报告》:

  • 第一步 · 可成胶性打分(接 M4.1):这个靶点值不值得做分子胶?打分高不代表能降,记得标注不确定性。
  • 第二步 · 三元结构置信度解读(接 M4.2 / M6.3 的 MGBench):用共折叠模型算三元结构,但用 MGBench 的眼光读它——这是泛化还是记忆?置信度能信吗?
  • 第三步 · 全蛋白组脱靶选择性分析(接 M5.1 / M5.3):选择性的终审在蛋白组,不在预测。
  • 第四步 · 生成苗头与可合成性 + IP 白空间(接 M4.3 / M6.2):生成候选并讨论可合成性,同时用三维白空间看 IP,把 FTO 风险作为立项约束写进报告。
这份报告检验的,正是这门课教你的事

一份好的立项判断报告,不是「AI 说能做所以做」,而是逐点区分了 AI 能做什么、不能做什么、瓶颈在哪,并把数据资产、IP 约束、安全性风险都摆上了桌面。能写出这样一份报告,你就真正跨过了这门课的毕业线——既不轻信,也不轻蔑,并且永远记得:数据才是护城河

附录

全篇参考文献

本篇引用的研究与数据来源(截至 2026 年,按正文编号)。
引用文献
  1. Molecular Glues: The Adhesive Connecting Targeted Protein Degradation to the Clinic. Biochemistry. 人类基因组编码 600+ E3 连接酶,仅少数(CRBN、VHL、MDM2、DDB1、DCAF15、βTRCP 等)被用于 TPD。
  2. Mode of action of a DCAF16-recruiting targeted glue that can selectively degrade BRD9. Nature Communications 2025. 连接酶无关筛选 + DCAF16 招募,体内概念验证。
  3. E3-Specific Degrader Discovery by Dynamic Tracing of Substrate Receptor Abundance. J. Am. Chem. Soc. 经 DCAF15 降解 RBM39/RBM23 的分子胶 dRRM-1,TR-FRET 与全局蛋白组学验证。
  4. DCAF16-Based Covalent Handle for the Rational Design of Monovalent Degraders. bioRxiv. 共价化学把手用于理性设计单价降解剂(另见 RNF114/RNF4/FEM1B/RNF126 等)。
  5. Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute. arXiv 2026;及 Protein design, generative AI and biological security, Front. Microbiol. 2026. 全原子 binder 生成与生成式蛋白设计进展。
  6. SE(3)-equivariant ternary complex prediction towards target protein degradation (DeepTernary). Nature Communications 2025. 基于 TernaryDB 的 PROTAC/分子胶三元复合物深度学习预测。
  7. Conditioned Generative Modeling of Molecular Glues (LC-JT-VAE). Biomolecules / arXiv 2025–2026. 连接酶条件化的可合成分子胶生成模型。
  8. Molecular Glue Degraders Redefining Targeted Therapies. MedComm – Oncology 2026;及 Molecular Glues Market(DelveInsight). CELMoD 临床进展(mezigdomide/iberdomide/golcadomide)、AbbVie×Neomorph、Lilly×Magnet 等合作。
  9. Monte Rosa Therapeutics(Nasdaq: GLUE)公开披露文件. SEC 8-K / 10-Q 2026. MRT-8102(NEK7)1 期 hsCRP 数据、MRT-6160(VAV1,Novartis 合作)、MRT-2359(GSPT1,mCRPC)。
  10. Monte Rosa × Roche 合作协议. SEC 10-Q 2026. 肿瘤与神经疾病靶点的分子胶降解剂合作。
  11. Benchmarking Cofolding Methods for Molecular Glue Ternary Structure Prediction (MG-PDB & MGBench). J. Chem. Inf. Model. / bioRxiv 2025–2026. 221 个 MG 三元复合物、88 个 time-split 测试结构;AF3 PPI 界面 50.6%、MG-蛋白恢复 32.9%,多数成功源于记忆。

说明:以上为本篇正文事实的来源依据,便于学员延伸阅读与核查。具体卷期与 DOI 以各期刊/数据库正式发表版本为准;领域更新很快,建议结合最新文献阅读。