← 课程门户
AI · 诱导邻近 · 靶向蛋白降解

制造一个不存在的界面
把分子胶研发拆成可教的课

全课一张图 | 每个模块 = 一个可学习单元 分子胶为圆心,AI 为主线,诚实优先于炒作——每一讲都明确 AI 能做什么、不能做什么。这页是你的导航:先看全貌,再按篇深入。

34
学习模块
7+附
篇章
~69h
完整学时 P4
5
研发主线
律令 ①

分子胶为圆心,PROTAC 只作对照。

律令 ②

AI 是主线,不是专题日。

律令 ③

诚实优先于炒作——每讲都讲清 AI 不能做什么。

课程总览

怎么学这门课 · 三条律令 · 时长估算

怎么学这门课

每个模块都按统一结构组织,下面是各字段对你的意义:

  • 位置 / 前置:这一模块在 5 问地图中的位置;建议先学哪些模块再来。
  • 学习目标:可自测,标了 Bloom 层级(记忆/理解/应用/分析/评价)。第四篇起,目标会爬到"应用/分析/评价"。
  • 学习脉络:这一讲的"思路主线"——从哪个问题切入、核心论证怎么走、最后落到哪个收获。这是你理解本讲的主线
  • 能|不能|瓶颈:本课招牌字段,给你诚实的 AI 能力边界。
  • 示例 / 可视化:本讲要重点看懂的具体案例、结构、图。
  • 误区:开始前要先拆掉的错觉。
  • 自测:2 道回忆题 + 1 道应用题(带参考答案)。
  • 实操:如有,用云端 notebook 即可,零本地 GPU。
  • 必读:1–3 篇延伸阅读。一句话:= 学完你能做到的那句。

全程三条律令(贯穿每一篇,请记住):① 分子胶为圆心,PROTAC 只作对照;② AI 是主线不是专题日;③ 诚实优先于炒作——每讲都明确 AI 不能做什么。

总时长估算(含视频+阅读+实操+自测,按完整路径学习):

模块数学员学时
第〇 导论4~4 h
第一 生物根基5~9 h
第二 AI 工具箱5~9 h
第三 数据层5~8 h
第四 5问核心6~16 h
第五 验证转化5~7 h
第六 平台前沿4~6 h
Capstone~10 h
合计34~69 h

---

怎么用好这张总图

  • 这页是地图,不是正文:34 个模块在这里各有一张"名片"——学习脉络是这一讲的主线,可视化告诉你该重点看懂哪张图,自测能帮你检验是否学透。要学正文,请点对应篇章页。
  • 推荐路径:导论 → 第一篇(生物根基)→ 第二篇(AI 工具箱)→ 第三篇(数据层)→ 第四篇(5 问核心,全课重心)→ 第五篇(验证转化)→ 第六篇(平台前沿)→ Capstone(综合实战)。前三篇是地基,第四篇是主战场。
  • 内容的时效:本课已折入截至 2026 年 5 月的关键事实(AF3 50.6%/32.9% 且记忆而非泛化、QuEEN >1600、mTOR HLH、CELMoD 临床进展等)。这个领域更新很快,读到具体数字时不妨留意发表时间。

各篇正文已分别成页:导论、第一~六篇、Capstone。回到门户首页可总览并跳转到任意一篇。

01

第〇篇 · 导论:分子胶 AI 的范式与版图

篇目标:装上正确的世界观,破除"AI=降本提速"的误解。这一篇决定学员后面看待一切技术的眼光。

M0.1

诱导邻近药理学革命

位置

全课起点|前置:无

学习目标

  • (理解)讲清从"占据型"到"事件驱动型"药理学的范式转变,及抑制 vs 降解的本质差异。
  • (理解)在诱导邻近谱系(MG / PROTAC / LYTAC / AUTAC-ATTEC / RIPTAC / 稳定型胶)中定位分子胶。
  • (评价)说出"为什么业界叫分子胶'圣杯'",并能反驳"分子胶只是小号 PROTAC"。
学习脉络

从一个反差开场——传统小分子要"占住"活性口袋才起效(占据型,化学计量),而降解剂只要"促成一次相遇"就能催化性地清除靶点(事件驱动、亚化学计量)。把这个差别想象成一张图:抑制是"按住",降解是"贴标签送走"。然后铺开诱导邻近谱系,强调分子胶的独特坐标——成药性最像传统小分子(口服、低分子量、可过血脑屏障),但理性设计最难。最后落到一个"它现在是真的"的硬证据:下一代 CELMoD 已有 III 期阳性(mezigdomide SUCCESSOR-2,2026-03,PFS 显著获益)、iberdomide NDA 已被 FDA 受理。分子胶不再是机制故事,是临床现实。

能|不能|瓶颈

本模块只立框架;AI 能力边界统一在 M0.4 展开(此处埋钩子即可)。

示例 / 可视化

① 占据型 vs 事件驱动型对照图;② 诱导邻近谱系全景图(分子胶高亮);③ CELMoD 临床进展时间线(lenalidomide → pomalidomide → mezigdomide/iberdomide/golcadomide)。

误区

「分子胶 = 小号 PROTAC」(错:非模块化、单价、不能拼装);「降解一定优于抑制」(错:取决于靶点生物学与治疗窗口)。

自测

① 占据型与事件驱动型药理学各自的"化学计量学"差别是什么?②(应用)给一个慢性、需长期口服、要过血脑屏障的中枢靶点,分子胶相对 PROTAC 有何先天优势?

必读

诱导邻近综述一篇(Targeted protein degradation 范式);CELMoD 临床里程碑一篇。

时长
视频 25min|阅读 30min|检查 10min |
一句话能向任何人讲清"分子胶是什么、和 PROTAC 差在哪、为什么值得做"。
M0.2

核心命题:制造一个不存在的界面

位置

5 问总入口(推导出 Q1–Q5)|前置:M0.1

学习目标

  • (理解)讲清单价 vs 双价,说明分子胶活性几乎全部来自三元复合物协同。
  • (理解)定义协同性 α,说明 α>1 / α<1 的物理含义。
  • (应用)从"制造 neo-PPI"一句话推导出 ≥3 个下游技术挑战。
  • (评价)区分一段宣传讲的是"真正的胶"还是"普通高亲和力结合剂"。
时长
全课可以压缩成一句话——一个分子胶的全部工作,是用一个小分子"制造"出一个自然界本不存在的蛋白—蛋白界面(neo-PPI)。围绕它推导:既然胶对靶点本征亲和力极低甚至为零,那活性从哪来?答案是三元复合物的协同(α)。讲透 α 的直觉:α 衡量"三个东西凑在一起"比"两两单独结合"被增强(α>1,正协同)还是被削弱(α<1)的倍数;分子胶之所以成立,正因为 PPI 把单体的弱亲和力放大成了有效的三元亲和力。然后顺势推出全部技术难点:化学空间巨大、负样本几乎不存在、非模块化无法拼装、历史靠偶然发现(沙利度胺、indisulam、植物生长素 auxin)——这恰恰说明为什么这天然是个 AI/数据问题。这一讲是后面 5 问的"母逻辑"。
能|不能|瓶颈

本模块建世界观;能力边界见 M0.4。

示例 / 可视化

① neo-PPI 形成示意(小分子坐在界面,把两个蛋白"焊"在一起);② α 因子的双曲线/能量图;③ 三个偶然发现的小故事(thalidomide / indisulam / auxin-TIR1)。

误区

「亲和力越高越好」(错:胶要的是协同,不是单体亲和力,高亲和反而未必是胶);「设计胶 = 设计一个强结合剂」。

自测

① 为什么分子胶比 PROTAC 更难理性设计?(锚点:单价/低亲和/非模块化/偶然发现史)② α<1 意味着什么?③(应用)给一段虚构新闻稿,判断描述的是分子胶还是普通抑制剂,写出 2 条判据。

必读

协同性与三元复合物综述一篇。

时长
视频 25min(8/9/8 三段)|阅读 30min|检查 10min |
一句话能用"制造一个不存在的界面"一句推出全课所有技术挑战。
M0.3

把研发拆成 5 个根本问题(全课地图)

位置

导航中枢|前置:M0.2

学习目标

  • (理解)复述 5 问,并说明每问的难点与 AI 切入点。
  • (应用)拿到任意一项分子胶工作,能把它定位到对应的 Q。
学习脉络

把 5 问表投到屏幕,逐行"翻译"成大白话:Q1 什么蛋白能被粘(可成胶组/降解子识别)→ Q2 粘起来长什么样(三元结构与协同)→ Q3 用什么分子去粘(化学设计)→ Q4 粘了会降解吗、能成药吗(功能/选择性/DMPK)→ Q5 怎么闭环迭代(DMTA/平台)。强调这不是线性流水线而是带回流的循环:Q5 的实验数据回喂 Q1–Q4 的模型。把这张"5 问地图"确立为全课导航——后面每个第四篇模块开头都回到这张图点亮当前位置。建议把它做成知识库首页的可交互导航图。

时长
每问下方预告 AI 当前的"能/不能"一句话,先建立一个边界预期。
示例 / 可视化

5 问研发流程图(核心可视化)——必须精心做,全课反复调用。

误区

「这是 5 个独立步骤」(错:是带反馈的循环,数据回流是灵魂)。

自测

① 把"用蛋白组数据评估某胶的脱靶降解"归到哪一问?②(应用)给一篇论文摘要,标注它主要回答了哪几问。

必读

无(导航模块)。

时长
视频 20min|阅读 15min|检查 10min |
一句话能用 5 问给任何一项分子胶工作"定位坐标"。
M0.4

诚实的版图:2026 年 AI 能与不能(反炒作)

位置

本课"立场宣言"|前置:M0.3

学习目标

  • (评价)准确陈述共折叠模型当前对分子胶三元界面的真实成功率与失败模式。
  • (评价)说明"真正的瓶颈是数据不是模型""赢家是有数据飞轮的人"。
  • (评价)看到任何"AI 设计的分子胶"宣传,能判断含金量与水分。
学习脉络

这一讲奠定全课的"说真话"人设。先给硬数字:在 MGBench 基准上(已正式发表于 J Chem Inf Model, 2026),AF3 是最好的共折叠模型,但蛋白—蛋白界面成功率约 50%、分子胶—蛋白相互作用恢复率仅约 33%。然后补上最锋利的一刀——研究发现这 ~33% 的"成功"大部分来自记忆(memorization)而非泛化;模型对大界面、domain–domain 复合物、降解剂复合物尤其吃力,遇到新型 E3 体系基本失灵。结论:33% 已经不高,而且这 33% 还掺了背答案的水分。再点出真实瓶颈:PDB 里非共价 MG 三元结构仅约 200 个(MG-PDB 收录 221)、负样本缺失、湿实验—模型匹配度差。最后引出全课暗线:拥有专有数据飞轮的人赢,而非拥有最大模型的人赢(以 Monte Rosa QuEEN 为引子,第三篇展开)。

能|不能|瓶颈

本模块即"能/不能"的总纲,后续每模块的边界框都是它的细化。

示例 / 可视化

① AF3 在某个已知 MG 三元复合物上"看着对、其实错"的对照图;② 各共折叠模型能力对比表(AF3/Boltz/Chai/Protenix/RFAA);③ "数据 vs 模型"护城河示意。

误区

「AI 已经能设计分子胶了」(错:是辅助假设生成器,不是真相机器);「模型越大越强」(错:数据质量与专有性才是天花板)。

自测

① AF3 的 ~33% 恢复率为什么"还要打折"?②(应用,批判性阅读)给一段"AI 从头设计分子胶"宣传,列出你会追问的 3 个问题并指出最可能是水分的一句。

必读

MGBench / co-folding 基准(J Chem Inf Model 2026);QuEEN(Science 2025)引子段。

时长
视频 30min|阅读 40min|检查 15min |
一句话看任何 AI 分子胶宣传,能一眼分辨含金量与水分。

---

02

第一篇 · 生物学与机制根基

篇目标:让 AI 尊重生物学。计算背景补生物、化学/生物背景补深度。没有这一篇,第四篇的模型输出就是无意义的数字。

M1.1

泛素—蛋白酶体系统(UPS)深解

位置

Q4 的生物学根基|前置:M0.2

学习目标

  • (理解)画出 E1→E2→E3 三级级联与 CRL4 机器,说明 neddylation 的调控作用。
  • (分析)解释为什么招募 ≠ 降解:泛素链拓扑、E2 配对、链延伸处理性、复合物几何与停留时间共同决定结果。
  • (理解)对比降解的亚化学计量催化特性与占据型抑制的化学计量特性。
学习脉络

先把 UPS 当成细胞的"垃圾分类+回收"系统讲清三步:E1 活化泛素、E2 转运、E3 给底物"贴标签"(连接酶决定特异性)。重点放在 CRL4^CRBN:Cullin4 骨架 + DDB1 接头 + CRBN 底物受体,neddylation(接 NEDD8)像"打开开关"激活整台机器。然后讲全课最关键的生物学洞见之一——招募 ≠ 降解:把一个底物拉到 E3 旁边只是第一步,能不能真被降解还取决于底物的赖氨酸是否被泛素链够得着、链是 K48(送去酶解)还是 K63(信号)、链延伸够不够"处理性"、三元复合物的几何与停留时间。这就是 Q4 为什么难、为什么"建好了三元结构也不代表能降解"的根。最后点出催化性:一个降解剂分子能驱动很多份靶蛋白被清除(事件驱动),这是降解优于抑制的核心红利。

能|不能|瓶颈(AI 依赖点)

当前模型擅长"会不会形成三元复合物(几何)",对"形成后会不会高效降解"预测很弱——因为后者依赖链拓扑、处理性这些缺数据的动力学量。这是 M4.4 的难点之源。

示例 / 可视化

UPS 级联 + CRL4^CRBN 机器图(必做);K48 vs K63 链拓扑对比。

误区

「拉到 E3 旁边就会被降解」(错);「泛素化 = 降解」(错:取决于链类型与下游)。

自测

① neddylation 在 CRL 激活里起什么作用?② 为什么"招募成功"不等于"降解成功",举两个决定因素。③(应用)某胶能形成稳定三元复合物却几乎不降解靶点,列出三个可能原因。

必读

UPS / CRL 机制综述一篇。

时长
视频 35min|阅读 45min|检查 15min |
一句话能解释为什么"建好三元复合物"离"真降解"还差一大步。
M1.2

E3 连接酶版图:作为"设计资源"来看

位置

Q1 的资源面|前置:M1.1

学习目标

  • (理解)说明 CRBN/CRL4 为何是分子胶主战场(IMiD/CELMoD 的靶标)。
  • (分析)对比两种主导识别策略:非共价界面延伸 vs 共价稳定
  • (评价)面对一个新靶点,能判断该走哪条 E3 路线,并说明组织/肿瘤特异性 E3 的战略价值。
学习脉络

换一个视角看 E3——不是生物学背景板,而是可调用的"设计资源库"。主线 CRBN/CRL4:IMiD/CELMoD 的舞台,G-loop 识别的范式(细节留给 M1.4)。然后讲非 CRBN 路线,并把它们按"识别机制"二分讲清:非共价界面延伸(DCAF15 + indisulam/E7820 → RBM39,芳基磺酰胺把底物"延伸贴"到连接酶界面)vs 共价稳定(DCAF16/DCAF11 + 共价弹头 → BRD4 等)。再扫一遍可用 E3 宇宙(VHL、KEAP1、β-TrCP、SIAH1…)和"可成药/PROTAC-able E3 universe"概念。收尾打出战略牌:组织/肿瘤特异性 E3 能拓宽治疗窗口——在肿瘤高表达的 E3 上做胶,正常组织少表达,毒性更小。

能|不能|瓶颈(AI 依赖点)

AI 能帮挖"可配体化 E3"和口袋可成药性;但绝大多数 E3 缺三元结构数据,非 CRBN 体系的建模可靠性远低于 CRBN(呼应 M0.4 的"新型 E3 基本失灵")。

示例 / 可视化

E3 版图地图(CRBN 居中,DCAF 家族与其他 E3 环绕);非共价 vs 共价两条路线对照图。

误区

「分子胶只能用 CRBN」(错:DCAF 家族等正在扩张);「E3 越多越好」(错:缺乏数据与配体的 E3 没法立刻用)。

自测

① indisulam–DCAF15–RBM39 属于哪种识别策略?② 组织特异性 E3 为什么能拓宽治疗窗口?③(应用)给一个在肝高表达、需避免中枢毒性的靶点,你会优先考察哪类 E3?

必读

非 CRBN 分子胶 / DCAF 体系综述一篇。

时长
视频 35min|阅读 45min|检查 15min |
一句话面对新靶点能选出合理的 E3 路线并讲出理由。
M1.3

分子胶作用机制深解

位置

Q2 的机制根基|前置:M1.1、M0.2

学习目标

  • (理解)从结构层面说明单价结合、neo-PPI 形成、协同性的来源。
  • (理解)区分降解型分子胶(MGD)与非降解型(稳定/抑制型)。
  • (分析)用动力学视角解释三元复合物寿命、hook 效应、催化循环。
学习脉络

把 M0.2 的"协同"落到结构与动力学上。先讲结构来源:胶坐进 E3 口袋后改造出一个"新表面(neosurface)",这个新表面与底物形成互补——活性来自小分子–蛋白 + 蛋白–蛋白的协同接触。然后拓宽"分子胶"的概念边界:除了降解型(MGD),还有非降解型——rapamycin–FKBP–mTOR、FK506–FKBP–钙调磷酸酶、sanglifehrin,以及 MTA 协同型 PRMT5(如 AMG-193,在 MTAP 缺失肿瘤里的"合成致死式"协同)。这些都是"用小分子制造/稳定一个界面",只是下游不是降解而是抑制/稳定/功能改变。最后上动力学:三元复合物寿命决定泛素化窗口;hook 效应——浓度过高时形成竞争性二元复合物、反而压低活性(钟形曲线,PROTAC 更典型,胶因单价相对缓和但仍存在);催化循环让一个胶反复工作。可补一个新教学样例 MRT-31619(让 CRBN 自身二聚并被降解的"化学敲除"工具),展示三元复合物的非常规几何。

能|不能|瓶颈(AI 依赖点)

模型能估界面与埋藏面积;对寿命、hook、催化效率这些动力学量基本无能为力(无数据)。

示例 / 可视化

neosurface 形成示意;hook 效应钟形曲线;非降解型胶范例(rapamycin 三元)。

误区

「分子胶 = 降解剂」(错:还有稳定/抑制型);「浓度越高降解越强」(错:hook 效应)。

自测

① 协同性的两类结构来源是什么?② hook 效应为什么发生?③(应用)一条剂量—降解曲线在高浓度端回落,如何解释、如何在实验里规避?

必读

分子胶机制综述;非降解型胶(rapamycin/14-3-3)一篇。

时长
视频 35min|阅读 45min|检查 15min |
一句话能从结构与动力学两面讲清"胶为什么起效、为什么会失效"。
M1.4

neo-substrate 识别规则(分子胶的"语法")

位置

Q1 的核心规则|前置:M1.3

学习目标

  • (应用)以 CK1α/lenalidomide/CRBN(PDB 5FQD)为范式,讲清 β-发夹 G-loop 的几何与 CRBN 界面互补性。
  • (分析)超越经典 G-loop:识别螺旋型 G-loop、表面模拟型非经典降解子。
  • (评价)拿到一个蛋白结构,初步判断它"长得像不像可被粘的底物"(可成胶性结构判据)。
学习脉络

这是 Q1 的"语法书"。先立范式:打开 5FQD,重点看 CK1α 那个含甘氨酸的 β-发夹 G-loop 如何精确卡进 CRBN+lenalidomide 形成的 neosurface——G-loop 定义了一组表面特征,与 CRBN/胶界面整体互补。这就是 IMiD 能降解 IKZF1/3、CK1α、GSPT1、SALL4 等一大票看似无关蛋白的统一解释。然后讲"语法在扩张":经典 β-发夹之外,已发现螺旋型 G-loop表面模拟(surface mimicry)型非经典降解子(VAV1 通过分子表面模拟接触 CRBN;G3BP2、KDM4B、VCL 等不含经典 G-loop),以及最新的 mTOR 甘氨酸 helix-loop-helix(HLH)motif——把"非 β-发夹"蛋白也纳入了 neosubstrate 名单。结论:CRBN 的底物谱比想象大得多,但"非经典"正是 AI 预测最弱的地方(埋下 M4.1 的边界)。最后给"可成胶性"的结构判据清单,为 Q1 蛋白组挖掘铺路。

能|不能|瓶颈(AI 依赖点)

G-loop 模板匹配是 QuEEN 类全蛋白组挖掘的技术核心(M4.1);但非经典降解子缺模板、缺数据,预测可靠性显著下降

示例 / 可视化

5FQD 三元复合物 + G-loop 特写(必做);经典 vs 螺旋型 vs 表面模拟型对照图。

误区

「只有 β-发夹 G-loop 才能被 CRBN 粘」(错:螺旋型、表面模拟、HLH 都行);「有 G-loop 就一定会被降解」(错:只是几何相容的必要非充分条件)。

自测

① G-loop 为什么能解释 IMiD 降解一大批不相关蛋白?② 举两类非经典降解子。③(应用)给一个蛋白结构,列出你会检查哪些表面特征来初判可成胶性。

必读

CK1α–lenalidomide–CRBN 结构(5FQD)原始文献;G-loop 规则 / QuEEN(Science 2025)。

时长
视频 35min|阅读 50min|实操 30min(在一个结构上找 G-loop)|检查 15min |
一句话拿到蛋白结构,能初判它"长得像不像可被粘的底物"。
M1.5

分子胶 vs PROTAC vs 其他模态:设计权衡

位置

立项决策|前置:M1.2、M1.4

学习目标

  • (评价)在成药性、合成可及性、IP、剂量、组织分布等维度上权衡何时选胶、何时选 PROTAC。
  • (理解)解释杂合概念:分子胶式 PROTAC、分子内胶、IMiD 弹头的双重角色。
学习脉络

把前四个模块收口成"立项时怎么选模态"。做一张权衡表逐维对比:成药性(胶赢——小、口服、过 BBB)、理性设计难度(PROTAC 赢——可拼装)、IP 空间、合成可及性、剂量与组织分布。强调没有银弹:胶适合"靶点本身有可成胶表面、且需要传统小分子成药性"的场景;PROTAC 适合"需要快速理性设计、靶点有现成配体"的场景。再讲杂合地带,破除非此即彼的二分:分子胶式 PROTAC(缩短连接子到接近胶)、分子内胶、以及 IMiD 弹头既能当胶又能当 PROTAC 的 E3 招募端。

能|不能|瓶颈(AI 依赖点)

AI 在 PROTAC 上更成熟(模块化、可枚举连接子);正因为胶非模块化、更难,AI 的杠杆反而更大——这是全课"以胶为圆心"的立论收口。

示例 / 可视化

胶 vs PROTAC 多维权衡表(必做);杂合模态谱。

误区

「降解剂里 PROTAC 更先进所以更好」(错:模态选择看靶点与开发目标)。

自测

① 何种靶点/开发目标更适合分子胶?② IMiD 弹头的"双重角色"指什么?③(应用)给一个需口服、长期给药、有浅口袋的肿瘤靶点,你选哪种模态,理由?

必读

模态选择 / 降解剂设计权衡综述一篇。

时长
视频 30min|阅读 35min|检查 15min |
一句话立项阶段能为一个项目选对模态并说出理由。

---

<!-- 续:第二篇、第三篇、第四篇、第五篇、第六篇、附录 -->

03

第二篇 · AI 与计算工具箱(去黑箱)

篇目标:让模型不再是黑箱。生物/化学背景的人理解模型在算什么、为什么会错;数据背景的人理解输出的化学/生物含义。强调"原理直觉 + 失败模式",不做数学推导。

M2.1

分子与蛋白的表示(Representations)

位置

所有模型的入口|前置:M0.2

学习目标

  • (理解)比较分子的四种表示(SMILES / 分子图 / 3D 构象 / 指纹)并说明"表示决定上限"。
  • (理解)说明蛋白的序列/结构/表面(surface)三类表示及蛋白语言模型嵌入(ESM)。
  • (分析)指出分子胶特有的表示难点:要同时表示"小分子 + 两个蛋白 + 诱导界面"这一复合对象。
学习脉络

开场抛出一句口头禅——"垃圾的表示,再强的模型也救不回来"。逐一过分子表示:SMILES(字符串,方便但丢 3D)、分子图(原子=点、键=边,GNN 的食材)、3D 构象(对接/几何模型必需)、指纹(ECFP,快但粗)。再过蛋白表示:序列(ESM 等蛋白大模型把进化信息压成嵌入向量)、结构(坐标)、表面表示(把蛋白当成一张"地形图",看口袋/凸起/电荷分布——这是 MaSIF 类几何深度学习的入口,也是 Q1 蛋白组挖掘的关键,M2.2 展开)。收尾点出分子胶的"表示地狱":别的任务表示一个分子或一个蛋白就够了,分子胶要把胶 + 靶 + E3 + 那个被诱导出来的界面作为一个整体对象同时表示——复合度陡增,正是建模难的根源之一。

能|不能|瓶颈

表面表示让"跨蛋白组找相似口袋/降解子"成为可能;但没有好的"诱导界面"统一表示——界面是被胶诱导出来的,不是预先存在的,难以提前编码。

示例 / 可视化

同一分子的四种表示并排图;蛋白表面"地形图"示例(电荷/疏水着色)。

误区

「3D 一定比 2D 好」(错:看任务,且 3D 构象本身要先预测、可能错)。

自测

① 为什么说"表示决定模型上限"?② 表面表示相比序列表示在 Q1 任务上强在哪?③(应用)要做"全蛋白组找类 G-loop 表面",你优先选哪种表示,为什么?

必读

ESM 蛋白语言模型一篇;MaSIF(表面学习)一篇。

时长
视频 30min|阅读 40min|检查 15min |
一句话能为一个分子胶任务选对分子/蛋白表示并说出代价。
M2.2

关键模型家族

位置

模型"动物图鉴"|前置:M2.1

学习目标

  • (理解)说清 GNN、Transformer/蛋白大模型、扩散模型各自擅长什么。
  • (应用)解释几何深度学习与等变性(equivariance)为何是 Q1 表面挖掘的技术核心。
  • (分析)摆正物理方法(对接、MD、FEP)的位置:AI 与物理互补而非互斥。
学习脉络

把它当成一张"模型动物图鉴",每种都讲清"吃什么、吐什么、强在哪、坑在哪"。GNN:吃分子图,做性质预测,但易过拟合小数据。Transformer/蛋白大模型:吃序列,长程依赖强,是表示与生成的主力。扩散模型:从噪声"雕"出结构/分子,是 AF3 与从头设计的引擎。然后重点讲透几何深度学习 + 等变性:模型对输入做旋转/平移,输出要"跟着转"而不是乱变(E(3)/SE(3) 等变)——这对 3D 蛋白表面学习是刚需,是 MaSIF/QuEEN 把"可成胶表面"投影到全蛋白组的技术底座,需要重点讲透。最后把物理方法摆回位置:对接给几何初猜、MD 看动态稳定性、FEP 算结合自由能差——它们慢但有物理意义,和 AI 是"互补"——AI 快速筛、物理精修验证,不是谁取代谁。

能|不能|瓶颈

等变几何模型能做跨蛋白组的表面匹配;但所有这些模型的天花板由数据决定(第三篇主题),模型家族本身不是护城河。

示例 / 可视化

模型家族对比表(输入/输出/强项/坑);等变性直觉图(旋转输入→输出同步旋转)。

误区

「AI 取代了物理模拟」(错:互补);「等变只是技术细节」(错:3D 任务的正确性前提)。

自测

① 等变性是什么,为什么 3D 蛋白任务需要它?② 对接、MD、FEP 各自回答什么问题?③(应用)你有 GPU 预算有限、要先粗筛一万个口袋,AI 与物理方法如何分工?

必读

几何深度学习/等变网络综述;FEP 在药物发现中的应用一篇。

时长
视频 35min|阅读 45min|检查 15min |
一句话拿到一个任务能选对模型家族,并知道何时该叫物理方法来兜底。
M2.3

结构预测革命:AF2 → AF3 → 共折叠一代

位置

Q2 的引擎|前置:M2.2

学习目标

  • (理解)讲清 AF2 → AF3 的关键跃迁(扩散模块、支持配体/核酸/离子)与"共折叠"含义。
  • (应用)正确解读置信度指标 pLDDT / PAE / ipTM 的含义与陷阱。
  • (评价)说明为什么通用共折叠模型需要被"掰"向分子胶(引导扩散类方法)。
学习脉络

先讲 AF2 解决了"单链折叠",AF3 靠加进扩散模块把能力扩到蛋白 + 小分子 + 蛋白/核酸/离子——这才是"共折叠(co-folding)":一次性把多组分体系一起折出来。点名当代选手:AF3、Boltz-1/2、Chai-1、Protenix、RoseTTAFold-All-Atom,给定位对比(注意:MGBench 测的是 Boltz-1,Boltz-2 已发布——顺带讲"基准永远滞后于模型")。然后把置信度解读当成本模块的硬技能讲透:pLDDT(每残基局部置信)、PAE(残基对/结构域间的相对位置误差,看界面要看这个)、ipTM/pTM(界面/整体打分)——并反复敲打高置信 ≠ 正确,尤其对训练里没见过的诱导界面。最后引出分子胶专用增强:YDS-GlueFold、FKSFold 等引导扩散(guided diffusion)思路——给通用模型加分子胶先验,把它"掰"向 neo-PPI,因为通用模型对分子胶界面本就不灵(回扣 M0.4 的 33%)。

能|不能|瓶颈

能建模蛋白+配体+蛋白的三元体系、给出可读的置信度;不能保证分子胶界面正确(~33% 恢复且多靠记忆),对大界面/诱导口袋/新型 E3 尤其弱

示例 / 可视化

AF2→AF3 能力扩展图;置信度三件套(pLDDT/PAE/ipTM)读图示例(一个"高置信但错"的反例)。

误区

「ipTM 高就说明结构对了」(错:训练域外不可靠);「最新模型一定上过最新基准」(错)。

自测

① 看一个三元复合物界面靠不靠谱,主要读哪个置信度指标?② 为什么通用共折叠模型需要被"引导"向分子胶?③(应用)给一组 AF3 输出(pLDDT 高但 PAE 在界面处差),你信还是不信,为什么?

必读

AF3 原始论文;MGBench 基准(J Chem Inf Model 2026);GlueFold 类引导扩散一篇。

时长
视频 40min|阅读 50min|实操 30min(读一份真实置信度输出)|检查 15min |
一句话能读懂共折叠模型的置信度,并判断一个三元预测可不可信。
M2.4

生成式与逆向设计

位置

Q3 的方法源|前置:M2.2

学习目标

  • (理解)说明从头分子生成(de novo)的条件生成思路:面向特定界面设计。
  • (理解)了解蛋白/界面设计(RFdiffusion / 全原子设计)的思路(前沿,关联第六篇)。
  • (理解)解释多目标优化(MPO)框架的原理。
学习脉络

把"生成"讲成"带约束地造分子/造蛋白"。先讲从头分子生成:模型学会化学空间后,可在条件下采样——条件可以是"要贴合这个 E3 口袋""要诱导这个界面互补",这正是 Q3 想要的"面向三元界面的设计"。再讲更前沿的蛋白/界面设计:RFdiffusion 类方法直接"扩散"出蛋白骨架,理论上能同时设计蛋白与胶(第六篇的 foundation model 方向)。最后讲 MPO:真实分子要同时满足活性、选择性、合成可及性、IP、成药性——生成不是优化单一目标,而是在多目标的帕累托前沿上找折中。强调本模块给的是"想法的来源",可合成性与真实三元活性必须实验定夺(M4.3 收口)。

能|不能|瓶颈

能生成大量"看起来合理"的候选与新骨架;不能保证可合成、不能保证三元活性——生成模型给想法,不给真相。

示例 / 可视化

条件生成示意(以界面互补为条件采样分子);MPO 帕累托前沿图。

误区

「生成出来就能做出来」(错:可合成性是独立的硬约束);「多目标=加权求和」(窄化:本质是帕累托权衡)。

自测

① "面向界面的条件生成"在分子胶里要喂什么条件?② MPO 为什么不能简单加权成单目标?③(应用)生成器给了 1000 个分子,你下一步用哪些过滤器收敛到可合成、可成药的少数?

必读

de novo 生成综述;RFdiffusion 一篇。

时长
视频 35min|阅读 40min|检查 15min |
一句话理解生成模型能给"想法",但想法要过可合成与活性两道实验关。
M2.5

药物发现里的 ML 思维(最容易被忽视、却最致命)

位置

贯穿全课的"批判性内核"|前置:M2.3

学习目标

  • (分析)解释数据泄漏、时间切分(time-split)基准,说明随机切分为何会骗人。
  • (理解)说明适用域(applicability domain)与不确定性量化的作用。
  • (评价)正确解读"成功率 33%"这类指标,权衡可解释性的价值与局限。
学习脉络

这是把学员从"AI 信徒"变成"AI 审稿人"的一讲。核心反直觉点:随机切分的高分多半是假的——因为训练集里有和测试集近乎重复的分子/结构,模型其实在"背答案"。正确做法是 time-split(按时间分,模拟"用过去预测未来"),MGBench 正是这么做的,所以它的 33% 才可信、才暴露出"成功多靠记忆"(直接回扣 M0.4)。再讲适用域:模型只在见过的化学/结构空间里可信,外推就是赌博;以及不确定性量化(集成、conformal)——一个诚实的模型要会说"我不确定"。最后教怎么读指标:33% 是恢复率不是准确率、是在 held-out 上、还掺了记忆水分——学会拆解一个数字背后的口径。可解释性收尾:能帮提假设,但不能当因果证据。

能|不能|瓶颈

本模块即"如何判断 AI 能/不能"的方法论总成,是 M6.4 批判性思维的技术底座。

示例 / 可视化

随机切分 vs time-split 的分数对比图(同一模型,分数虚高 vs 真实);适用域示意。

误区

「论文报了 0.9 的 AUC 就很强」(错:先问怎么切的数据);「可解释性=因果」(错)。

自测

① 随机切分为什么会高估性能?② 适用域是什么,为什么外推危险?③(应用,批判)给一份内部模型报告(随机切分、未报不确定性),你会提哪三个批判性问题?

必读

药物发现 ML 陷阱 / time-split 基准方法论一篇。

时长
视频 35min|阅读 45min|检查 20min |
一句话拿到任何 AI 论文或内部模型报告,能问出正确的批判性问题。

---

04

第三篇 · 数据层 —— 真正的瓶颈

篇目标:本篇是相对市面课程最大的差异化。分子胶 AI 的胜负手在数据不在模型。学完应理解"数据飞轮"为何是护城河。

M3.1

为什么分子胶 AI 是"数据饥饿"的

位置

数据层总纲|前置:M2.5、M0.4

学习目标

  • (分析)量化结构数据稀缺(PDB 非共价 MG 三元复合物约 200 个量级)与历史数据的零散性。
  • (评价)解释负样本几乎不存在如何直接压低 Q1–Q3 所有模型的天花板。
学习脉络

开场用一个对比震一下:训练一个像样的视觉模型有上百万张图,而全世界非共价分子胶三元复合物结构只有约 200 个(MG-PDB 收 221)。再点出更致命的——负样本缺失:没人发表"我测了这个分子,它没粘住",所以模型只见过成功、没见过失败,根本学不会判别边界。历史数据还零散、偶然、口径不一。结论顺理成章:这不是换个更大模型能解决的问题,是数据问题——这就是为什么 M0.4 的 33% 上不去,也是为什么第三篇是全课的胜负手。把"数据天花板"这个概念立住,后面四个模块都在回答"那怎么造数据"。

能|不能|瓶颈

本模块即"瓶颈"的定义本身。

示例 / 可视化

数据量级对比图(视觉/NLP 百万级 vs MG 三元 ~200);正负样本失衡示意。

误区

「数据不够就用更大模型补」(错:数据是上限,不是模型);「公开数据已经够了」(错,且有偏)。

自测

① 为什么负样本缺失对分子胶建模特别致命?② 200 量级的结构数据如何具体限制 Q2 建模?③(应用)若只能补一类数据来突破天花板,你补正样本结构还是负样本活性数据,为什么?

必读

MG-PDB / 数据稀缺论述(MGBench 论文相关段)。

时长
视频 25min|阅读 30min|检查 15min |
一句话能向任何人讲清"分子胶 AI 的天花板是数据,不是模型"。
M3.2

公共数据资源地图

位置

数据"地图册"|前置:M3.1

学习目标

  • (理解)说出主要公共资源:结构(PDB、AlphaFold DB)、分子胶/降解剂专库(MG-PDB、MGBench、PROTAC-DB/PROTACpedia)、降解子与泛素组学库。
  • (评价)评估一个公共数据集的质量、偏倚与可用性。
学习脉络

把它当成一本"去哪找数据"的地图册,但重点不是罗列网址,而是教怎么挑剔地用。逐类过:结构数据(PDB 是金标准但 MG 三元极少;AlphaFold DB 是预测不是实测,别当真值)、分子胶/降解剂专库(MG-PDB + MGBench 是分子胶专用、且 MGBench 做了 time-split 适合做基准;PROTAC-DB/PROTACpedia 偏 PROTAC,作对照用)、降解子/泛素组学/蛋白组学公共库。每讲一个库都追问三件事:质量(实测还是预测)、偏倚(集中在哪类靶点/E3)、可用性(许可、格式、能不能直接喂模型)。强调公共数据有强烈偏倚(CRBN/14-3-3 占大头),盲用会让模型"偏科"。

能|不能|瓶颈

公共数据能起步、能做基准;但偏倚重、负样本无、量级小,靠它做不出护城河(引出 M3.3/M3.4 的自有数据)。

示例 / 可视化

公共资源地图(按 5 问/数据类型分区);某专库的靶点/E3 分布饼图(暴露偏倚)。

误区

「AlphaFold DB 里的结构=实验结构」(错:是预测);「公开库无偏」(错:集中在少数 E3)。

自测

① 为什么做基准更适合用 MGBench 而不是随便切 PDB?② 评估一个公共数据集要问哪三件事?③(应用)你发现某库 90% 数据是 CRBN,用它训练会有什么风险?

必读

MG-PDB/MGBench 数据说明;一篇 TPD 数据资源综述。

时长
视频 30min|阅读 35min|实操 30min(评估一个真实公共集)|检查 15min |
一句话能挑剔地评估并选用公共数据集,识别它的偏倚与坑。
M3.3

喂养模型的实验数据:每种数据如何变成训练信号

位置

数据层的"转译"核心|前置:M3.2、M1.1

学习目标

  • (应用)说明全局/表达蛋白组定量质谱(global proteomics)为何是 MoA 与选择性/脱靶的金标准训练信号。
  • (理解)说明 DEL 筛选、细胞降解活性(HiBiT/WB/流式)、生物物理(SPR/ITC/TR-FRET/天然质谱/HDX)各自产出什么信号。
  • (应用)建立"把湿实验产物映射成模型可学标签"的思维方式。
学习脉络

本模块的核心技能是"翻译"——把实验台上的产物翻成模型能吃的标签。主菜是全局定量蛋白组质谱:一次实验测全细胞蛋白丰度变化,直接读出"这个胶降了哪些蛋白、降了多少"——既是 MoA 金标准,也是选择性与脱靶的天然训练信号(配合 TurboID 邻近标记、dTAG 系统做靶点验证)。再过其他数据源并标注它们变成什么标签:DEL 筛选→海量结合/富集标签;细胞降解(HiBiT 实时、WB、流式)→DC50/Dmax 类功能标签;生物物理(SPR/ITC 测亲和与热力学、TR-FRET 测三元、天然质谱测复合物、HDX 测界面)→结合/界面标签。每讲一个都做一次"翻译练习":这条数据,能监督模型的哪个预测任务?这就是把湿实验和 AI 接起来的思维。

能|不能|瓶颈

蛋白组学让"全蛋白组选择性"可被监督学习;但这类数据贵、慢、标准化差,是数据飞轮要重点工程化的环节(M3.4)。

示例 / 可视化

一张"实验→信号→模型任务"映射表(必做,全课高频引用);蛋白组火山图(一个胶的降解谱)。

误区

「细胞活性数据就够训模型了」(错:缺选择性维度,需蛋白组);「实验数据天然能喂模型」(错:要先翻成标签、去批次效应)。

自测

① 为什么全局蛋白组是选择性的"裁判级"信号?② 把 HiBiT 降解曲线翻成什么标签?③(应用)你想训练一个脱靶降解预测器,优先要哪类实验数据,如何转成标签?

必读

定量蛋白组学测降解谱一篇;dTAG / 邻近标记一篇。

时长
视频 35min|阅读 45min|实操 30min(把一份蛋白组数据转成标签)|检查 15min |
一句话看到任何一种湿实验,能说出它该监督模型的哪个任务、怎么转成标签。
M3.4

构建专有数据引擎(QuEEN 范式拆解)

位置

护城河的"发动机"|前置:M3.3

学习目标

  • (分析)拆解 Monte Rosa QuEEN 如何整合内部蛋白组 + 结构生物学 + 几何深度学习 + 多样化学库,做全蛋白组 CRBN 靶点空间挖掘。
  • (评价)说明数据治理(策展、本体、FAIR)与数据飞轮如何形成复利。
  • (评价)讨论中小 Biotech 如何在数据上"以小博大"。
学习脉络

这是第三篇的高潮,也是全课暗线的兑现——赢家是有数据飞轮的人。以 QuEEN 为活案例(Science 2025 封面)拆解四个齿轮如何咬合:内部蛋白组(自家测的降解谱,独有)+结构生物学(解三元结构)+几何深度学习(把"可成胶表面"学出来)+多样化学库(喂各种胶),合起来做全蛋白组 CRBN 靶点空间挖掘,预测出 >1600 个 G-loop 相容蛋白,还发现了螺旋型 G-loop 和 VAV1 的表面模拟模式。然后抽象出可复用的"飞轮"原理:实验→数据→更好的模型→更聪明的下一批实验→更多更好的数据,复利滚动;外人没有你的内部数据,就追不上。再讲数据治理是飞轮能转的前提(策展、本体统一、FAIR)。最后给中小 Biotech 的"以小博大"打法:不拼数据量,拼某一类靶点/E3 上的深度专有数据 + 干净治理——在窄赛道上把飞轮转起来。

能|不能|瓶颈

专有飞轮能把模型推到公共数据到不了的高度;但飞轮启动需要前期重资产(湿实验+结构+治理),这是壁垒也是门槛。

示例 / 可视化

QuEEN 四齿轮整合图;数据飞轮闭环图(核心可视化,全课高频);>1600 候选的全蛋白组投影示意。

误区

「数据飞轮=数据多」(错:是闭环复利 + 治理 + 专有性);「小公司没机会」(错:窄而深可破局)。

自测

① QuEEN 的四个组成各自贡献什么?② 数据飞轮为什么会形成"越跑越快"的复利?③(应用)一家只有 20 人的 Biotech,给一个在某 E3 上做飞轮的最小可行方案。

必读

QuEEN(Science 2025);FAIR 数据原则一篇。

时长
视频 40min|阅读 50min|检查 20min |
一句话能拆解一个数据飞轮,并为不同体量的公司设计数据策略。
M3.5

多组学与系统生物学语境

位置

靶点/患者维度|前置:M3.4

学习目标

  • (理解)说明转录组/蛋白组如何用于靶点发现、患者分层与生物标志物。
  • (理解)了解耐药图谱的数据采集(为 M5.4 铺垫)。
学习脉络

把镜头从"分子"拉远到"疾病系统"。讲清多组学(转录组、蛋白组)在分子胶研发里的两个用处:一是靶点发现与验证(哪些蛋白在病里被异常依赖、降了它有没有治疗意义);二是患者分层与生物标志物(谁会响应、用什么指标追疗效)。再点一笔耐药图谱的数据采集——提前收集耐药样本的组学数据,为 M5.4 用 AI 预判耐药铺路。本模块偏"语境",篇幅适中,目的是让你明白:分子胶不只是化学/结构问题,最终要落到病人身上,组学是连接两端的桥。

能|不能|瓶颈

组学能定位靶点与人群;但从"相关"到"该降它且降它有效"仍需功能验证,AI 在此只是优先级排序器。

示例 / 可视化

靶点发现→分层→标志物的多组学流程图。

误区

「组学相关性 = 因果靶点」(错:需功能验证)。

自测

① 多组学在分子胶研发里的两大用途?② 耐药图谱数据为什么要提前采集?③(应用)给一个肿瘤适应症,你会用哪类组学做患者分层?

必读

多组学靶点发现/患者分层综述一篇。

时长
视频 25min|阅读 30min|检查 10min |
一句话能把分子胶研发放进"靶点—人群—标志物"的系统生物学语境里看。

---

<!-- 续:第四篇(5问核心)、第五篇、第六篇、附录 -->

05

第四篇 · AI 驱动的发现与设计全流程【核心 · 5 问主线】

篇目标:全课心脏,严格按 5 个根本问题展开。每模块统一结构:问题定义 → 生物/化学约束 → AI 方法 → 当前能力边界 → 与实验如何咬合。每讲开头都回到 5 问地图点亮当前位置。

M4.1

〔Q1〕靶点 / neo-substrate 选择:"什么能被粘?"

位置

Q1|前置:M1.4、M2.1、M2.2、M3.1

学习目标

  • (理解)解释两条挖掘路线:G-loop 结构模板匹配 vs surface matchmaking(表面互补匹配)。
  • (应用)用提供的 notebook 在一个蛋白家族里做"可成胶性"打分。
  • (分析)把可成胶性 × 疾病生物学 × E3 相容性三轴交叉,对候选排序。
  • (评价)说明"预测=可能性≠验证",识别非经典降解子为何预测最弱。
学习脉络

回到 5 问地图点亮 Q1。问题定义:在两万多个人类蛋白里,找出"长得像能被粘"的那些。生物约束:可成胶性的结构判据来自 M1.4 的语法(G-loop/螺旋型/表面模拟/HLH)。AI 方法:两条路线——① G-loop 结构模板匹配(拿已知降解子当模板去全蛋白组扫);② surface matchmaking(用几何深度学习把"可成胶表面 patch"投影到全蛋白组,找互补口袋),这正是 QuEEN/MaSIF 路线(复盘 M3.4,QuEEN 预测 >1600 个 G-loop 相容蛋白)。优先级排序是本模块的实操灵魂:把 可成胶性 × 疾病生物学 × E3 相容性 三轴交叉,从 >1600 里筛出真正可立项的少数;顺势讲"可成胶基因组(gluable genome)"概念,以及对 MYC/STAT3/KRAS 这些经典"不可成药"靶点的攻坚意义。能力边界 + 咬合:预测出的是"可能性",每个候选都要回到实验验证级联(M5.1);非经典降解子(无 G-loop、表面模拟、mTOR HLH 型)目前预测最弱。

能|不能|瓶颈

——全蛋白组投影几何特征、产出排序候选清单(QuEEN >1600);不能——断言"一定会被降解",非经典降解子可靠性显著下降;瓶颈——负样本缺失 + 结构数据稀缺压低天花板(回扣 M3.1)。

示例 / 可视化

QuEEN 全蛋白组投影图;三轴交叉打分漏斗(>1600 → 可立项少数);一个非经典降解子(VAV1/mTOR)预测翻车的对照。

误区

「打分高 = 可降解」(错:只是几何相容);「候选上千 = 靶点上千」(错:绝大多数会被实验淘汰);「AI 给了清单就省掉实验」(错)。

自测

① G-loop 模板匹配与 surface matchmaking 各在找什么?② 为什么"候选上千"不等于"靶点上千"?③(应用,实操)跑完打分,挑出前 3 名,说明你还需要哪些湿实验才能立项。

实操(必做)

用 G-loop 模板在一个激酶家族打分,与 QuEEN/已知底物对照(云端 notebook)。

必读

QuEEN(Science 2025);MaSIF / 几何深度学习一篇。

时长
视频 30min|阅读 45min|实操 90min|检查 15min |
一句话拿到蛋白组,能产出一份带可成胶性排序与诚实置信度的候选清单。
M4.2

〔Q2〕三元复合物与协同性建模:"粘起来长什么样?"

位置

Q2|前置:M1.3、M2.3、M3.1

学习目标

  • (应用)用共折叠模型建分子胶三元复合物,做界面预测、埋藏面积与协同性/ΔΔG 估计、MD 精修。
  • (评价)直面 AF3 的失败模式(诱导成型口袋、大界面、新型 E3),判断何时该信、何时该弃。
  • (理解)说明专用方法(GlueFold 类引导扩散)的使用场景。
学习脉络

点亮 Q2。问题定义:把 Q1 选出的"靶 + E3 + 胶"折成一个三元结构,并判断它们"贴得牢不牢"(协同)。约束:协同性来自 M1.3 的结构与动力学来源。AI 方法:用共折叠模型(AF3/Boltz/Chai…)建三元复合物,读界面、算埋藏面积、估 ΔΔG/协同,再用 MD 精修动态稳定性(AI 快筛 + 物理精修,回扣 M2.2)。本模块的诚实硬课:直面失败模式——AF3 在 MGBench 上 MG 界面恢复仅 ~33% 且多靠记忆,对诱导成型口袋、大界面、新型 E3 体系尤其会错。教学的关键不是"怎么跑模型",而是"怎么判断这次该不该信":看置信度(M2.3 的 PAE/ipTM)、看是否落在模型见过的体系、看物理是否自洽。专用方法:当通用模型不灵时,GlueFold 类引导扩散给分子胶先验,适用于"已知 E3、想精修界面"的场景。咬合:把建模当假设生成器,用 SPR/TR-FRET/结构生物学去证伪(M5.1)。

能|不能|瓶颈

——给出三元结构假设 + 可读置信度 + 界面/埋藏量估计;不能——保证界面正确(~33% 且掺记忆),对诱导口袋/大界面/新型 E3 高失败;瓶颈——结构数据稀缺,模型在训练域外是"猜"。

示例 / 可视化

一个"高置信但错"的 AF3 三元复合物对照真实结构(核心震撼图);协同性 ΔΔG 示意;该信/该弃的决策清单。

误区

「建出来就是真相」(错:是假设);「ipTM 高=界面对」(错:域外不可靠);「跑通了模型=完成了 Q2」(错:要证伪)。

自测

① ~33% 恢复率为什么意味着"建模是假设生成器不是真相机器"?② AF3 在哪三类情形最易出错?③(应用,实操)给一份 AF3 三元输出,判断信不信,并设计一个证伪它的湿实验。

实操(必做)

用 AF3/Boltz 跑一个已知 MG 三元复合物,对照实验结构,亲眼看 33% 是什么意思(云端 notebook,全员"震撼时刻")。

必读

AF3 论文;MGBench(J Chem Inf Model 2026);GlueFold 类一篇。

时长
视频 35min|阅读 50min|实操 90min|检查 20min |
一句话能建三元复合物假设,并诚实判断这次该信还是该弃。
M4.3

〔Q3〕分子设计与优化:"用什么分子去粘?"

位置

Q3|前置:M2.4、M4.2

学习目标

  • (应用)说明苗头发现三条路:分子胶样库虚拟筛选、DEL+ML、从 E3 口袋出发的片段生长。
  • (应用)做面向三元界面的从头生成(把界面互补性作为生成条件)。
  • (分析)解释分子胶的 SDR/SAR 为何比抑制剂更"非直觉",并做多参数优化(活性/选择性/合成可及性/IP/成药性)与为 IP 的骨架跃迁。
学习脉络

点亮 Q3。问题定义:造出能制造那个 neo-PPI 的分子。约束:分子要同时坐进 E3 口袋、改造出与靶互补的 neosurface。AI 方法:苗头发现三条路——分子胶样化学库虚拟筛选、DEL+ML(海量结合数据训判别器)、从 E3 口袋出发的片段生长;以及面向三元界面的从头生成(把"界面互补"当生成条件,回扣 M2.4)。本模块最反直觉的硬核分子胶的 SAR/SDR 极其非直觉——一个极小的化学改动可能彻底反转降解谱(换一个底物、甚至从降解变不降解),因为你改的不是"对单一口袋的亲和",而是"那张诱导界面的形状"。这让传统 SAR 经验失灵,也是 ML 建 SDR 的价值与难点所在。MPO:活性、选择性、合成可及性、IP 空间、成药性同时优化(帕累托权衡),并为 IP 做骨架跃迁(scaffold hopping)。咬合:生成模型给"想法",可合成性与三元活性必须实验定夺(回扣 M2.4 收口)。

能|不能|瓶颈

——产出大量候选与新骨架、建 SDR 趋势;不能——保证可合成、不能保证三元活性、SDR 外推不可靠(小改动大反转);瓶颈——SDR 数据稀缺且非线性。

示例 / 可视化

三条苗头路线图;一个"小改动→降解谱大反转"的 SDR 实例(核心,体现非直觉);MPO 帕累托前沿。

误区

「分子胶 SAR 和抑制剂一样可外推」(错:极度非直觉);「生成出来就能合成」(错);「优化活性就行」(错:MPO)。

自测

① 为什么分子胶 SAR 比抑制剂更难外推?② 面向界面的从头生成要喂什么条件?③(应用)生成器给了 1000 个候选,设计一套过滤流程收敛到可合成、选择性好的少数。

实操(选做)

用生成模型对一个 E3 口袋生成苗头并讨论可合成性(云端 notebook)。

必读

分子胶从头设计/DEL+ML 一篇;分子胶 SAR 非直觉性案例一篇。

时长
视频 35min|阅读 45min|实操 60min|检查 20min |
一句话能为一个三元界面规划设计路线,并知道想法要过可合成与活性两关。
M4.4

〔Q4〕功能、选择性与成药性预测:"会降解吗?能成药吗?"

位置

Q4|前置:M1.1、M3.3

学习目标

  • (分析)评估预测 DC50/Dmax/降解半衰期的 ML 模型及其局限。
  • (评价)说明全蛋白组选择性/脱靶降解预测为何是分子胶特有的核心风险。
  • (分析)做面向"超越五规则(bRo5)"空间的 ADMET/DMPK 预测与三元复合物感知的性质模型,设计 Go/No-Go 节点。
学习脉络

点亮 Q4。问题定义:分两层——粘了会不会真降解(功能),以及降了会不会误伤别的蛋白(选择性)、能不能成药(DMPK)。约束:功能层回扣 M1.1 的"招募≠降解"——这也是为什么 DC50/Dmax 预测难(依赖链拓扑、处理性、几何这些缺数据的动力学)。AI 方法 + 本模块的招牌风险全蛋白组脱靶降解预测——因为一个 G-loop 模板可能匹配上千蛋白(M4.1 的 >1600 是双刃剑),脱靶是分子胶特有的核心风险,必须用全局蛋白组数据(M3.3)来监督预测与裁判。再讲 bRo5 空间的 ADMET/DMPK:分子胶常落在五规则之外,传统性质模型外推不准,需要三元复合物感知的性质模型。决策:把以上整合成早期成药性打分与 Go/No-Go 节点——什么指标不过就砍。咬合:预测的选择性/性质都要被蛋白组学与 DMPK 实验证实(M5.1/M5.3)。

能|不能|瓶颈

——用蛋白组数据训选择性/脱靶预测、做趋势性 DMPK 打分;不能——可靠预测 DC50/Dmax 绝对值(动力学缺数据)、bRo5 外推弱;瓶颈——功能与 PK 的训练标签贵且少。

示例 / 可视化

一个 G-loop 模板匹配上千蛋白的脱靶风险图(核心);蛋白组选择性火山图;Go/No-Go 决策树。

误区

「能形成三元就会降解」(错,回扣 M1.1);「选择性靠看靶点亲和」(错:要看全蛋白组);「五规则适用于胶」(错:常 bRo5)。

自测

① 为什么脱靶降解是分子胶"特有"的核心风险?② DC50/Dmax 为什么难精准预测?③(应用,实操)用一份全局蛋白组数据做脱靶选择性分析,给出该分子的去/留判断。

实操(必做)

用全局蛋白组数据做一次脱靶降解选择性分析(云端 notebook)。

必读

脱靶降解/全蛋白组选择性一篇;bRo5 ADMET 一篇。

时长
视频 35min|阅读 50min|实操 90min|检查 20min |
一句话能用蛋白组数据评估一个胶的选择性风险并给出 Go/No-Go 判断。
M4.5

〔Q5〕闭环迭代:"DMTA 与自主化"

位置

Q5|前置:M4.1–M4.4、M3.4

学习目标

  • (应用)用主动学习/贝叶斯优化驱动 Design-Make-Test-Analyze 循环。
  • (理解)说明实验自动化/自驱动实验室与模型再训练如何衔接。
  • (评价)建立决策框架:何时迭代、何时砍、何时换 E3/换模态。
学习脉络

点亮 Q5,把前四问连成一个转起来的轮子问题定义:DMTA 不是直线而是循环——每轮实验数据回喂模型,让下一轮设计更聪明(直接呼应 M3.4 的数据飞轮)。AI 方法:主动学习(让模型挑"最值得做的下一个实验"——信息增益最大或不确定性最高的点)、贝叶斯优化(在多目标空间高效搜索)。自动化:自驱动实验室把"设计→合成→测试→分析→再训练"闭成自动环,让飞轮转得更快。本模块的灵魂是决策框架,而不是工具:你会拿到一套判据——什么时候继续迭代(在收敛、还有信息可挖)、什么时候砍(撞上不可逾越的选择性/PK 墙)、什么时候换 E3 或换模态(M1.2/M1.5 的退路)。强调"会砍"和"会换"和"会迭代"一样重要——这是研发领导力。

能|不能|瓶颈

——用主动学习显著减少达标所需实验数;不能——替代关于"何时止损/转向"的人类判断;瓶颈——自动化与数据回流的工程化落地难(M6.1)。

示例 / 可视化

DMTA 闭环 + 主动学习选点示意;决策框架(迭代/砍/换)流程图。

误区

「DMTA 是线性流程」(错:循环+回流);「自动化=买设备」(错:关键是数据闭环与再训练);「能优化就别砍」(错:会止损是核心能力)。

自测

① 主动学习如何减少实验数?② 给三个"该砍"和"该换 E3"的判据。③(应用)一个项目连续三轮选择性都过不了,你迭代、砍、还是换模态?说明判据。

实操(选做)

在一个玩具优化问题上跑主动学习,对比随机选点的效率。

必读

主动学习/贝叶斯优化在分子设计中的应用一篇;自驱动实验室一篇。

时长
视频 35min|阅读 40min|检查 20min |
一句话能设计一轮 DMTA 迭代,并判断何时迭代、何时砍、何时换。
M4.6

端到端实战案例复盘(把 5 问串起来)

位置

Q1–Q5 的总集成|前置:M4.1–M4.5

学习目标

  • (分析)沿 5 问复盘一个完整发现链路,标注 AI 在每步的真实作用。
  • (评价)对正向、回溯、共价三类案例,分辨"AI 真正起作用 vs 仍靠经验/运气"。
学习脉络

这一讲把 5 问从"分散的技能"焊成"一条链路",用三个真实案例走一遍。正向案例:CRBN neo-substrate 全蛋白组挖掘 → 候选 → 验证的完整 QuEEN 链路,逐步对应 Q1(挖掘)→Q2(建三元)→Q3(化学)→Q4(选择性)→Q5(迭代),并在每步诚实标注AI 在哪步真起了作用、哪步仍靠经验/运气回溯案例:indisulam/E7820–DCAF15–RBM39(历史上偶然发现的非 CRBN 胶)——做一次"如果用今天的 AI 重做会怎样"的思想实验,帮你看清 AI 能加速什么、又卡在哪(非 CRBN 体系建模弱)。共价案例:DCAF16–BRD4 共价分子胶,展示共价稳定路线与非共价路线在 5 问上的差异。本模块是 Capstone(v2.0 §5)的预演与样板——学员看完就知道自己的毕业项目该长什么样。

能|不能|瓶颈

通过三案例对照,帮你形成"AI 能/不能"的校准直觉——这是全课的能力收口。

示例 / 可视化

三案例各一张"5 问链路图",每步标注 AI 贡献度(高/中/低/无)。

误区

「成功案例里 AI 包办了一切」(错:很多步仍靠经验/运气);「回溯案例说明 AI 当年就能做」(错:受限于数据/E3 体系)。

自测

① 在 QuEEN 正向链路里,AI 贡献最大和最小的分别是哪一步?② 共价与非共价胶在 Q2 建模上有何不同?③(应用)选一个你熟悉的靶点,口头走一遍 5 问,标注每步 AI 能否帮上。

必读

QuEEN(Science 2025)正向链路;indisulam–DCAF15–RBM39 一篇;DCAF16–BRD4 共价胶一篇。

时长
视频 40min|阅读 50min|检查 20min |
一句话能沿 5 问复盘任一项目,并诚实标注 AI 在每步的真实作用——直接进入 Capstone。

---

<!-- 续:第五篇、第六篇、附录 -->

06

第五篇 · 验证、转化与临床前

篇目标:AI 增强但回归现实。讲清分子胶在验证与转化上与传统小分子的真实差异。篇幅适度,不堆砌监管条款。

M5.1

实验验证级联(并反哺 AI)

位置

5 问的"裁判台"|前置:M3.3、M4.2、M4.4

学习目标

  • (理解)说明结合/三元生物物理(SPR/ITC/TR-FRET/天然质谱/HDX)与细胞降解(WB/HiBiT/流式/dTAG)各验证什么。
  • (评价)说明全局蛋白组学为何是选择性的"裁判"。
  • (应用)说清每步实验数据如何回流到 M3 的数据飞轮。
学习脉络

把验证讲成一条从分子到细胞、逐级证伪假设的级联,并强调它双向——既验证 AI 的预测,又回喂数据飞轮。逐级过:生物物理层(SPR/ITC 测亲和与热力学、TR-FRET 测三元、天然质谱看复合物、HDX 看界面)→验证 Q2 的三元假设;细胞降解层(WB/HiBiT/流式/dTAG)→验证 Q4 的功能;全局蛋白组学→选择性的"终审裁判",验证脱靶预测。每讲一层都回扣一句:这层产出的数据要回流到 M3.3 的"实验→标签"映射、喂回飞轮。本模块帮你把"模型预测"和"实验真相"在脑子里接成闭环。

能|不能|瓶颈(AI 接口)

实验是 AI 的真值来源;模型再好也要这条级联兜底——这是反炒作的现实锚。

示例 / 可视化

验证级联金字塔(生物物理→细胞→蛋白组)+ 每层回流箭头。

误区

「模型预测对了就不用全跑实验」(错);「细胞降解阳性=选择性好」(错:要蛋白组裁判)。

自测

① 验证三元复合物用哪些生物物理手段?② 为什么全局蛋白组是选择性的"终审"?③(应用)给一个 AI 预测的候选,排出你的验证级联顺序并说明每步要回流什么数据。

必读

分子胶生物物理/蛋白组验证一篇。

时长
视频 30min|阅读 35min|检查 15min |
一句话能为一个候选排出验证级联,并让每步数据回流飞轮。
M5.2

体内转化

位置

临床前 PK/PD|前置:M1.3、M5.1

学习目标

  • (分析)解释催化型降解剂的非经典 PK/PD:hook 效应、PK 与药效解耦、组织分布、生物标志物驱动给药。
  • (理解)评估 AI 用于 PK/PD 建模与体内药效预测的现状与局限。
学习脉络

核心反直觉点——降解剂的血药浓度和药效会"解耦":因为降解是催化、事件驱动的,药物清除了、靶蛋白可能还压着(药效滞后于 PK),传统"浓度=药效"的 PK/PD 框架不适用。再讲 hook 效应在体内的表现、组织分布对疗效与毒性的影响,以及生物标志物驱动给药(用靶蛋白降解程度而非血药浓度来定剂量)。AI 现状:能做趋势性 PK/PD 建模,但对"催化解耦"这种非经典动力学预测有限,仍需体内数据校准。

能|不能|瓶颈

——趋势性 PK/PD 与分布预测;不能——精准刻画催化解耦动力学;瓶颈——体内数据少且贵。

示例 / 可视化

PK 曲线 vs 靶蛋白降解曲线"解耦"对照图(核心)。

误区

「血药浓度降下去药效就没了」(错:催化解耦);「按浓度定剂量」(错:宜用降解标志物)。

自测

① 为什么降解剂 PK 与药效会解耦?② 生物标志物驱动给药指什么?③(应用)一个降解剂血浆半衰期很短但药效持久,如何解释、如何定给药方案?

必读

降解剂 PK/PD 非经典特性一篇。

时长
视频 30min|阅读 35min|检查 15min |
一句话能解释降解剂为何 PK/药效解耦,并据此设计给药思路。
M5.3

安全性与选择性去风险

位置

风险面|前置:M4.4、M1.4

学习目标

  • (评价)说明脱靶降解为何是分子胶独有的风险源。
  • (分析)从 IMiD 教训理解免疫调节型 neo-substrate 效应与致畸性(SALL4)。
  • (理解)说明 AI 全蛋白组脱靶筛查在去风险中的作用与遗传/组织特异性毒性考量。
学习脉络

把 M4.4 的选择性话题落到"安全性去风险"。脱靶降解是分子胶独有的毒性源——你以为只降 A,结果 G-loop 模板把 B、C 也降了。最经典的教训是 IMiD 的致畸性:沙利度胺的肢体畸形,机制上是降解了 SALL4(一个发育关键转录因子)——这是"脱靶降解→灾难"的历史铁证,也是为什么全蛋白组选择性是分子胶的生死线。再讲免疫调节型 neo-substrate 效应(IMiD 降 IKZF→免疫调节,可能是疗效也可能是毒性)、遗传毒性、组织特异性毒性。AI 的作用:全蛋白组脱靶筛查在早期就标出风险蛋白,把毒性问题前移。

能|不能|瓶颈

——全蛋白组脱靶预警、把毒性前移;不能——预测所有体内毒性(免疫/发育/长期);瓶颈——毒性标签稀缺。

示例 / 可视化

SALL4 降解→致畸的机制图(核心教训);脱靶降解风险全蛋白组热图。

误区

「细胞里选择性好就安全」(错:体内/发育毒性另算);「脱靶只是疗效问题」(错:是安全性生死线)。

自测

① 沙利度胺致畸的分子机制是什么?② 脱靶降解为何是分子胶独有风险?③(应用)AI 脱靶筛查标出一个发育相关蛋白被降,你如何去风险?

必读

SALL4/IMiD 致畸机制一篇;脱靶降解安全性一篇。

时长
视频 30min|阅读 40min|检查 15min |
一句话能识别分子胶的脱靶/发育毒性风险,并用 AI 把去风险前移。
M5.4

耐药与联合用药

位置

长期疗效|前置:M1.2、M3.5

学习目标

  • (分析)解释 CRBN/E3 突变、neo-substrate 突变(如 RBM39)导致的耐药机制。
  • (评价)说明如何用 AI 提前建模/预判耐药并设计联用与下一代分子。
学习脉络

讲清分子胶为什么会"失效",以及怎么提前应对。耐药机制两类:① E3/CRBN 本身突变或丢失(机器坏了,胶没处发力);② neo-substrate 突变让界面不再互补(最经典:indisulam 的 RBM39 G268V 突变,改一个残基就逃脱降解)。AI 的用武之地:用结构/序列建模提前预判哪些突变会导致耐药、设计能容忍突变的下一代分子,以及理性设计联用方案(打不同 E3 或不同通路)。把"耐药"从"事后补救"变成"立项时就纳入设计"。

能|不能|瓶颈

——预判热点耐药突变、指导下一代/联用设计;不能——穷尽所有临床耐药路径;瓶颈——临床耐药样本数据滞后。

示例 / 可视化

RBM39 G268V 逃脱降解的界面对照图;两类耐药机制示意。

误区

「耐药是临床后期才管的事」(错:宜在设计期预判)。

自测

① RBM39 G268V 为什么导致耐药?② 两类主要耐药机制是什么?③(应用)给一个已知热点突变,设计一个抗耐药的下一代分子或联用策略思路。

必读

RBM39/降解剂耐药机制一篇。

时长
视频 25min|阅读 35min|检查 15min |
一句话能用 AI 预判耐药并把抗耐药设计前移到立项期。
M5.5

监管与 IND 要点(适度)

位置

临床前收口|前置:M5.1–M5.4

学习目标

  • (理解)说出 FDA/EMA/NMPA-CDE 对降解剂/分子胶审评的关注点。
  • (分析)说明生物分析的特殊性:原型药 + 降解生物标志物双重检测。
  • (评价)分辨"真正与传统小分子不同"的少数关键点。
学习脉络

刻意克制、只讲"与传统小分子不同的少数关键点",不背注册流程。核心差异有二:① 生物分析的双重性——不仅测原型药浓度(PK),还要测靶蛋白降解程度(PD 生物标志物),监管期望看到两条数据;② 催化解耦的剂量论证(呼应 M5.2,不能只靠暴露量)。再点一句各局(FDA/EMA/NMPA-CDE)对降解剂选择性/脱靶的关注。帮你建立"分子胶报批,哪些地方监管会特别问"的直觉即可。

能|不能|瓶颈

AI 在监管文档里目前是辅助证据,不可替代实测;脱靶预测可作为选择性论证的补充。

示例 / 可视化

传统小分子 vs 降解剂 IND 关注点差异清单(精简)。

误区

「降解剂注册和普通小分子完全一样」(错:生物分析/剂量论证有特殊性);「堆监管条款=讲清差异」(错:抓少数关键点)。

自测

① 降解剂生物分析"双重检测"指什么?② 为什么剂量论证不能只靠暴露量?③(应用)你要为一个降解剂准备 IND,列出两条监管最可能追问的点。

必读

降解剂监管/生物分析要点一篇。

时长
视频 25min|阅读 30min|检查 15min |
一句话能抓住分子胶报批中真正不同于传统小分子的少数关键点。

---

07

第六篇 · 平台、组织、IP 与前沿

篇目标:把知识变成"可落地的研发能力",并看清未来 3–5 年方向。

M6.1

搭建 AI-分子胶发现平台

位置

能力落地|前置:第三、四篇

学习目标

  • (分析)说明 CADD + ML + 自动化 + 蛋白组学如何拼成一条闭环流水线。
  • (评价)对比中小 Biotech 与大药企的打法:自建 vs 采购 vs 合作;研发数据闭环的工程化落地。
学习脉络

把全课的技术拼成"一条能转的流水线"。讲技术栈与闭环:CADD/物理方法 + ML 模型 + 实验自动化 + 蛋白组学,按 5 问串成 DMTA 闭环(回扣 M4.5/M3.4)。重点是组织与战略选择:大药企可全栈自建;中小 Biotech 要算账——哪些自建(核心专有数据与模型)、哪些采购(通用工具)、哪些合作(湿实验/结构产能)。强调研发数据闭环的工程化才是平台的真功夫——不是堆工具,是让数据干净地流动、回喂、复利。

能|不能|瓶颈

平台能把飞轮工程化;瓶颈在数据治理与闭环工程,不在单点工具。

示例 / 可视化

平台流水线架构图(5 问 × 技术栈 × 数据回流)。

误区

「平台=买齐工具」(错:核心是专有数据闭环);「小公司必须全自建」(错:自建/采购/合作组合)。

自测

① 平台的四大技术组成?② 中小 Biotech 的自建/采购/合作如何取舍?③(应用)给一家 30 人 Biotech 设计最小可行平台。

必读

TPD 平台/数据闭环工程一篇。

时长
视频 35min|阅读 40min|检查 15min |
一句话能为不同体量的组织设计一条以数据闭环为核心的发现流水线。
M6.2

IP 与竞争策略

位置

商业护城河|前置:M6.1

学习目标

  • (理解)说明分子胶的专利逻辑:组合物(composition-of-matter)与机制专利。
  • (应用)做 AI 辅助的专利地形分析与"白空间"识别;评估 FTO 风险。
学习脉络

把"科学护城河"接到"商业护城河"。讲分子胶专利的两条线:组合物专利(保护分子本身)和机制/用途专利(保护"用这个胶降这个靶")。AI 的新用法:做专利地形分析,在 可成胶靶点 × E3 × 骨架 的三维空间里识别"白空间"(还没人占的组合),指导立项往无人区走。再讲 FTO(自由实施)风险评估——别撞别人的专利。把 IP 当成和分子设计同等重要的"立项约束"。

能|不能|瓶颈

——AI 加速专利地形/白空间识别;不能——替代专业 FTO 法律判断;瓶颈——专利文本到结构的映射不完美。

示例 / 可视化

靶点 × E3 × 骨架三维白空间示意。

误区

「先做科学,IP 后补」(错:白空间应前置);「AI 地形分析=FTO 结论」(错:需法务)。

自测

① 组合物专利与机制专利各保护什么?② "白空间"在哪三个维度上找?③(应用)AI 发现某靶点 × 某 E3 是白空间但 FTO 有风险,你怎么权衡?

必读

分子胶/降解剂 IP 策略一篇。

时长
视频 30min|阅读 35min|检查 15min |
一句话能用 AI 找 IP 白空间并把 IP 当作立项约束前置考虑。
M6.3

前沿方向

位置

未来 3–5 年|前置:全课

学习目标

  • (评价)评估四个前沿:拓展 E3 空间、超越降解的胶、共价分子胶、诱导邻近的基础模型与生成式界面设计。
学习脉络

这是一张"未来地图",每个方向都讲清"为什么重要 + 现在卡在哪"。① 拓展 E3 空间:组织/肿瘤特异性 E3、可配体化 E3 的发现(拓宽治疗窗口,回扣 M1.2)。② 超越降解的胶:稳定剂、诱导功能获得、去泛素化酶胶、RNA 等非蛋白靶标(回扣 M1.3 的概念边界)。③ 共价分子胶设计(回扣 M1.2/M4.6 共价路线)。④ 最激动人心的——诱导邻近的基础模型(foundation model)与生成式界面设计:同时设计蛋白与胶、端到端造出 neo-PPI。诚实收尾:这些都还早,且全都撞在同一堵墙上——数据(回扣全课暗线)。

能|不能|瓶颈

前沿的共同瓶颈仍是数据与新型体系的泛化(回扣 M0.4/M3.1)。

示例 / 可视化

四方向"未来地图",每个标注成熟度与瓶颈。

误区

「foundation model 快来了就解决一切」(错:仍受数据限)。

自测

① 四个前沿方向各自的价值与瓶颈?② 为什么它们大多仍卡在数据?③(应用)你最看好哪个方向,给一个能在 2 年内验证的小切口。

必读

诱导邻近 foundation model / 生成式界面设计一篇;共价胶一篇。

时长
视频 35min|阅读 40min|检查 15min |
一句话能评估分子胶 AI 的主要前沿方向并判断其成熟度与瓶颈。
M6.4

批判性思维与陷阱(收尾的"免疫系统")

位置

全课收口|前置:M2.5、M0.4、全课

学习目标

  • (评价)用一份失败模式清单批判性地读论文/宣传/benchmark。
  • (评价)拆解"AI 设计的药物"营销话术。
学习脉络

这是全课的"免疫系统",把 M0.4 的立场和 M2.5 的方法论收成一套可随身携带的批判工具箱。你会拿到一份"常见失败模式清单":随机切分骗人(M2.5)、置信度≠正确(M2.3)、招募≠降解(M1.1)、打分高≠可降解(M4.1)、建模≠真相(M4.2)、SAR 可外推的错觉(M4.3)、细胞选择性≠体内安全(M5.3)……然后做一次实战:拆一段真实的"AI 设计分子胶"宣传,逐句标注哪句是真本事、哪句是话术。最后把全课收口到一句价值观:对 AI 既不轻信也不轻蔑——既看见它真能做什么,也诚实承认它不能做什么,并永远记得数据才是护城河

能|不能|瓶颈

本模块即"如何判断 AI 能/不能"的能力总成与毕业线。

示例 / 可视化

一页"分子胶 AI 失败模式清单"(可做成随身卡);一段宣传的逐句拆解。

误区

「批判=否定 AI」(错:是校准,不是轻蔑)。

自测

① 列出 5 个本课讲过的失败模式。②(应用,综合)给一篇"AI 设计分子胶"新闻稿,写一段 200 字的批判性评估,区分真本事与水分。

必读

药物 AI 炒作批判 / benchmark 反思一篇。

时长
视频 30min|阅读 35min|检查 20min |
一句话拿到任何论文/宣传/benchmark,能用一套清单分辨含金量与水分——这是本课的毕业线。

---

附录(术语 · 阅读 · 工具 · 实操)

A. 术语表(可点击查阅的定义词条)

术语一句话教学定义
诱导邻近用一个分子强行把两个本不相遇的蛋白拉到一起以触发事件(降解/稳定/信号)。
neo-PPI自然界本不存在、由小分子诱导出来的蛋白—蛋白界面。
协同性 α三元复合物形成相对两两二元结合被增强(α>1)或削弱(α<1)的倍数;分子胶活性的核心来源。
降解子(degron)蛋白上能被 E3/降解机器识别的结构/序列标记。
G-loop含甘氨酸的 β-发夹(或螺旋)loop,是 CRBN 识别 neosubstrate 的主要"语法"。
表面模拟非经典降解子通过整体表面互补(而非经典 G-loop)接触 E3 的识别方式(如 VAV1)。
共折叠(co-folding)把蛋白+小分子+蛋白等多组分一起预测出三维结构的模型范式(如 AF3)。
CRBN / CRL4分子胶主战场 E3:Cullin4-RING 连接酶 + DDB1 + CRBN 底物受体。
IMiD / CELMoDCRBN 调节剂:第一代(thalidomide/lenalidomide/pomalidomide)与下一代(mezigdomide/iberdomide/golcadomide)。
DCAFCRL4 的底物受体家族;非 CRBN 分子胶的重要资源(DCAF15/16/11 等)。
DC50 / Dmax降解一半所需浓度 / 最大降解程度;Q4 的核心功能指标。
hook 效应高浓度下竞争性二元复合物增多、降解反而下降的钟形曲线现象。
催化型降解一个降解剂分子可循环驱动多份靶蛋白被清除(亚化学计量、事件驱动)。
可成胶基因组全蛋白组中"长得像可被粘"的那部分蛋白集合。
数据飞轮实验→数据→更好的模型→更聪明的实验的复利闭环;分子胶 AI 真正的护城河。
time-split按时间划分训练/测试集以模拟"用过去预测未来"、避免数据泄漏的基准方法。
建库提示:每个词条下挂"出现在哪些模块 + 1 张图 + 1 篇必读",形成可点击的活资产。

B. 必读清单(每模块 1–3 篇,持续更新)

按篇组织,核心锚点文献(讲义里按模块细分):

  • 结构预测/共折叠基准:AlphaFold3 原始论文;MGBench co-folding 基准(J Chem Inf Model, 2026)。
  • CRBN 靶点空间与 G-loop 规则:QuEEN(Science, 2025);CK1α–lenalidomide–CRBN 结构(PDB 5FQD)。
  • 非 CRBN / DCAF 体系:DCAF15–indisulam–RBM39;DCAF16/11 共价胶综述。
  • 非经典降解子:VAV1 表面模拟;mTOR 甘氨酸 HLH motif。
  • 临床里程碑:IMiD→CELMoD(mezigdomide SUCCESSOR-2 III 期阳性 2026、iberdomide NDA、golcadomide GOLSEEK)。
  • ML 方法论:药物发现 time-split / 数据泄漏陷阱一篇。

C. 工具索引(按 5 问归类的"工具雷达":开源/商用 · 输入输出 · 能力边界)

  • Q1 表面/降解子挖掘:MaSIF 类几何深度学习、G-loop 模板匹配工具、QuEEN 范式(专有)。
  • Q2 共折叠/三元建模:AF3、Boltz-1/2、Chai-1、Protenix、RoseTTAFold-All-Atom;GlueFold/FKSFold 类引导扩散;MD/对接精修。
  • Q3 生成/对接/FEP:de novo 生成器、DEL+ML 流程、片段生长、FEP(结合自由能)。
  • Q4 性质/选择性预测:全蛋白组脱靶预测、bRo5 ADMET/DMPK、三元感知性质模型。
  • Q5 主动学习/自动化:贝叶斯优化/主动学习库、自驱动实验室平台。
维护提示:季度复核每项的能力边界与版本(见 v2.0 §9 活课程机制)。

D. 实操实验包(动手做,云端零本地 GPU)

实验对应模块学员产出必/选
跑一个已知 MG 三元复合物对照真实结构,亲眼看 33%M4.2置信度解读 + "为什么我半信半疑"必做(震撼时刻)
用 G-loop 模板在一个蛋白家族做可成胶性打分M4.1候选排序表 + 三轴交叉理由必做
用全局蛋白组数据做脱靶降解选择性分析M4.4选择性风险评估 + 去/留判断必做
用生成模型对一个 E3 口袋生成苗头并讨论可合成性M4.3候选 + 可合成性讨论选做
这四个实验即 Capstone(v2.0 §5) 的脚手架——学员把它们串起来跑一个真实靶点,产出《分子胶立项判断报告》。

---