开始之前
这是一份可以「自己读着学」的网站,不是大纲。五个模块按学习顺序排列,每课包含:学习目标 → 完整讲解(配图)→ 能|不能|瓶颈 → 误区 → 随堂检查 → 必读。
本篇是全课 最大的差异化 所在。市面上大量「AI 制药」叙事把焦点放在更大的模型与更多的算力上,而分子胶(molecular glue)这一方向真正的护城河,是 窄而深、自己产生、可复利 的实验数据。
学完本篇,你应当能向任何人讲清一件反直觉的事:为什么「换一个更大的模型」解决不了分子胶的核心问题。M3.1 先把「数据天花板」立住,M3.2–M3.5 则一路回答同一个问题——那,怎么造数据?
为什么分子胶 AI 是「数据饥饿」的
一句话:分子胶 AI 的天花板是数据,不是模型。
学习目标
- 分析量化结构数据的稀缺(PDB 非共价 MG 三元复合物约 200 个量级)与历史数据的零散性。
- 评价解释「负样本几乎不存在」如何直接压低 Q1–Q3 所有模型的天花板。
先用一个对比把问题震出来。训练一个像样的视觉模型,手里有上百万张标注图片(ImageNet 约 1400 万张);而全世界已经解析出的 非共价分子胶三元复合物结构,只有约 200 个(MG-PDB 收录 221 条)。这之间差了 四到六个数量级。这不是「数据少一点」,是「几乎没有数据」。
●更致命的:负样本黑洞
比「正样本少」更要命的,是 负样本几乎不存在。科学界几乎只发表成功——没有人会写一篇论文说「我测了这个分子,它没粘住 / 没降解」。于是模型只见过「成功案例」,从没见过「失败案例」。
而判别 / 分类模型恰恰需要正反例才能学出「行 / 不行」的决策边界。只有正例,模型学不会拒绝,假阳性会很高。结果是:Q1(成胶可行性)、Q2(三元 / 结构预测)、Q3(降解活性)这些判别与排序任务的天花板,都被这条「没有反例」直接压死。
●第三宗罪:零散、偶然、口径不一
仅有的历史数据还 零散、偶然、口径不一:不同实验室的测法、单位、阈值都不一样,直接合并训练会引入噪声和系统偏差。三件事叠加——正样本少、负样本缺、口径乱——共同把模型的上限钉死。
●顺理成章的结论
所以这 不是「换个更大模型」能解决的问题,而是数据问题——数据是上限,不是模型。这正是为什么 M0.4 里结构预测的约 33% 准确率上不去;也是为什么第三篇是全课的胜负手。把「数据天花板」这个概念立住,后面四个模块都在回答同一件事:那怎么造数据。
随堂检查 · 先想再展开
Q1为什么负样本缺失对分子胶建模特别致命?
Q2约 200 量级的结构数据,如何具体限制 Q2(三元 / 结构预测)建模?
Q3(应用)若只能补一类数据来突破天花板,你补正样本结构、还是负样本活性数据?为什么?
公共数据资源地图
一句话:能挑剔地评估并选用公共数据集,识别它的偏倚与坑。
学习目标
- 理解说出主要公共资源:结构库、分子胶 / 降解剂专库、降解子与泛素组学库。
- 评价评估一个公共数据集的质量、偏倚与可用性。
这一课给你一本「去哪找数据」的地图册,但重点 不是罗列网址,而是教你怎么挑剔地用。我们逐类过一遍,并对每一类追问同样三件事。
●三问框架:拿到任何一个库都问
① 质量——是实测还是预测?② 偏倚——集中在哪类靶点 / 哪种 E3?③ 可用性——许可、格式、能不能直接喂模型?这三问是本课要带走的核心方法,换成任何新库流程都一样。
●最强的坑:E3 偏倚
公开数据有 强烈偏倚:高度集中在少数 E3 连接酶(CRBN 占大头,14-3-3 次之)。在这种数据上训练,模型很容易「偏科」——只懂 CRBN,一换连接酶就废。换句话说,它学到的「什么蛋白可成胶」,本质是「什么蛋白能被 CRBN 成胶」。
小结:公共数据 能起步、能做基准;但偏倚重、负样本无、量级小,靠它做不出护城河——这就引出 M3.3 / M3.4 的自有数据。
随堂检查 · 先想再展开
Q1为什么做基准更适合用 MGBench,而不是随便切 PDB?
Q2评估一个公共数据集要问哪三件事?
Q3(应用)你发现某库 90% 数据是 CRBN,用它训练会有什么风险?
喂养模型的实验数据:每种数据如何变成训练信号
一句话:看到任一湿实验,能说出它该监督哪个任务、怎么转成标签。
学习目标
- 应用说明全局定量蛋白组质谱为何是 MoA 与选择性 / 脱靶的金标准训练信号。
- 理解说明 DEL、细胞降解、生物物理等各自产出什么信号。
- 应用建立「把湿实验产物映射成模型可学标签」的思维方式。
本课的核心技能是 「翻译」——把实验台上的产物,翻成模型能吃的标签。
●主菜:全局定量蛋白组质谱
一次实验测量全细胞蛋白丰度变化,直接读出「这个胶降了哪些蛋白、降了多少」。它既是 作用机制(MoA)的金标准,也是 选择性与脱靶的天然训练信号(常配 TurboID 邻近标记、dTAG 系统做靶点验证)。下面这张火山图就是一个降解剂的降解谱:目标蛋白被强烈下调,同时也暴露出几个脱靶。
●把每种实验「翻译」成标签
对每一条数据,都做一次「翻译练习」,反复问同一个问题:这条数据,能监督模型的哪个预测任务?
| 实验 / 数据源 | 产出信号 | 翻译成的模型任务 / 标签 |
|---|---|---|
| 全局定量蛋白组质谱 | 全蛋白丰度变化 | → 选择性 / 脱靶、降解谱(裁判级标签) |
| DEL 筛选 | 结合 / 富集读数 | → 海量结合 / 富集标签 |
| 细胞降解(HiBiT 实时 / WB / 流式) | 降解曲线 | → DC50 / Dmax 功能标签 |
| SPR / ITC | 亲和力与热力学 | → 结合强度 / 热力学标签 |
| TR-FRET | 三元复合物形成 | → 三元形成标签 |
| 天然质谱 / HDX | 复合物 / 结合界面 | → 复合物组成 / 界面标签 |
这张「实验 → 信号 → 模型任务」映射表是全课高频引用的工具——把湿实验和 AI 接起来的思维,就浓缩在这里。
随堂检查 · 先想再展开
Q1为什么全局蛋白组是选择性的「裁判级」信号?
Q2把 HiBiT 降解曲线翻成什么标签?
Q3(应用)你想训练一个脱靶降解预测器,优先要哪类实验数据,如何转成标签?
构建专有数据引擎(QuEEN 范式拆解)
一句话:能拆解一个数据飞轮,并为不同体量的公司设计数据策略。
学习目标
- 分析拆解 Monte Rosa QuEEN 如何整合内部蛋白组 + 结构生物学 + 几何深度学习 + 多样化学库,做全蛋白组 CRBN 靶点空间挖掘。
- 评价说明数据治理(策展、本体、FAIR)与数据飞轮如何形成复利。
- 评价讨论中小 Biotech 如何在数据上「以小博大」。
这是第三篇的高潮,也是全课暗线的兑现——赢家是有数据飞轮的人。我们以 QuEEN(Science 2025 封面)为活案例拆解。
●四个齿轮如何咬合
●抽象出「飞轮」原理
把案例抽象成可复用的闭环:实验 → 数据 → 更好的模型 → 更聪明的下一批实验 → 更多更好的数据,复利滚动、越跑越快。关键在于:外人没有你的内部数据,就追不上。
●飞轮能转,靠数据治理
飞轮能转起来的前提是 数据治理:策展(curation)、本体统一(ontology)、FAIR 原则(可发现 / 可访问 / 可互操作 / 可复用)。没有治理,数据越多越乱。
●中小 Biotech 的「以小博大」
给资源有限的团队一个打法:不拼数据量,拼某一类靶点 / E3 上的深度专有数据 + 干净治理——在窄赛道上把飞轮转起来。窄而深,照样破局。
随堂检查 · 先想再展开
Q1QuEEN 的四个组成各自贡献什么?
Q2数据飞轮为什么会形成「越跑越快」的复利?
Q3(应用)一家只有 20 人的 Biotech,给一个在某 E3 上做飞轮的最小可行方案。
多组学与系统生物学语境
一句话:能把分子胶研发放进「靶点—人群—标志物」的系统生物学语境里看。
学习目标
- 理解说明转录组 / 蛋白组如何用于靶点发现、患者分层与生物标志物。
- 理解了解耐药图谱的数据采集(为 M5.4 铺垫)。
这一课把镜头从「分子」拉远到「疾病系统」。多组学(转录组、蛋白组)在分子胶研发里有两个主要用处。
●用处一:靶点发现与验证
哪些蛋白在病里被异常依赖、降了它有没有治疗意义——多组学帮你定位候选靶点并验证。
●用处二:患者分层与生物标志物
谁会响应、用什么指标追疗效——把分子胶最终落到「病人」身上。
●耐药图谱:提前采集
提前收集耐药样本的组学数据,为 M5.4 用 AI 预判耐药铺路。本课偏「语境」:让你明白分子胶不只是化学 / 结构问题,组学是连接「分子」与「病人」两端的桥。
随堂检查 · 先想再展开
Q1多组学在分子胶研发里的两大用途?
Q2耐药图谱数据为什么要提前采集?
Q3(应用)给一个肿瘤适应症,你会用哪类组学做患者分层?
关键数字与事实速记
考试与答辩都用得上的「硬记忆点」。
实操指引2 Notebooks
纯 Python 数据栈,离线可跑、无需 GPU,在任意云端 Jupyter 一键运行。
三问框架体检 L3_M3.2_评估公共数据集.ipynb
构造一张「类 MG-PDB」元数据表 → 依次做 质量 / 偏倚 / 可用性 三问;亲手量化 CRBN 偏倚,并对比 time-split vs 随机切分 为何后者会高估模型。
把湿实验翻译成标签 L3_M3.3_蛋白组转训练标签.ipynb
构造一份降解剂全局蛋白组结果 → 质控 → BH 多重检验校正 → 打「降解 / 不降解」标签 → 区分目标 vs 脱靶 → 导出训练表;体会「蛋白组天然提供负样本」的价值与阈值 / 批次效应的坑。
术语表Glossary
- 分子胶 molecular glue
- 诱导靶蛋白与 E3 连接酶(或其他蛋白)形成三元复合物、进而促其降解或改变功能的小分子。
- 三元复合物 ternary complex
- 分子胶同时结合靶蛋白与 E3 的三方结构,是结构建模的核心对象。
- E3 连接酶 CRBN / VHL
- 负责给底物打泛素标签的酶;CRBN 是公开数据中最主导的一种。
- degron
- 蛋白上决定其被降解命运的序列 / 结构基序。
- G-loop
- QuEEN 工作中用于判断「蛋白表面是否可成胶」的关键结构特征。
- 数据飞轮 data flywheel
- 实验→专有数据→更好模型→更聪明实验的复利闭环。
- time-split 时间切分
- 按时间把早期数据作训练、后期数据作测试,模拟「用过去预测未来」,避免靶点信息泄漏。
- 负样本黑洞
- 失败 / 无效实验极少被发表,导致判别模型缺少反例的现象。
- 全局定量蛋白组质谱
- 一次测量上千蛋白的丰度变化,判断降解选择性与脱靶的金标准。
- dTAG / TurboID / 邻近标记
- 用于追踪降解与相互作用、产生高质量标签的实验技术。
- HiBiT / SPR / ITC / TR-FRET / HDX
- 分别对应降解读数、亲和力、三元形成、结合界面等不同实验信号。
- FAIR 原则
- 数据应可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)、可复用(Reusable)。
- DC50 / Dmax
- 降解效力指标——半数降解浓度 / 最大降解程度。
- MoA
- 作用机制(mechanism of action);蛋白组是判断 MoA 的金标准信号。
没有匹配的术语,换个关键词试试。
必读清单汇总
本篇五个模块的指定阅读,集中在此一览。
| 模块 | 必读 |
|---|---|
| M3.1 | MG-PDB / 数据稀缺论述(MGBench 论文相关段落) |
| M3.2 | MG-PDB / MGBench 数据说明;一篇 TPD 数据资源综述 |
| M3.3 | 定量蛋白组学测降解谱一篇;dTAG / 邻近标记一篇 |
| M3.4 | QuEEN(Science 2025);FAIR 数据原则一篇 |
| M3.5 | 多组学靶点发现 / 患者分层综述一篇 |