← 课程门户
AI 赋能分子胶研发 · 学习网站
第三篇 · 数据层

Lecture 03 · 在线学习网站 · M3.1 – M3.5

篇 · 数据层

—— 真正的瓶颈

本篇暗线 · 请记住这一句 分子胶 AI 的胜负手在 数据、不在模型;赢家是拥有 「数据飞轮」 的人。
5 个模块 · 完整课文视频合计约 155 min含 2 份实操 Notebook全课最大差异化
篇章导读 · How to use

开始之前

这是一份可以「自己读着学」的网站,不是大纲。五个模块按学习顺序排列,每课包含:学习目标 → 完整讲解(配图)→ 能|不能|瓶颈 → 误区 → 随堂检查 → 必读。

本篇是全课 最大的差异化 所在。市面上大量「AI 制药」叙事把焦点放在更大的模型与更多的算力上,而分子胶(molecular glue)这一方向真正的护城河,是 窄而深、自己产生、可复利 的实验数据。

学完本篇,你应当能向任何人讲清一件反直觉的事:为什么「换一个更大的模型」解决不了分子胶的核心问题。M3.1 先把「数据天花板」立住,M3.2–M3.5 则一路回答同一个问题——那,怎么造数据?

Module 3.1 · 视频 25min | 阅读 30min

为什么分子胶 AI 是「数据饥饿」的

一句话:分子胶 AI 的天花板是数据,不是模型。

学习目标

  • 分析量化结构数据的稀缺(PDB 非共价 MG 三元复合物约 200 个量级)与历史数据的零散性。
  • 评价解释「负样本几乎不存在」如何直接压低 Q1–Q3 所有模型的天花板。

先用一个对比把问题震出来。训练一个像样的视觉模型,手里有上百万张标注图片(ImageNet 约 1400 万张);而全世界已经解析出的 非共价分子胶三元复合物结构,只有约 200 个(MG-PDB 收录 221 条)。这之间差了 四到六个数量级。这不是「数据少一点」,是「几乎没有数据」。

数据量级对比
图 1数据量级对比(对数坐标):视觉 / 蛋白序列是百万到亿级,而分子胶三元结构只有约 200 个。

更致命的:负样本黑洞

比「正样本少」更要命的,是 负样本几乎不存在。科学界几乎只发表成功——没有人会写一篇论文说「我测了这个分子,它没粘住 / 没降解」。于是模型只见过「成功案例」,从没见过「失败案例」。

而判别 / 分类模型恰恰需要正反例才能学出「行 / 不行」的决策边界。只有正例,模型学不会拒绝,假阳性会很高。结果是:Q1(成胶可行性)、Q2(三元 / 结构预测)、Q3(降解活性)这些判别与排序任务的天花板,都被这条「没有反例」直接压死。

正负样本失衡
图 2负样本黑洞:已发表的几乎都是「成功」,失败 / 无效的实验极少进入文献,判别模型因此缺少反例。

第三宗罪:零散、偶然、口径不一

仅有的历史数据还 零散、偶然、口径不一:不同实验室的测法、单位、阈值都不一样,直接合并训练会引入噪声和系统偏差。三件事叠加——正样本少、负样本缺、口径乱——共同把模型的上限钉死。

顺理成章的结论

所以这 不是「换个更大模型」能解决的问题,而是数据问题——数据是上限,不是模型。这正是为什么 M0.4 里结构预测的约 33% 准确率上不去;也是为什么第三篇是全课的胜负手。把「数据天花板」这个概念立住,后面四个模块都在回答同一件事:那怎么造数据。

讲清数据稀缺为何是结构性问题
不能靠「换更大模型」绕过数据缺口
瓶颈本模块即「瓶颈」的定义本身
常见误区「数据不够就用更大模型补」(错:数据是上限,不是模型);「公开数据已经够了」(错,且有偏)。

随堂检查 · 先想再展开

Q1为什么负样本缺失对分子胶建模特别致命?
参考判别 / 分类模型需要正负样本才能学出「行 / 不行」的边界;只有正样本,模型无法学会拒绝 → 假阳性偏高,Q1–Q3 的上限被直接压低。
Q2约 200 量级的结构数据,如何具体限制 Q2(三元 / 结构预测)建模?
参考训练样本太少 → 几何 / 界面模式覆盖不足 → 模型难以泛化到新靶点、新胶;Q2 预测可靠性低,这正是约 33% 上不去的根因之一。
Q3(应用)若只能补一类数据来突破天花板,你补正样本结构、还是负样本活性数据?为什么?
参考开放题,看论证。多数可主张「负样本活性数据」——判别边界缺失是更根本瓶颈;也可主张「正样本结构」以补几何机理。关键是讲清各自解决哪类任务。
必读MG-PDB / 数据稀缺论述(MGBench 论文相关段落)。
Module 3.2 · 视频 30min | 阅读 35min | 实操 30min

公共数据资源地图

一句话:能挑剔地评估并选用公共数据集,识别它的偏倚与坑。

学习目标

  • 理解说出主要公共资源:结构库、分子胶 / 降解剂专库、降解子与泛素组学库。
  • 评价评估一个公共数据集的质量、偏倚与可用性。

这一课给你一本「去哪找数据」的地图册,但重点 不是罗列网址,而是教你怎么挑剔地用。我们逐类过一遍,并对每一类追问同样三件事。

结构库PDB · AlphaFold DB
PDB 是 实测金标准,但 MG 三元结构极少;AlphaFold DB 是 预测,不是实测,别当真值喂模型。
质量·实测/预测分清偏倚·已知结构
分子胶 / 降解剂专库MG-PDB · MGBench · PROTAC-DB
MG-PDB + MGBench 是分子胶专用,且 MGBench 做了 time-split,适合做基准;PROTAC-DB / PROTACpedia 偏 PROTAC,作对照用。
质量·专用可用·适合基准
降解子 / 泛素组学库degron · ubiquitylome
提供「什么蛋白容易被降解」的先验,补充结构库之外的信号。
偏倚·覆盖不均可用·需清洗

三问框架:拿到任何一个库都问

质量——是实测还是预测?② 偏倚——集中在哪类靶点 / 哪种 E3?③ 可用性——许可、格式、能不能直接喂模型?这三问是本课要带走的核心方法,换成任何新库流程都一样。

最强的坑:E3 偏倚

公开数据有 强烈偏倚:高度集中在少数 E3 连接酶(CRBN 占大头,14-3-3 次之)。在这种数据上训练,模型很容易「偏科」——只懂 CRBN,一换连接酶就废。换句话说,它学到的「什么蛋白可成胶」,本质是「什么蛋白能被 CRBN 成胶」。

E3 偏倚饼图
图 3公开分子胶数据的 E3 连接酶分布:CRBN 占绝大多数,盲用会让模型严重偏科。

小结:公共数据 能起步、能做基准;但偏倚重、负样本无、量级小,靠它做不出护城河——这就引出 M3.3 / M3.4 的自有数据。

起步、做基准、判断质量与适用任务
不能靠它做出护城河、直接合并使用
瓶颈偏倚重 + 无负样本 + 量级小
常见误区「AlphaFold DB 里的结构 = 实验结构」(错:是预测);「公开库无偏」(错:集中在少数 E3)。

随堂检查 · 先想再展开

Q1为什么做基准更适合用 MGBench,而不是随便切 PDB?
参考MGBench 是分子胶专用且做了 time-split(时间切分),能避免随机切分把同一靶点泄漏进训练/测试;随便切 PDB 会高估模型、且 PDB 非 MG 专用。
Q2评估一个公共数据集要问哪三件事?
参考质量(实测还是预测)、偏倚(集中在哪类靶点 / E3)、可用性(许可、格式、能否直接喂模型)。
Q3(应用)你发现某库 90% 数据是 CRBN,用它训练会有什么风险?
参考模型偏科,只学会「CRBN 怎么成胶」,对 VHL / 14-3-3 等其它连接酶泛化极差;评测也会被热门靶点拉高,掩盖真实泛化能力。
必读MG-PDB / MGBench 数据说明;一篇 TPD(靶向蛋白降解)数据资源综述。 | ▶ 配套实操:评估一个公共集
Module 3.3 · 视频 35min | 阅读 45min | 实操 30min

喂养模型的实验数据:每种数据如何变成训练信号

一句话:看到任一湿实验,能说出它该监督哪个任务、怎么转成标签。

学习目标

  • 应用说明全局定量蛋白组质谱为何是 MoA 与选择性 / 脱靶的金标准训练信号。
  • 理解说明 DEL、细胞降解、生物物理等各自产出什么信号。
  • 应用建立「把湿实验产物映射成模型可学标签」的思维方式。

本课的核心技能是 「翻译」——把实验台上的产物,翻成模型能吃的标签。

主菜:全局定量蛋白组质谱

一次实验测量全细胞蛋白丰度变化,直接读出「这个胶降了哪些蛋白、降了多少」。它既是 作用机制(MoA)的金标准,也是 选择性与脱靶的天然训练信号(常配 TurboID 邻近标记、dTAG 系统做靶点验证)。下面这张火山图就是一个降解剂的降解谱:目标蛋白被强烈下调,同时也暴露出几个脱靶。

蛋白组火山图
图 4一个降解剂的蛋白组火山图:横轴为丰度变化、纵轴为显著性。目标被强降,脱靶 A/B/C 同时显形——选择性一目了然。

把每种实验「翻译」成标签

对每一条数据,都做一次「翻译练习」,反复问同一个问题:这条数据,能监督模型的哪个预测任务?

实验 / 数据源产出信号翻译成的模型任务 / 标签
全局定量蛋白组质谱全蛋白丰度变化 选择性 / 脱靶、降解谱(裁判级标签)
DEL 筛选结合 / 富集读数 海量结合 / 富集标签
细胞降解(HiBiT 实时 / WB / 流式)降解曲线 DC50 / Dmax 功能标签
SPR / ITC亲和力与热力学 结合强度 / 热力学标签
TR-FRET三元复合物形成 三元形成标签
天然质谱 / HDX复合物 / 结合界面 复合物组成 / 界面标签

这张「实验 → 信号 → 模型任务」映射表是全课高频引用的工具——把湿实验和 AI 接起来的思维,就浓缩在这里。

让「全蛋白组选择性」被监督学习
不能跳过翻译、直接拿原始读数训练
瓶颈蛋白组数据贵、慢、标准化差
常见误区「细胞活性数据就够训模型了」(错:缺选择性维度,需蛋白组);「实验数据天然能喂模型」(错:要先翻成标签、去批次效应)。

随堂检查 · 先想再展开

Q1为什么全局蛋白组是选择性的「裁判级」信号?
参考它一次性给出全蛋白组的丰度变化——目标降了多少、哪些脱靶被一并降解,是选择性 / 脱靶的全局视图,并能产出真实负样本;SPR/HiBiT 多是单点读数给不了。
Q2把 HiBiT 降解曲线翻成什么标签?
参考DC50(半数降解浓度)/ Dmax(最大降解程度)等功能性降解标签。
Q3(应用)你想训练一个脱靶降解预测器,优先要哪类实验数据,如何转成标签?
参考优先全局定量蛋白组:以「目标外被显著下调的蛋白」作脱靶正样本、未变蛋白作负样本,并用阈值(log2FC + FDR)打标签、做去批次。
必读定量蛋白组学测降解谱一篇;dTAG / 邻近标记一篇。 | ▶ 配套实操:把一份蛋白组数据转成标签
Module 3.4 · 视频 40min | 阅读 50min | 本篇高潮

构建专有数据引擎(QuEEN 范式拆解)

一句话:能拆解一个数据飞轮,并为不同体量的公司设计数据策略。

学习目标

  • 分析拆解 Monte Rosa QuEEN 如何整合内部蛋白组 + 结构生物学 + 几何深度学习 + 多样化学库,做全蛋白组 CRBN 靶点空间挖掘。
  • 评价说明数据治理(策展、本体、FAIR)与数据飞轮如何形成复利。
  • 评价讨论中小 Biotech 如何在数据上「以小博大」。

这是第三篇的高潮,也是全课暗线的兑现——赢家是有数据飞轮的人。我们以 QuEEN(Science 2025 封面)为活案例拆解。

四个齿轮如何咬合

内部蛋白组 + 结构生物学 + 几何深度学习 + 多样化学库 自家降解谱(独有) 解三元结构 学「可成胶表面」 喂各种胶分子 = 全蛋白组 CRBN 靶点空间挖掘 → 预测出 >1600 个 G-loop 相容蛋白
四个齿轮合起来做全蛋白组挖掘;还发现了螺旋型 G-loop 与 VAV1 的表面模拟模式。

抽象出「飞轮」原理

把案例抽象成可复用的闭环:实验 → 数据 → 更好的模型 → 更聪明的下一批实验 → 更多更好的数据,复利滚动、越跑越快。关键在于:外人没有你的内部数据,就追不上

复利闭环 越跑越快 ①做实验 ②专有数据 ③更好的模型 ④更聪明的实验 外人没有你的内部数据,就追不上。
数据飞轮闭环(全课高频可视化):四步首尾相接,复利滚动。

飞轮能转,靠数据治理

飞轮能转起来的前提是 数据治理:策展(curation)、本体统一(ontology)、FAIR 原则(可发现 / 可访问 / 可互操作 / 可复用)。没有治理,数据越多越乱。

中小 Biotech 的「以小博大」

给资源有限的团队一个打法:不拼数据量,拼某一类靶点 / E3 上的深度专有数据 + 干净治理——在窄赛道上把飞轮转起来。窄而深,照样破局。

护城河 ≠ 数据多;护城河 = 闭环 × 复利 × 专有 × 治理
把模型推到公共数据到不了的高度
不能无前期投入就启动飞轮
瓶颈启动需重资产(湿实验+结构+治理)
常见误区「数据飞轮 = 数据多」(错:是闭环复利 + 治理 + 专有性);「小公司没机会」(错:窄而深可破局)。

随堂检查 · 先想再展开

Q1QuEEN 的四个组成各自贡献什么?
参考内部蛋白组=自家独有的降解谱;结构生物学=解三元结构;几何深度学习=学出「可成胶表面」;多样化学库=喂各种胶分子。合起来做全蛋白组 CRBN 靶点空间挖掘。
Q2数据飞轮为什么会形成「越跑越快」的复利?
参考每一轮实验产生专有数据 → 训练出更好的模型 → 指导更聪明的下一批实验 → 又产生更多更好数据;闭环自我强化,且数据专有,外部无法追赶。
Q3(应用)一家只有 20 人的 Biotech,给一个在某 E3 上做飞轮的最小可行方案。
参考开放题。要点:锁定一种 E3 / 一类靶点;自建小而标准的蛋白组+少量结构;统一本体与 FAIR 治理;先把「实验→标签→模型→选下一批实验」的闭环跑通,再逐步加深,而非追求数据量。
必读QuEEN(Science 2025);FAIR 数据原则一篇。
Module 3.5 · 视频 25min | 阅读 30min

多组学与系统生物学语境

一句话:能把分子胶研发放进「靶点—人群—标志物」的系统生物学语境里看。

学习目标

  • 理解说明转录组 / 蛋白组如何用于靶点发现、患者分层与生物标志物。
  • 理解了解耐药图谱的数据采集(为 M5.4 铺垫)。

这一课把镜头从「分子」拉远到「疾病系统」。多组学(转录组、蛋白组)在分子胶研发里有两个主要用处。

多组学数据转录组 · 蛋白组 ① 靶点发现与验证异常依赖?降它有意义吗 ② 患者分层与标志物谁会响应 · 用什么追疗效 耐药图谱提前采集 → 铺垫 M5.4
靶点发现 → 分层 / 标志物,并提前采集耐药样本组学数据。

用处一:靶点发现与验证

哪些蛋白在病里被异常依赖、降了它有没有治疗意义——多组学帮你定位候选靶点并验证。

用处二:患者分层与生物标志物

谁会响应、用什么指标追疗效——把分子胶最终落到「病人」身上。

耐药图谱:提前采集

提前收集耐药样本的组学数据,为 M5.4 用 AI 预判耐药铺路。本课偏「语境」:让你明白分子胶不只是化学 / 结构问题,组学是连接「分子」与「病人」两端的桥。

定位靶点与人群
不能用「相关」直接断定「该降且有效」
瓶颈从相关到因果仍需功能验证
常见误区「组学相关性 = 因果靶点」(错:需功能验证,AI 在此只是优先级排序器)。

随堂检查 · 先想再展开

Q1多组学在分子胶研发里的两大用途?
参考① 靶点发现与验证;② 患者分层与生物标志物。
Q2耐药图谱数据为什么要提前采集?
参考耐药一旦出现再采集就晚了;提前收集耐药样本的组学数据,才能为后续(M5.4)用 AI 预判与应对耐药打基础。
Q3(应用)给一个肿瘤适应症,你会用哪类组学做患者分层?
参考开放题。常见:转录组(表达亚型 / 通路活性)做分层,蛋白组验证关键节点,结合突变 / 拷贝数等多组学综合定义响应人群与标志物。
必读多组学靶点发现 / 患者分层综述一篇。
速记 · Key numbers

关键数字与事实速记

考试与答辩都用得上的「硬记忆点」。

~200
全球非共价分子胶三元结构总量(MG-PDB ≈ 221)。
≈70%
CRBN 垄断:公开数据约七成集中在一种连接酶。
>1600
QuEEN 全蛋白组挖掘预测的 G-loop 相容蛋白(Science 2025)。
~33%
结构预测准确率上不去(M0.4)——根因是数据,不是模型。
∅⁻
负样本黑洞:失败实验几乎无人发表 → 缺反例。
t→
time-split:基准评测按时间切分,禁用随机切分。
MS★
蛋白组 = 主菜:选择性 / 脱靶金标准,产出正负样本。
数据飞轮:实验→数据→模型→更聪明实验的复利闭环。
实操 · Notebooks

实操指引2 Notebooks

纯 Python 数据栈,离线可跑、无需 GPU,在任意云端 Jupyter 一键运行。

M3.2LAB

三问框架体检  L3_M3.2_评估公共数据集.ipynb

构造一张「类 MG-PDB」元数据表 → 依次做 质量 / 偏倚 / 可用性 三问;亲手量化 CRBN 偏倚,并对比 time-split vs 随机切分 为何后者会高估模型。

产出:偏倚图表 + 一份「体检报告」结论。
M3.3LAB

把湿实验翻译成标签  L3_M3.3_蛋白组转训练标签.ipynb

构造一份降解剂全局蛋白组结果 → 质控 → BH 多重检验校正 → 打「降解 / 不降解」标签 → 区分目标 vs 脱靶 → 导出训练表;体会「蛋白组天然提供负样本」的价值与阈值 / 批次效应的坑。

产出:火山图 + L3_M3.3_training_labels.csv 训练标签表。
运行方式:上传到 Jupyter / Colab,自上而下 Run All 即可;每个 notebook 末尾附 3 道课后练习。
参考 · Glossary

术语表Glossary

分子胶 molecular glue
诱导靶蛋白与 E3 连接酶(或其他蛋白)形成三元复合物、进而促其降解或改变功能的小分子。
三元复合物 ternary complex
分子胶同时结合靶蛋白与 E3 的三方结构,是结构建模的核心对象。
E3 连接酶 CRBN / VHL
负责给底物打泛素标签的酶;CRBN 是公开数据中最主导的一种。
degron
蛋白上决定其被降解命运的序列 / 结构基序。
G-loop
QuEEN 工作中用于判断「蛋白表面是否可成胶」的关键结构特征。
数据飞轮 data flywheel
实验→专有数据→更好模型→更聪明实验的复利闭环。
time-split 时间切分
按时间把早期数据作训练、后期数据作测试,模拟「用过去预测未来」,避免靶点信息泄漏。
负样本黑洞
失败 / 无效实验极少被发表,导致判别模型缺少反例的现象。
全局定量蛋白组质谱
一次测量上千蛋白的丰度变化,判断降解选择性与脱靶的金标准。
dTAG / TurboID / 邻近标记
用于追踪降解与相互作用、产生高质量标签的实验技术。
HiBiT / SPR / ITC / TR-FRET / HDX
分别对应降解读数、亲和力、三元形成、结合界面等不同实验信号。
FAIR 原则
数据应可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)、可复用(Reusable)。
DC50 / Dmax
降解效力指标——半数降解浓度 / 最大降解程度。
MoA
作用机制(mechanism of action);蛋白组是判断 MoA 的金标准信号。

没有匹配的术语,换个关键词试试。

参考 · Readings

必读清单汇总

本篇五个模块的指定阅读,集中在此一览。

模块必读
M3.1MG-PDB / 数据稀缺论述(MGBench 论文相关段落)
M3.2MG-PDB / MGBench 数据说明;一篇 TPD 数据资源综述
M3.3定量蛋白组学测降解谱一篇;dTAG / 邻近标记一篇
M3.4QuEEN(Science 2025);FAIR 数据原则一篇
M3.5多组学靶点发现 / 患者分层综述一篇

模型会迭代、算力会变便宜,但自己产生的、窄而深的、能复利的数据最难被复制。

数据,才是护城河

AI 赋能分子胶研发 · 第三篇 数据层 · 学习网站