第三篇 · 数据层 — 学习网站

篇章导读 · How to use

开始之前

这是一份可以「自己读着学」的网站，不是大纲。五个模块按学习顺序排列，每课包含：学习目标 → 完整讲解（配图）→ 能｜不能｜瓶颈 → 误区 → 随堂检查 → 必读。

本篇是全课 最大的差异化 所在。市面上大量「AI 制药」叙事把焦点放在更大的模型与更多的算力上，而分子胶（molecular glue）这一方向真正的护城河，是 窄而深、自己产生、可复利 的实验数据。

学完本篇，你应当能向任何人讲清一件反直觉的事：为什么「换一个更大的模型」解决不了分子胶的核心问题。M3.1 先把「数据天花板」立住，M3.2–M3.5 则一路回答同一个问题——那，怎么造数据？

Module 3.1 · 视频 25min ｜阅读 30min

为什么分子胶 AI 是「数据饥饿」的

一句话：分子胶 AI 的天花板是数据，不是模型。

学习目标

分析量化结构数据的稀缺（PDB 非共价 MG 三元复合物约 200 个量级）与历史数据的零散性。
评价解释「负样本几乎不存在」如何直接压低 Q1–Q3 所有模型的天花板。

先用一个对比把问题震出来。训练一个像样的视觉模型，手里有上百万张标注图片（ImageNet 约 1400 万张）；而全世界已经解析出的 非共价分子胶三元复合物结构，只有约 200 个（MG-PDB 收录 221 条）。这之间差了 四到六个数量级。这不是「数据少一点」，是「几乎没有数据」。

**图 1**数据量级对比（对数坐标）：视觉 / 蛋白序列是百万到亿级，而分子胶三元结构只有约 200 个。

●更致命的：负样本黑洞

比「正样本少」更要命的，是 负样本几乎不存在。科学界几乎只发表成功——没有人会写一篇论文说「我测了这个分子，它没粘住 / 没降解」。于是模型只见过「成功案例」，从没见过「失败案例」。

而判别 / 分类模型恰恰需要正反例才能学出「行 / 不行」的决策边界。只有正例，模型学不会拒绝，假阳性会很高。结果是：Q1（成胶可行性）、Q2（三元 / 结构预测）、Q3（降解活性）这些判别与排序任务的天花板，都被这条「没有反例」直接压死。

正负样本失衡 — **图 2**负样本黑洞：已发表的几乎都是「成功」，失败 / 无效的实验极少进入文献，判别模型因此缺少反例。

●第三宗罪：零散、偶然、口径不一

仅有的历史数据还 零散、偶然、口径不一：不同实验室的测法、单位、阈值都不一样，直接合并训练会引入噪声和系统偏差。三件事叠加——正样本少、负样本缺、口径乱——共同把模型的上限钉死。

●顺理成章的结论

所以这 不是「换个更大模型」能解决的问题，而是数据问题——数据是上限，不是模型。这正是为什么 M0.4 里结构预测的约 33% 准确率上不去；也是为什么第三篇是全课的胜负手。把「数据天花板」这个概念立住，后面四个模块都在回答同一件事：那怎么造数据。

能讲清数据稀缺为何是结构性问题

不能靠「换更大模型」绕过数据缺口

瓶颈本模块即「瓶颈」的定义本身

常见误区「数据不够就用更大模型补」（错：数据是上限，不是模型）；「公开数据已经够了」（错，且有偏）。

随堂检查 · 先想再展开

Q1为什么负样本缺失对分子胶建模特别致命？

参考判别 / 分类模型需要正负样本才能学出「行 / 不行」的边界；只有正样本，模型无法学会拒绝 → 假阳性偏高，Q1–Q3 的上限被直接压低。

Q2约 200 量级的结构数据，如何具体限制 Q2（三元 / 结构预测）建模？

参考训练样本太少 → 几何 / 界面模式覆盖不足 → 模型难以泛化到新靶点、新胶；Q2 预测可靠性低，这正是约 33% 上不去的根因之一。

Q3（应用）若只能补一类数据来突破天花板，你补正样本结构、还是负样本活性数据？为什么？

参考开放题，看论证。多数可主张「负样本活性数据」——判别边界缺失是更根本瓶颈；也可主张「正样本结构」以补几何机理。关键是讲清各自解决哪类任务。

必读MG-PDB / 数据稀缺论述（MGBench 论文相关段落）。

Module 3.2 · 视频 30min ｜阅读 35min ｜实操 30min

公共数据资源地图

一句话：能挑剔地评估并选用公共数据集，识别它的偏倚与坑。

学习目标

理解说出主要公共资源：结构库、分子胶 / 降解剂专库、降解子与泛素组学库。
评价评估一个公共数据集的质量、偏倚与可用性。

这一课给你一本「去哪找数据」的地图册，但重点 不是罗列网址，而是教你怎么挑剔地用。我们逐类过一遍，并对每一类追问同样三件事。

结构库PDB · AlphaFold DB

PDB 是 实测金标准，但 MG 三元结构极少；AlphaFold DB 是 预测，不是实测，别当真值喂模型。

质量·实测/预测分清偏倚·已知结构

分子胶 / 降解剂专库MG-PDB · MGBench · PROTAC-DB

MG-PDB + MGBench 是分子胶专用，且 MGBench 做了 time-split，适合做基准；PROTAC-DB / PROTACpedia 偏 PROTAC，作对照用。

质量·专用可用·适合基准

降解子 / 泛素组学库degron · ubiquitylome

提供「什么蛋白容易被降解」的先验，补充结构库之外的信号。

偏倚·覆盖不均可用·需清洗

●三问框架：拿到任何一个库都问

① 质量——是实测还是预测？② 偏倚——集中在哪类靶点 / 哪种 E3？③ 可用性——许可、格式、能不能直接喂模型？这三问是本课要带走的核心方法，换成任何新库流程都一样。

●最强的坑：E3 偏倚

公开数据有 强烈偏倚：高度集中在少数 E3 连接酶（CRBN 占大头，14-3-3 次之）。在这种数据上训练，模型很容易「偏科」——只懂 CRBN，一换连接酶就废。换句话说，它学到的「什么蛋白可成胶」，本质是「什么蛋白能被 CRBN 成胶」。

E3 偏倚饼图 — **图 3**公开分子胶数据的 E3 连接酶分布：CRBN 占绝大多数，盲用会让模型严重偏科。

小结：公共数据 能起步、能做基准；但偏倚重、负样本无、量级小，靠它做不出护城河——这就引出 M3.3 / M3.4 的自有数据。

能起步、做基准、判断质量与适用任务

不能靠它做出护城河、直接合并使用

瓶颈偏倚重 + 无负样本 + 量级小

常见误区「AlphaFold DB 里的结构 = 实验结构」（错：是预测）；「公开库无偏」（错：集中在少数 E3）。

随堂检查 · 先想再展开

Q1为什么做基准更适合用 MGBench，而不是随便切 PDB？

参考MGBench 是分子胶专用且做了 time-split（时间切分），能避免随机切分把同一靶点泄漏进训练/测试；随便切 PDB 会高估模型、且 PDB 非 MG 专用。

Q2评估一个公共数据集要问哪三件事？

参考质量（实测还是预测）、偏倚（集中在哪类靶点 / E3）、可用性（许可、格式、能否直接喂模型）。

Q3（应用）你发现某库 90% 数据是 CRBN，用它训练会有什么风险？

参考模型偏科，只学会「CRBN 怎么成胶」，对 VHL / 14-3-3 等其它连接酶泛化极差；评测也会被热门靶点拉高，掩盖真实泛化能力。

必读MG-PDB / MGBench 数据说明；一篇 TPD（靶向蛋白降解）数据资源综述。｜ ▶ 配套实操：评估一个公共集

Module 3.3 · 视频 35min ｜阅读 45min ｜实操 30min

喂养模型的实验数据：每种数据如何变成训练信号

一句话：看到任一湿实验，能说出它该监督哪个任务、怎么转成标签。

学习目标

应用说明全局定量蛋白组质谱为何是 MoA 与选择性 / 脱靶的金标准训练信号。
理解说明 DEL、细胞降解、生物物理等各自产出什么信号。
应用建立「把湿实验产物映射成模型可学标签」的思维方式。

本课的核心技能是 「翻译」——把实验台上的产物，翻成模型能吃的标签。

●主菜：全局定量蛋白组质谱

一次实验测量全细胞蛋白丰度变化，直接读出「这个胶降了哪些蛋白、降了多少」。它既是 作用机制（MoA）的金标准，也是 选择性与脱靶的天然训练信号（常配 TurboID 邻近标记、dTAG 系统做靶点验证）。下面这张火山图就是一个降解剂的降解谱：目标蛋白被强烈下调，同时也暴露出几个脱靶。

**图 4**一个降解剂的蛋白组火山图：横轴为丰度变化、纵轴为显著性。目标被强降，脱靶 A/B/C 同时显形——选择性一目了然。

●把每种实验「翻译」成标签

对每一条数据，都做一次「翻译练习」，反复问同一个问题：这条数据，能监督模型的哪个预测任务？

实验 / 数据源	产出信号	翻译成的模型任务 / 标签
全局定量蛋白组质谱	全蛋白丰度变化	→ 选择性 / 脱靶、降解谱（裁判级标签）
DEL 筛选	结合 / 富集读数	→ 海量结合 / 富集标签
细胞降解（HiBiT 实时 / WB / 流式）	降解曲线	→ DC50 / Dmax 功能标签
SPR / ITC	亲和力与热力学	→ 结合强度 / 热力学标签
TR-FRET	三元复合物形成	→ 三元形成标签
天然质谱 / HDX	复合物 / 结合界面	→ 复合物组成 / 界面标签

这张「实验 → 信号 → 模型任务」映射表是全课高频引用的工具——把湿实验和 AI 接起来的思维，就浓缩在这里。

能让「全蛋白组选择性」被监督学习

不能跳过翻译、直接拿原始读数训练

瓶颈蛋白组数据贵、慢、标准化差

常见误区「细胞活性数据就够训模型了」（错：缺选择性维度，需蛋白组）；「实验数据天然能喂模型」（错：要先翻成标签、去批次效应）。

随堂检查 · 先想再展开

Q1为什么全局蛋白组是选择性的「裁判级」信号？

参考它一次性给出全蛋白组的丰度变化——目标降了多少、哪些脱靶被一并降解，是选择性 / 脱靶的全局视图，并能产出真实负样本；SPR/HiBiT 多是单点读数给不了。

Q2把 HiBiT 降解曲线翻成什么标签？

参考DC50（半数降解浓度）/ Dmax（最大降解程度）等功能性降解标签。

Q3（应用）你想训练一个脱靶降解预测器，优先要哪类实验数据，如何转成标签？

参考优先全局定量蛋白组：以「目标外被显著下调的蛋白」作脱靶正样本、未变蛋白作负样本，并用阈值（log2FC + FDR）打标签、做去批次。

必读定量蛋白组学测降解谱一篇；dTAG / 邻近标记一篇。｜ ▶ 配套实操：把一份蛋白组数据转成标签

Module 3.4 · 视频 40min ｜阅读 50min ｜本篇高潮

构建专有数据引擎（QuEEN 范式拆解）

一句话：能拆解一个数据飞轮，并为不同体量的公司设计数据策略。

学习目标

分析拆解 Monte Rosa QuEEN 如何整合内部蛋白组 + 结构生物学 + 几何深度学习 + 多样化学库，做全蛋白组 CRBN 靶点空间挖掘。
评价说明数据治理（策展、本体、FAIR）与数据飞轮如何形成复利。
评价讨论中小 Biotech 如何在数据上「以小博大」。

这是第三篇的高潮，也是全课暗线的兑现——赢家是有数据飞轮的人。我们以 QuEEN（Science 2025 封面）为活案例拆解。

●四个齿轮如何咬合

四个齿轮合起来做全蛋白组挖掘；还发现了螺旋型 G-loop 与 VAV1 的表面模拟模式。

●抽象出「飞轮」原理

把案例抽象成可复用的闭环：实验 → 数据 → 更好的模型 → 更聪明的下一批实验 → 更多更好的数据，复利滚动、越跑越快。关键在于：外人没有你的内部数据，就追不上。

数据飞轮闭环（全课高频可视化）：四步首尾相接，复利滚动。

●飞轮能转，靠数据治理

飞轮能转起来的前提是 数据治理：策展（curation）、本体统一（ontology）、FAIR 原则（可发现 / 可访问 / 可互操作 / 可复用）。没有治理，数据越多越乱。

●中小 Biotech 的「以小博大」

给资源有限的团队一个打法：不拼数据量，拼某一类靶点 / E3 上的深度专有数据 + 干净治理——在窄赛道上把飞轮转起来。窄而深，照样破局。

护城河 ≠ 数据多；护城河 = 闭环 × 复利 × 专有 × 治理

能把模型推到公共数据到不了的高度

不能无前期投入就启动飞轮

瓶颈启动需重资产（湿实验+结构+治理）

常见误区「数据飞轮 = 数据多」（错：是闭环复利 + 治理 + 专有性）；「小公司没机会」（错：窄而深可破局）。

随堂检查 · 先想再展开

Q1QuEEN 的四个组成各自贡献什么？

参考内部蛋白组＝自家独有的降解谱；结构生物学＝解三元结构；几何深度学习＝学出「可成胶表面」；多样化学库＝喂各种胶分子。合起来做全蛋白组 CRBN 靶点空间挖掘。

Q2数据飞轮为什么会形成「越跑越快」的复利？

参考每一轮实验产生专有数据 → 训练出更好的模型 → 指导更聪明的下一批实验 → 又产生更多更好数据；闭环自我强化，且数据专有，外部无法追赶。

Q3（应用）一家只有 20 人的 Biotech，给一个在某 E3 上做飞轮的最小可行方案。

参考开放题。要点：锁定一种 E3 / 一类靶点；自建小而标准的蛋白组+少量结构；统一本体与 FAIR 治理；先把「实验→标签→模型→选下一批实验」的闭环跑通，再逐步加深，而非追求数据量。

必读QuEEN（Science 2025）；FAIR 数据原则一篇。

Module 3.5 · 视频 25min ｜阅读 30min

多组学与系统生物学语境

一句话：能把分子胶研发放进「靶点—人群—标志物」的系统生物学语境里看。

学习目标

理解说明转录组 / 蛋白组如何用于靶点发现、患者分层与生物标志物。
理解了解耐药图谱的数据采集（为 M5.4 铺垫）。

这一课把镜头从「分子」拉远到「疾病系统」。多组学（转录组、蛋白组）在分子胶研发里有两个主要用处。

靶点发现 → 分层 / 标志物，并提前采集耐药样本组学数据。

●用处一：靶点发现与验证

哪些蛋白在病里被异常依赖、降了它有没有治疗意义——多组学帮你定位候选靶点并验证。

●用处二：患者分层与生物标志物

谁会响应、用什么指标追疗效——把分子胶最终落到「病人」身上。

●耐药图谱：提前采集

提前收集耐药样本的组学数据，为 M5.4 用 AI 预判耐药铺路。本课偏「语境」：让你明白分子胶不只是化学 / 结构问题，组学是连接「分子」与「病人」两端的桥。

能定位靶点与人群

不能用「相关」直接断定「该降且有效」

瓶颈从相关到因果仍需功能验证

常见误区「组学相关性 = 因果靶点」（错：需功能验证，AI 在此只是优先级排序器）。

随堂检查 · 先想再展开

Q1多组学在分子胶研发里的两大用途？

参考① 靶点发现与验证；② 患者分层与生物标志物。

Q2耐药图谱数据为什么要提前采集？

参考耐药一旦出现再采集就晚了；提前收集耐药样本的组学数据，才能为后续（M5.4）用 AI 预判与应对耐药打基础。

Q3（应用）给一个肿瘤适应症，你会用哪类组学做患者分层？

参考开放题。常见：转录组（表达亚型 / 通路活性）做分层，蛋白组验证关键节点，结合突变 / 拷贝数等多组学综合定义响应人群与标志物。

必读多组学靶点发现 / 患者分层综述一篇。

速记 · Key numbers

关键数字与事实速记

考试与答辩都用得上的「硬记忆点」。

~200

全球非共价分子胶三元结构总量（MG-PDB ≈ 221）。

≈70%

CRBN 垄断：公开数据约七成集中在一种连接酶。

>1600

QuEEN 全蛋白组挖掘预测的 G-loop 相容蛋白（Science 2025）。

~33%

结构预测准确率上不去（M0.4）——根因是数据，不是模型。

∅⁻

负样本黑洞：失败实验几乎无人发表 → 缺反例。

t→

time-split：基准评测按时间切分，禁用随机切分。

MS★

蛋白组 = 主菜：选择性 / 脱靶金标准，产出正负样本。

↻

数据飞轮：实验→数据→模型→更聪明实验的复利闭环。

实操 · Notebooks

实操指引2 Notebooks

纯 Python 数据栈，离线可跑、无需 GPU，在任意云端 Jupyter 一键运行。

M3.2LAB

三问框架体检 L3_M3.2_评估公共数据集.ipynb

构造一张「类 MG-PDB」元数据表 → 依次做 质量 / 偏倚 / 可用性 三问；亲手量化 CRBN 偏倚，并对比 time-split vs 随机切分 为何后者会高估模型。

产出：偏倚图表 + 一份「体检报告」结论。

M3.3LAB

把湿实验翻译成标签 L3_M3.3_蛋白组转训练标签.ipynb

构造一份降解剂全局蛋白组结果 → 质控 → BH 多重检验校正 → 打「降解 / 不降解」标签 → 区分目标 vs 脱靶 → 导出训练表；体会「蛋白组天然提供负样本」的价值与阈值 / 批次效应的坑。

产出：火山图 + L3_M3.3_training_labels.csv 训练标签表。

运行方式：上传到 Jupyter / Colab，自上而下 Run All 即可；每个 notebook 末尾附 3 道课后练习。

参考 · Glossary

术语表Glossary

分子胶 molecular glue: 诱导靶蛋白与 E3 连接酶（或其他蛋白）形成三元复合物、进而促其降解或改变功能的小分子。
三元复合物 ternary complex: 分子胶同时结合靶蛋白与 E3 的三方结构，是结构建模的核心对象。
E3 连接酶 CRBN / VHL: 负责给底物打泛素标签的酶；CRBN 是公开数据中最主导的一种。
degron: 蛋白上决定其被降解命运的序列 / 结构基序。
G-loop: QuEEN 工作中用于判断「蛋白表面是否可成胶」的关键结构特征。
数据飞轮 data flywheel: 实验→专有数据→更好模型→更聪明实验的复利闭环。
time-split 时间切分: 按时间把早期数据作训练、后期数据作测试，模拟「用过去预测未来」，避免靶点信息泄漏。
负样本黑洞: 失败 / 无效实验极少被发表，导致判别模型缺少反例的现象。
全局定量蛋白组质谱: 一次测量上千蛋白的丰度变化，判断降解选择性与脱靶的金标准。
dTAG / TurboID / 邻近标记: 用于追踪降解与相互作用、产生高质量标签的实验技术。
HiBiT / SPR / ITC / TR-FRET / HDX: 分别对应降解读数、亲和力、三元形成、结合界面等不同实验信号。
FAIR 原则: 数据应可发现（Findable）、可访问（Accessible）、可互操作（Interoperable）、可复用（Reusable）。
DC50 / Dmax: 降解效力指标——半数降解浓度 / 最大降解程度。
MoA: 作用机制（mechanism of action）；蛋白组是判断 MoA 的金标准信号。

没有匹配的术语，换个关键词试试。

参考 · Readings

必读清单汇总

本篇五个模块的指定阅读，集中在此一览。

模块	必读
M3.1	MG-PDB / 数据稀缺论述（MGBench 论文相关段落）
M3.2	MG-PDB / MGBench 数据说明；一篇 TPD 数据资源综述
M3.3	定量蛋白组学测降解谱一篇；dTAG / 邻近标记一篇
M3.4	QuEEN（Science 2025）；FAIR 数据原则一篇
M3.5	多组学靶点发现 / 患者分层综述一篇

第三篇 · 数据层

开始之前

为什么分子胶 AI 是「数据饥饿」的

公共数据资源地图

喂养模型的实验数据：每种数据如何变成训练信号

构建专有数据引擎（QuEEN 范式拆解）

多组学与系统生物学语境

关键数字与事实速记

实操指引2 Notebooks

三问框架体检 L3_M3.2_评估公共数据集.ipynb

把湿实验翻译成标签 L3_M3.3_蛋白组转训练标签.ipynb

术语表Glossary

必读清单汇总

数据，才是护城河。