Capstone · 全课收束 · 把 5 问串成一次真实判断

毕业项目:写一份分子胶立项判断报告

这门课的全部知识,最后要落到一件事上:拿一个真实靶点,沿五问从头跑一遍,产出一份你敢签字的《分子胶立项判断报告》——它不预测"一定成",而是诚实地告诉决策者:这个靶点值不值得立项、风险在哪、AI 在每一步到底帮上了多少忙。

5
串成一条主线
~10h
建议投入
1
可签字的报告
0
本地 GPU(云端跑)

为什么是"判断报告",不是"设计出一个胶"

回扣导论三律令 · 诚实优先于炒作

整门课从导论起就把丑话说在前面:今天没有人能"一键设计出一个分子胶"。所以你的毕业项目不会以"我设计出了一个能成药的分子"收尾——那既不诚实,也不是真实工业界要的东西。真实场景里,一个团队要做的判断是:面对一个候选靶点,到底该不该把钱、人和时间投进去?这份报告就是回答这个问题。

它的价值,正是这门课反复打磨的那样东西——判断力。你要沿五问把这个靶点走一遍,每一步都做两件事:① 用 AI / 计算工具产出一个最好的当前估计;② 诚实标注这个估计有多可信、AI 在这里是真有杠杆还是在讲故事。

立场 一份好的判断报告,敢写"不建议立项"或"证据不足、需先补湿实验"。能诚实给出否定结论,和能给出肯定结论一样有价值——这正是 M6.4"批判性思维"想在你身上装的免疫系统。
↻ 这个项目用到全课哪些模块

导论:五问框架、α 协同直觉、反炒作判据——整份报告的骨架与立场。

第一篇:UPS / E3 版图、neo-substrate 语法——判断"这个靶点结构上接不接得住胶"。

第二篇:表示方法、共折叠模型、生成式设计、ML 思维(尤其 time-split 与不确定性)。

第三篇:数据从哪来、为什么稀缺——决定你每个预测的天花板。

第四篇(主战场):Q1–Q5 的方法与失败模式,本项目逐问对应。

第五篇:实验验证级联、体内转化、选择性去风险——报告里"下一步该做什么实验"的依据。

第六篇:平台/IP/批判工具箱——报告的战略与 FTO 视角。

交付什么:报告的结构

一份文档 · 6 个部分 · 每个结论都带"置信度"
完成本项目,你将能够
分析把一个真实靶点拆进五问,逐问选定合适的 AI / 计算工具并跑出结果。
评价对每一步的预测诚实标注置信度,指出 AI 在哪里有真实杠杆、哪里只是"好看的数字"。
评价综合证据给出一个可辩护的立项结论(建议立项 / 暂缓补数据 / 不建议),并写清理由与最大风险。
应用为通过判断的候选,列出最该先做的 2–3 个湿实验,说明每个实验要证伪什么假设。

报告本身建议控制在 8–15 页(不含附录),结构如下。每一节的核心都不是"我跑了什么",而是"我据此得出什么判断、可信度多少"。

  1. 执行摘要(1 页)。一句话结论 + 三条关键理由 + 一句最大风险。让决策者只读这一页也能拍板。
  2. 靶点与疾病论证(Q1 的一半)。这个蛋白与什么疾病相关、降解它为什么有治疗意义、为什么"不可成药"使它适合做胶。
  3. 可成胶性与五问全流程(Q1–Q5)。本报告主体,逐问展开(见下一节)。
  4. 诚实置信度小结。把每问的"该信几分"汇成一张表,标出整条链上最弱的一环。
  5. 立项结论与风险。建议 / 暂缓 / 否定,三选一并写明依据;列出 top 3 风险。
  6. 实验路线图(接第五篇)。若建议推进,先做哪 2–3 个实验、各要证伪什么、预期读出。

沿五问跑一遍

每一问 = 一个计算任务 + 一次诚实判断

下面把五问翻译成你在毕业项目里要逐一完成的五个阶段。每个阶段都给出"做什么""用什么工具""交付物""最该警惕什么"。这正是第四篇 M4.1–M4.5 的实操串联,M4.6 的端到端复盘就是它的样板。

Q1选靶:什么能被粘?对应 M4.1 · 用到 M1.4 / M3.4

从一个你选定的靶点出发(或从一个家族里挑),用可成胶性打分 + 三轴交叉(可成胶性 × 疾病生物学 × E3 相容性)论证它进入候选的理由。两条挖掘路线——G-loop 结构模板匹配、surface matchmaking——至少说清你依据哪一条、为什么。

交付:一段可成胶性论证 + 三轴打分小表;明确标注"预测 = 可能性 ≠ 验证",并指出若靶点是非经典降解子,这一步的预测最弱。
Q2三元复合物:粘起来长什么样?对应 M4.2 · 用到 M1.3 / M2.3

用共折叠模型(AF3 / Boltz / Chai 等)把"靶 + E3 + 候选胶"折成三元结构,读界面、估埋藏面积与协同/ΔΔG,必要时 MD 精修。这是全项目最考验诚实的一步:你必须读懂 PAE / ipTM 信号,并牢记 AF3 在分子胶界面上的恢复率只有约三成、且很大程度是"记忆而非泛化"。

交付:三元结构图 + 置信度读数 + 一句判断"这次该信还是该弃",并说明理由(界面大小、是否诱导成型口袋、E3 是否新型)。
Q3分子设计:用什么分子去粘?对应 M4.3 · 用到 M2.4

围绕选定的 E3 口袋 / 界面,用生成式或类似物扩展给出若干候选骨架,并讨论可合成性。重点不在"生成得多炫",而在你能否对生成结果做可合成性与协同潜力的筛选

交付:2–3 个候选骨架草图 + 可合成性/成药性初判;指出生成模型最容易给出"画得出却做不出"分子的地方。
Q4功能与选择性:会降解吗?能成药吗?对应 M4.4 · 用到 M5.1 / M5.3

预测降解功能与脱靶选择性,并明确指出预测的终审一定是全局蛋白组学,不是任何打分。打分高 ≠ 可降解;这一步你要把"可计算的部分"和"必须靠湿实验裁决的部分"清楚分开。

交付:功能/选择性的计算初判 + 一句话"哪些结论只能由蛋白组学等湿实验定"。
Q5闭环:怎么迭代下去?对应 M4.5 · 用到 M3.4 / M6.1

说明若推进,你会怎么设计 DMTA 闭环:哪一轮湿实验数据回喂哪个模型、如何让数据"干净地流动、复利地回喂"。这一步把项目从"一次预测"升级成"一条会越跑越准的飞轮"——也呼应第六篇平台护城河的核心。

交付:一张简单的 DMTA 闭环示意 + 一句"我的专有数据飞轮押在哪个窄赛道上"。

诚实层:给每一步的 AI 作用打分

本项目的灵魂 · 区分"真本事 / 半真 / 话术"

这是把你和"只会跑模型的人"区分开来的一节。沿五问每一步,用一句话回答:AI 在这里到底帮了多少?用第六篇 M6.4 那套三色标注——真本事(有据可验)/ 半真(有用但有重大未知)/ 话术(偷换口径或无实证)。把它做成一张随报告附上的表。

三个永远要先问的问题 看任何一步的 AI 结果,先问:① 用了什么数据?(验证是否泛化到训练集没见过的 E3 / 界面)② 数字的分母与基线是什么?(样本量、前瞻还是回顾)③ 有没有湿实验?(还是只有计算出的结构)。三问过不了,这一步的结论就只能标"半真"或"话术"。

一个诚实的项目,很可能在 Q2(三元置信度只有三成)或 Q4(选择性必须等蛋白组学)处发现"最弱的一环"。找到并明说这一环,就是这份报告最有价值的部分——它告诉决策者钱该先花在哪、风险该先去验证哪个。

评分量规(自评 / 互评)

100 分 · 诚实度与判断力权重最高

用下表给自己的报告打分。注意权重:把模型跑通只是基础分,真正拉开差距的是诚实标注结论的可辩护性

维度分值什么样算满分
五问完整性20五问每一步都有交付物,工具选择合理、与课程方法对得上。
诚实置信度25每步都标了"该信几分"且理由站得住;明确指出全链最弱的一环。这是最高权重项。
结论可辩护性20立项 / 暂缓 / 否定三选一,依据清楚、敢于给否定结论;top 3 风险具体。
AI 作用判断15三色标注表完整,能区分真本事 / 半真 / 话术,三问都问到了。
实验路线图10给出 2–3 个先做的湿实验,每个都说清"要证伪什么假设"。
表达与可读性10执行摘要一页能让人拍板;图表清楚,篇幅克制。
一票否决项 如果报告通篇只报"利好"、没有任何"不能 / 待验证 / 风险"的诚实标注,无论模型跑得多漂亮,判断力维度按零分计——因为它正好违背了这门课的核心律令。

建议节奏与产出

~10 小时 · 云端 notebook · 可分四次完成

项目可以拆成四段来做,每段产出一块报告。所有计算都能在云端 notebook 上跑,无需本地 GPU。

第 1 段 · 约 2h
选题与立项论证(Q1)
定下靶点,写完"靶点与疾病论证" + 可成胶性三轴打分。产出报告第 2 节草稿。
第 2 段 · 约 3h
结构与设计(Q2 + Q3)
跑共折叠三元、读置信度、生成候选骨架。产出第 3 节主体 + 一张三元结构图。
第 3 段 · 约 3h
功能选择性与闭环(Q4 + Q5)
功能/选择性初判、画 DMTA 闭环、汇总诚实置信度表。产出第 3 节其余 + 第 4 节。
第 4 段 · 约 2h
收束成报告
写执行摘要、立项结论与风险、实验路线图;按量规自评一遍再定稿。

提示:M4.6(端到端案例复盘)与 M5.1(实验验证级联的四个实验)就是本项目的脚手架与样板——动手前先回看这两处,会让你少走很多弯路。

毕业自测

交报告前,对自己问这几题
定稿前自测 · 5 题对照参考答案自评
  1. 如果只让你保留报告里的一页,你会留哪一页?它能让决策者独立拍板吗?
  2. 你这条五问链上"最弱的一环"是哪一步?你在报告里明说了吗?
  3. 有人质疑你 Q2 的三元结构"看起来很准",你用哪两个证据回应"该信几分"?
  4. 你的立项结论如果是"建议推进",最可能在哪个湿实验上被推翻?你把它列进路线图了吗?
  5. 把你报告里关于 AI 作用最"乐观"的一句话拎出来——它经得起"数据 / 分母 / 湿实验"三问吗?
展开参考答案 · 自评要点

1. 应是执行摘要:一句话结论 + 三条理由 + 一句最大风险。若它离开后文就无法拍板,说明摘要没写到位。

2. 多数真实项目的最弱环在 Q2(三元置信度仅约三成且多为记忆)Q4(选择性终审必须靠全局蛋白组学)。明确指出它,是报告最有价值之处。

3. 合格的回应会引用置信度读数(PAE / ipTM)界面特征(是否大界面、诱导成型口袋、新型 E3),而不是"模型说准就准"。

4. 通常是细胞降解读出(HiBiT/WB)全局蛋白组学选择性——计算给的是假设,这两个实验才是裁决。没列进路线图就是漏了关键一步。

5. 若那句话没有数据来源、没有基线/样本量、没有湿实验支撑,就应在三色表里被标成半真或话术,并在结论里相应降权。

一句话 毕业项目不要你"造出一个能成药的胶",而要你交出一份敢签字的判断——沿五问诚实地说清这个靶点值不值得做、风险在哪、AI 究竟帮了多少。能写出这份报告,就说明你已经拿到了这门课真正要给你的东西:判断力。