当前位置：首页 > news >正文

清华大学发布ProteinOPD：面向蛋白质设计的高效多目标偏好对齐框架

news 2026/6/14 12:08:14

来源ScienceAI 本文约3000字建议阅读5分钟提供了一条高效路径。当前蛋白质语言模型正从「生成合理蛋白序列」逐步走向「按需生成具有特定性质的蛋白序列」。在合成生物学和药物发现等场景中研究者往往不只希望模型生成结构合理的蛋白还希望候选序列同时具备更高折叠性、更好溶解性、更强热稳定性等多种属性。然而多目标蛋白质偏好对齐长期面临核心挑战在提升目标属性的同时模型容易遗忘预训练阶段获得的蛋白设计能力并且难以在多个相互竞争的偏好目标之间取得稳定平衡。近日清华大学高子琪团队联合 IDEA AI4S 团队提出 ProteinOPD该工作的主要贡献如下1. 解决蛋白质偏好对齐中的多目标难点。ProteinOPD 是一个面向蛋白质设计的高效多目标偏好对齐框架在提升目标属性的同时保留蛋白语言模型原有的设计能力与生成分布质量。2. 提出多教师 OPD 的一种有效实现形式。该方法将预训练蛋白语言模型适配为多个偏好专属教师并通过 normalized Product-of-Experts 构造几何共识分布使学生模型能够在自身生成轨迹上接受 token-level on-policy distillation从而将 OPD 从单教师、单目标设置扩展到多教师、多目标偏好对齐场景。3. 提供较完整的开源支持。项目已开放论文、代码、项目主页和 Colab 体验入口覆盖无条件生成与条件生成两类设置并提供教师构建、ProteinOPD 训练、序列生成和推理体验等关键流程便于社区复现与后续扩展。论文地址https://arxiv.org/abs/2605.10189开源地址https://github.com/THU-AI4S/ProteinOPDColab 链接https://colab.research.google.com/github/THU-AI4S/ProteinOPD/blob/main/notebooks/proteinopd_inference.ipynb在模型表现方面ProteinOPD 在多目标场景下取得了最优偏好对齐表现同时对设计能力造成的损伤最小。以 ProtGPT2 为基础模型时ProteinOPD 分别将 foldability、solubility 和 thermostability 提升 14.8%、16.9% 与 54.2%同时其偏好对齐性能可在约 1/8 的训练时间内达到 RL 方法的水平。方法设计ProteinOPD 的思路是将「偏好获取」和「偏好组合」解耦。首先针对折叠性、溶解性、热稳定性等目标偏好框架使用属性 oracle 对蛋白序列进行打分并选取少量高分样本构建偏好专属训练集。随后通过轻量化适配将预训练蛋白语言模型转化为多个偏好专属教师。每个教师负责提供一种偏好的生成方向而不是要求单个模型同时承担全部目标。在学生训练阶段ProteinOPD 不采用传统离线模仿方式而是在学生模型自己的生成轨迹上进行 on-policy distillation。具体而言学生模型先生成当前会访问的蛋白序列前缀教师模型再基于这些前缀给出下一 token 的概率分布。相比只在固定数据集上训练这种机制能够让学生在自身实际访问的状态空间中获得纠正信号从而缓解训练阶段与生成阶段的分布不一致问题。同时token-level 分布监督也比序列级奖励更密集有助于提升训练效率和稳定性。对于多目标偏好对齐ProteinOPD 的关键设计是多教师 OPD。研究团队将多个偏好教师的 next-token 分布通过 normalized Product-of-Experts 进行组合形成一个几何共识目标。与算术平均不同几何共识更强调多个教师共同支持的 token只有当多个偏好教师都倾向于某个氨基酸选择时该 token 才会在共识分布中获得更高权重。这一设计使模型更倾向于寻找多种偏好之间的交集而不是被某一个目标单独牵引。这一机制还带来一个重要性质归一化项可以反映教师之间的分歧程度。当多个教师在某个序列前缀上意见一致时目标偏好之间冲突较小当教师分布明显不一致时冲突程度增大。因此ProteinOPD 不仅提供了多教师偏好组合的训练目标也为观察多属性之间的内部竞争提供了一个无需额外计算的信号。模型性能1. 多目标偏好对齐取得帕累托最优。(1) 相比评估中最强的跨范式参考方法 MoMPNNProteinOPD 的 HV 提升 34.8%。(2) 与基础模型 ProtGPT2 相比ProteinOPD 分别将蛋白可折叠性、溶解性和热稳定性提升 14.8%、16.9% 与 54.2%。论文主表无条件设置下多目标偏好对齐性能对比。2. 单目标实验显示 ProteinOPD 能够转移 SFT 教师的偏好能力同时缓解直接微调造成的蛋白设计能力的下降。(1) 在无条件生成中ProteinOPD 在保留大部分属性收益的同时将新颖性损失控制在更低水平。(2) 在条件生成中ProteinOPD 还提升了 ProTrek Score说明模型在偏好对齐过程中没有破坏原有条件一致性。3. 训练成本大幅降低。(1) ProteinOPD 相比 RL 类方法可以更快提升热稳定性并取得约 8 倍训练加速。 (2) 教师构建只需要少量经 oracle 筛选的高质量样本使整体流程更适合实际蛋白设计中的快速迭代需求。样例研究论文进一步给出了 ProteinOPD 与 ASPO 的生成样例对比。为确保比较集中在多属性对齐能力上作者选取热稳定性均超过 0.95 的样例并要求生成序列与 UniRef 的最大序列一致性低于 5%。在可视化结果中ProteinOPD 生成样例的 pLDDT 达到 0.73高于 ASPO 的 0.49溶解性得分达到 0.69高于 ASPO 的 0.43。这表明 ProteinOPD 不仅能提升单一属性还能在保持新颖性的同时实现更有效的多属性对齐。ProteinOPD 为蛋白质偏好对齐提供了一条高效路径用轻量教师学习单一偏好用多教师几何共识处理目标冲突再通过学生自身轨迹上的 token-level OPD 完成稳定迁移。该工作将 OPD 从语言模型偏好对齐拓展到蛋白质设计场景并进一步推进到多目标、多教师设置为生成式蛋白设计中的高效偏好对齐提供了新的技术参考。编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

查看全文

http://www.gsyq.cn/news/1366290.html