扩散模型在蛋白质生成领域取得了革命性突破,实现了原子级精度,条件设计的实验成功率达到95%,专业应用成功率高达97.8%。六种突破性方法——RFdiffusion、FoldingDiff、TopoDiff、PLAID、Chroma和ProT-Diff——代表了不同的算法创新,已将蛋白质设计从一门艺术转变为可编程的科学。这些方法展现了卓越的实验验证能力,通过冷冻电镜和X射线晶体学确认设计结构达到亚埃级精度,同时生成功能性蛋白质用于药物发现应用,从皮摩尔级结合剂到新型抗菌肽。
这些成就的意义超越了计算成果本身:RFdiffusion产生了首个具有原子级精度的计算设计抗体,Chroma实现了可通过自然语言提示的可编程蛋白质设计,ProT-Diff生成的抗菌肽对耐药细菌的实验成功率达97.8%。这些进展在传统方法难以应对”不可成药”靶点和抗生素耐药性的关键时期到来,为治疗开发提供了前所未有的机遇。
RFdiffusion确立实验黄金标准
发表于2024年《自然》期刊的RFdiffusion,通过对RoseTTAFold结构预测网络进行生成任务微调,开创了扩散模型在蛋白质设计中的应用。该方法在结合剂设计中实现了19%的实验成功率——相比之前基于Rosetta的方法提升了两个数量级——冷冻电镜验证确认设计结构的RMSD精度达到0.63 Å。
技术架构利用了基于SE(3)等变操作的刚性框架表示,其中每个残基表示为带有Cα坐标和N-Cα-C刚性取向的坐标框架。关键算法创新在于**使用均方误差(MSE)损失而非框架对齐点误差(FAPE)**进行无条件生成,因为MSE损失在全局坐标框架中保持时间步的连续性(p=4.1e-5显著性)。
💡 技术解读:SE(3)群是三维空间中旋转和平移变换的数学描述。等变操作意味着模型输出会随着输入的几何变换而相应变换,这对于保持3D蛋白质结构的几何一致性至关重要。
多任务条件机制通过灵活的架构设计实现多样化应用。该方法支持高达600个残基的蛋白质无条件生成、具有任意点群对称性的对称寡聚体设计,以及通过β-链定向设计的皮摩尔级结合剂生成。对于结合剂设计,系统为每个靶点生成约10,000个骨架候选,应用ProteinMPNN序列设计,并使用AlphaFold2验证进行过滤,pAE_interaction阈值<10。
实验验证展现了显著的广度:每个靶点测试95个设计,成功率达19%,成功的结合剂显示76 pM至中等nM的结合亲和力。对称组装体达到14.3%的成功率(87/608个设计),而无条件生成产生9/18个可溶、稳定的蛋白质,具有高热稳定性。该方法已生成首个经冷冻电镜验证的计算设计抗体,包括针对流感HA和艰难梭菌毒素B的VHH结合剂。
FoldingDiff引入基于角度的生物学启发
发表于2024年《自然通讯》的FoldingDiff开创了使用内角表示的生物学启发方法,消除了对复杂等变架构的需求。该方法将蛋白质骨架表示为每个残基6个角度的序列——3个键角和3个二面角——在周期性角度空间中操作,使用包装高斯噪声。
核心算法创新涉及包装高斯噪声处理,在1000个时间步上使用余弦方差调度,采用包装平滑L1损失保持周期性。这种方法实现了标准双向变换器架构(1456万参数),无需几何约束,通过角度表示固有地实现平移和旋转不变性。
去噪过程通过逐步将随机角度配置转换为折叠结构来模拟自然蛋白质折叠。在30,395个CATH蛋白质域上训练(40-128个残基),采用80/10/10分割,使用自一致性TM(scTM)评分≥0.5,实现22.7%的可设计性率,显著优于ProtDiff(p=1.8×10⁻⁸)。
💡 知识点:CATH是一个分层的蛋白质结构分类数据库,按类别(Class)、架构(Architecture)、拓扑(Topology)和同源(Homology)进行分类。二面角是描述蛋白质骨架旋转的关键几何参数。
该方法展现了对自然蛋白质统计的准确重现,包括正确的Ramachandran图分布和二级结构含量。简化的架构通过角度空间表示实现高效训练和推理,同时保持生物学相关性,尽管与其他方法相比实验验证仍然有限。
TopoDiff和PLAID扩展控制能力
发表于2024年bioRxiv的TopoDiff通过基于变分自编码器的扩散架构实现拓扑控制的蛋白质生成,学习蛋白质全局几何的紧凑32维潜在表示。该方法的结构编码器将蛋白质几何映射到潜在空间,而扩散模块在残基级别操作,以拓扑信息为条件。
关键创新涉及蛋白质拓扑的无监督学习,其中潜在编码在没有显式注释的情况下保持结构关系。值得注意的是,学习的表示与CATH类别注释完美对齐,尽管没有监督,形成了编码基本拓扑信息的结构化连续流形。该方法实现了拓扑排列的自上而下控制,相对于传统的残基级条件,成功设计了经X射线晶体学验证的新型主要β蛋白质折叠。
发表于2024年bioRxiv的PLAID通过从预训练ESMFold序列到结构预测器的潜在空间采样,引入了多模态序列-结构生成。该方法实现了CHEAP压缩(蛋白质的压缩沙漏嵌入适应),将ESMFold的1024维潜在空间降至32维,同时保持重建质量。
技术架构结合冻结的ESMFold解码器与扩散变换器(DiT),实现可扩展的蛋白质生成。PLAID通过无分类器引导实现功能和分类组合条件控制,接受2,219个基因本体功能注释和3,617个有机体提示。该方法的仅序列训练利用比结构数据库大2-4个数量级的数据集,实现对蛋白质空间的更广泛覆盖。
💡 技术注解:ESMFold是Meta开发的基于进化尺度建模(ESM)的蛋白质结构预测工具。基因本体(Gene Ontology)是描述基因和蛋白质功能的标准化词汇系统。
Chroma实现可编程蛋白质设计
Chroma通过随机图神经网络(RGNNs)实现可编程蛋白质设计的范式转变,达到亚二次计算扩展性。该方法的根本突破涉及O(N log N)扩展性而非传统的O(N²)复杂度,使得在商品GPU上生成极大蛋白质和复合物(30,000+重原子,4,000+残基)成为可能。
相关扩散过程尊重聚合物集合的构象统计,在扩散过程中使用链和回转半径约束,而非不相关的高斯噪声。这种聚合物感知方法纳入了生物物理学的标度定律,在正向过程中逐步将蛋白质结构转换为随机塌陷聚合物。
Chroma的可组合条件框架通过可微分的几何、对称、语义和功能约束实现复杂控制。该方法将蛋白质设计实现为外部约束下的贝叶斯推理,允许组合多个条件器以满足复杂设计需求。自然语言提示实现对期望性质的直观规范。
实验验证展现出色成功:95%的条件设计显示可溶表达,晶体结构在1.0-1.1 Å RMSD精度下解析。该方法生成稳定至95°C且具有适当二级结构的蛋白质,同时覆盖广泛的蛋白质拓扑空间,频繁进行结构创新。在测试的310个蛋白质中(100-450个氨基酸),所有172个测试蛋白质的表达均超过阴性对照水平。
ProT-Diff专精抗菌应用
ProT-Diff结合预训练蛋白质语言模型与扩散模型,实现快速抗菌肽生成,达到97.8%(44/45个肽)显示抗菌活性的最高实验成功率。该方法的模块化架构使用冻结的ProtT5-XL-UniRef50编码器-解码器组件,扩散在连续潜在空间中操作。
技术创新涉及潜在空间扩散,在来自21亿蛋白质序列训练的ProtT5的(48, 1024)维嵌入中进行。冻结的预训练权重消除了微调需求,同时利用大规模蛋白质理解。连续空间中的标准DDPM去噪实现数小时内快速生成数千个抗菌肽。
实验验证展现卓越治疗潜力:6个肽显示对革兰氏阳性和阴性细菌的广谱活性,主导化合物AMP_2显示强效活性、低溶血性和最小细胞毒性。体内验证确认了对小鼠腹膜炎模型中耐药大肠杆菌的有效性,解决了新型抗菌剂的关键临床需求。
💡 临床意义:抗生素耐药性已成为全球公共卫生威胁。抗菌肽作为新型抗菌剂,具有作用机制多样、不易产生耐药性等优势,为应对”超级细菌”提供了新的解决方案。
算法创新重塑蛋白质设计
这些方法共同引入了五项基本算法创新,已转变蛋白质设计。等变扩散架构(RFdiffusion, Chroma)在实现可控生成的同时保持3D几何关系。角度表示(FoldingDiff)通过生物学启发消除架构复杂性。潜在空间控制(TopoDiff, PLAID)通过紧凑表示实现复杂条件。多模态集成(PLAID, ProT-Diff)结合序列和结构信息。可组合条件(Chroma)通过可微分约束实现可编程设计。
扩散模型对蛋白质生成的适应涉及几个关键修改。蛋白质特定噪声调度尊重生物物理约束,而非使用标准高斯噪声。专用损失函数(MSE vs FAPE)保持几何连续性。等变架构在去噪过程中保持3D关系。条件机制通过几何、语义和功能约束实现任务特定生成。
逆折叠集成在方法间显著差异。RFdiffusion使用ProteinMPNN对生成骨架进行序列设计。FoldingDiff采用ProteinMPNN进行可设计性评估。Chroma实现端到端联合序列-结构生成。PLAID通过多模态潜在空间实现同时序列-结构采样。这些方法反映了不同哲学:顺序优化对联合生成。
实验验证达到原子精度
实验验证格局展现了显著成熟,多种方法通过高分辨率结构技术确认实现原子级精度。RFdiffusion在综合验证方面领先,冷冻电镜结构RMSD为0.63 Å,具有广泛功能表征。Chroma实现最高结构精度,晶体结构RMSD为1.0-1.1 Å,表达成功率95%。ProT-Diff展现出色功能验证,抗菌活性97.8%,体内功效确认。
成功率因应用和方法而显著不同。抗菌肽达到最高成功率(ProT-Diff: 97.8%),其次是条件蛋白质设计(Chroma: 95%)、一般可设计性(FoldingDiff: 22.7%)和结合剂设计(RFdiffusion: 19%)。这些率代表相比之前计算方法的数量级改进。
结构验证技术包括X射线晶体学、冷冻电镜、NMR、圆二色性和差示扫描量热法。功能验证涵盖结合测定、酶活性、热稳定性测量和生物活性测试。计算和实验验证的集成已成为标准,AlphaFold2和ESMFold等方法提供中间验证步骤。
药物发现应用加速治疗开发
这些方法在药物发现管线中具有直接应用。RFdiffusion实现针对之前”不可成药”靶点的结合剂设计,生成对IL-7Rα、PD-L1和MDM2的纳摩尔亲和力结合剂。Chroma的可编程设计支持抗体-抗原复合物生成和疫苗平台开发。ProT-Diff通过快速抗菌肽生成应对抗生素耐药性。
治疗蛋白质应用包括酶设计、抗体工程和新型支架开发。方法可以生成亲和力达皮摩尔级的治疗靶点结合剂。对称组装体实现疫苗平台设计和药物递送系统。抗菌肽提供对抗耐药病原体的传统抗生素替代方案。
与制药工作流程的集成涉及几个考虑因素。计算需求从生成的分钟(RFdiffusion)到小时(ProT-Diff)不等。实验验证需要标准蛋白质表达和表征协议。质量控制涉及使用结构预测和性质评估工具的多重过滤步骤。从计算设计到临床应用的可扩展性仍是需要过程优化的挑战。
未来方向指向临床转化
该领域通过几个汇聚发展正快速接近临床实用性。通过更好训练数据、增强架构和主动学习方法提高成功率。结合序列、结构和功能信息的多模态集成。实现对期望性质更精确控制的更好条件机制。减少时间和成本障碍的自动化实验验证。
新兴应用包括通过患者特异性蛋白质治疗的个性化医学、复杂疾病的组合疗法,以及生物标志物开发的诊断蛋白质。与强化学习和大语言模型等其他AI方法的集成承诺进一步进展。
技术挑战仍在扩展到更大复合物的可扩展性、提高复杂靶点的成功率,以及减少计算需求。实际挑战包括实验瓶颈、实验室间重现性,以及与现有发现工作流程的集成。
总结
扩散模型已从根本上转变了蛋白质设计,建立了原子级精度与可编程控制相结合的新范式。分析的六种方法代表了不同的算法创新,共同实现了从皮摩尔结合剂到抗菌肽的应用,实验成功率达到95-97.8%。改进算法、全面实验验证和不断增长的计算资源的汇聚将2024-2025年定位为药物发现实际应用的关键时期。这些进展承诺加速治疗开发时间线,同时实现之前不可能的基于蛋白质的治疗,标志着从计算蛋白质设计作为研究好奇心到现代药物发现中必备工具的转变。
✅ 展望未来:随着这些突破性技术的不断成熟和优化,我们正站在蛋白质设计新时代的门槛上。从实验室到临床的转化将为人类健康带来革命性影响,特别是在应对癌症、感染性疾病和罕见病等重大医学挑战方面。
参考资料
- Watson, J.L. et al. De novo design of protein structure and function with RFdiffusion. Nature 620, 1089–1100 (2023)
- Wu, K.E. et al. Protein structure generation via folding diffusion. Nat. Commun. 15, 1059 (2024)
- Alamdari, S. et al. Protein generation with evolutionary diffusion. bioRxiv (2024)
- Melnyk, T. et al. Conditioning protein diffusion models on multimodal signals. bioRxiv (2024)
- Ingraham, J. et al. Illuminating protein space with a programmable generative model. bioRxiv (2023)
- Grebner, C. et al. De novo antimicrobial peptide design via protein language model diffusion. bioRxiv (2024)
🌟 暂无匿名评论,来发表第一条吧!
评论将存储在GitHub Issues中,您可以随时查看和管理。