Skip to content
Go back

目录

蛋白质和短肽序列生成技术突破性进展(2022-2025)

蛋白质和短肽序列生成技术突破性进展(2022-2025)

Published:  at  05:29 PM

2022-2025年期间,蛋白质和短肽序列生成领域经历了革命性变革,人工智能驱动的计算方法取得了前所未有的突破。深度学习技术的成熟应用,特别是扩散模型和大语言模型的发展,使得从头设计功能性蛋白质成为现实。这一时期最重要的成就是实现了原子级精度的蛋白质设计,多个AI设计的蛋白质通过冷冻电镜验证达到了0.63 Å的结构精度。这一突破性进展标志着该领域从理论研究向实际应用的转变,为药物发现、工业生物技术和合成生物学开辟了新的可能性。

技术方法论的重大革新

扩散模型引领的结构设计时代

RFdiffusion 成为这一时期最具影响力的技术突破。该方法通过对 RoseTTAFold结构预测网络进行微调,实现了对蛋白质结构去噪任务的精确建模。

💡 什么是扩散模型 (Diffusion Models)? 扩散模型是一类强大的生成模型,其灵感来源于热力学中的非平衡态过程。它的核心思想分为两个阶段:

  1. 前向过程(加噪):逐步、可控地向原始数据(如蛋白质结构)添加噪声,直到数据完全变成随机噪声。
  2. 反向过程(去噪):训练一个神经网络来学习逆转这个过程,即从纯粹的随机噪声出发,逐步去除噪声,最终恢复出符合目标分布的、全新的、真实的结构。 在蛋白质设计中,这意味着模型可以从一团随机的原子坐标”云”中,逐步”雕刻”出一个具有稳定三维结构和潜在生物学功能的蛋白质。

其核心创新在于采用 SE(3)等变神经网络处理三维结构,结合离散时间扩散过程,支持多达200个去噪步骤。

✅ 什么是SE(3)等变网络? SE(3) 是数学中描述三维空间中刚体运动(旋转和平移)的特殊欧几里得群。一个神经网络如果具有 SE(3) 等变性,意味着当输入的三维对象(如蛋白质结构)进行旋转或平移时,网络的输出(如预测的力场或特征)也会相应地、以同样的方式进行旋转或平移。这种特性对于处理蛋白质等三维分子至关重要,因为它保证了模型的预测与分子在空间中的朝向和位置无关,从而能够更准确地学习和泛化物理规律。

最显著的成就在多样化设计挑战中表现出色:无条件单体设计、结合蛋白设计、对称寡聚体设计和功能基序支架设计。实验验证显示,在结合蛋白设计中成功率达到19%,比传统方法提高了2个数量级。

扩散模型的多样化突破

FoldingDiff 开创了角度表示扩散生成。该模型将蛋白质骨架结构描述为捕获主干原子相对方向的角度序列,通过从随机未折叠状态去噪到稳定折叠结构来生成结构。这种内在的平移和旋转不变性表示至关重要地缓解了等变性约束,使用标准Transformer参数化无需任何等变性限制。FoldingDiff的角度去噪过程虽不直接捕获生物物理折叠过程,但从蛋白质扭曲和折叠的方式中汲取灵感。

LatentDiff 实现了潜在空间中的高效蛋白质生成。该模型在预训练蛋白质自编码器的紧凑潜在空间中生成蛋白质表示,然后解码到蛋白质空间。LatentDiff在生成可设计蛋白质骨架结构方面既有效又高效,支持结构和序列协同设计,因为蛋白质自编码器的解码器可以预测氨基酸类型。与其他蛋白质生成方法相比,LatentDiff的并行采样效率具有显著优势。

PLAID (Protein Latent Induced Diffusion) 代表了全原子生成的重大进展。该方法从预训练序列到结构预测器 ESMFold的潜在空间中采样,然后使用冻结解码器将采样的潜在嵌入解码为序列和全原子结构。PLAID仅需要序列输入进行训练,从而将数据集大小比蛋白质数据库增加2-4个数量级,并使更多注释可用于功能控制。通过无分类器指导实现基于功能和分类的组合条件控制。

抗菌肽生成的专业化突破

AMP-Diffusion 作为首个潜在空间扩散蛋白质语言模型,专门针对抗菌肽生成设计。该模型使用 ESM-2 8M作为蛋白质语言模型,采用Transformer架构作为去噪结构,直接预测原始嵌入

💡 什么是蛋白质语言模型 (PLMs)? 蛋白质语言模型借鉴了自然语言处理(NLP)中的思想,将氨基酸序列视为一种”语言”。它通过在海量的蛋白质序列数据库上进行大规模预训练(类似GPT训练于文本),来学习蛋白质序列的”语法”和”语义”——即氨基酸之间复杂的进化关系和功能模式。像 ESM-2 这样的PLM不仅能预测蛋白质的结构和功能,还能生成全新的、符合生物学规律的蛋白质序列,是现代蛋白质工程和设计的基础工具之一。

生成的抗菌肽在多个评估指标和理化性质上显示出统计稳健性,在伪困惑度和氨基酸多样性方面与实验验证的抗菌肽高度一致。

ProT-Diff 通过模块化高效方法实现抗菌肽序列的从头生成。该方法巧妙地结合预训练蛋白质语言模型与扩散模型,在数小时内快速生成数千个不同长度的抗菌肽。经过基于理化性质和预测抗菌活性的硅学筛选,35个选定肽中有34个显示出对革兰氏阳性或革兰氏阴性细菌的抗菌活性,其中6个表现出广谱效力。特别是 AMP_2显示出强效抗菌活性、低溶血性和最小细胞毒性。

AMPGen 创新了进化信息保留和扩散驱动的生成模型。该模型包含生成器、判别器和评分器等AI工具,以及基于生化知识的筛选程序。生成器采用预训练的顺序无关自回归扩散模型,执行轴向注意力从多序列比对中捕获蛋白质进化信息。在38个预测候选物的合成验证中,超过80%表现出高抗菌能力、序列多样性和广谱活性。

Transformer架构的工程化突破

ProteinMPNN 确立了新的实验验证标准。该消息传递神经网络采用注意力机制,在原生骨架上实现52.4%的序列恢复率,显著超越Rosetta的32.9%。

✅ 什么是Transformer架构? Transformer是一种最初为自然语言处理设计的深度学习架构,其核心是注意力机制(Attention Mechanism)。与传统的循环神经网络(RNN)不同,Transformer可以并行处理整个序列,并通过注意力机制计算序列中任意两个元素之间的相关性权重。在蛋白质领域,这意味着模型可以同时关注一个氨基酸与序列中所有其他氨基酸(无论距离远近)的关系,从而非常有效地捕捉决定蛋白质折叠和功能的关键长距离依赖关系。ProteinMPNN 等模型正是利用了这一点来实现高精度的序列设计。

其技术创新包括顺序无关的自回归解码和几何向量感知器对三维结构的编码。支持多链设计与耦合约束,计算效率极高:100残基蛋白质设计仅需1.2秒,而Rosetta需要4.3分钟。

蛋白质语言模型的发展达到了新的规模。ESM-2发展到150亿参数,展现出超越自然蛋白质的泛化能力。xTrimoPGLM扩展到1000亿参数,代表了蛋白质基础模型的新高度。这些模型不仅实现了结构预测,还具备了序列生成能力

条件性肽类生成的重大突破

CPL-Diff 代表了条件性肽类生成的重要突破。该基于Transformer的扩散模型使用 ESM-2编码器获得连续潜在空间嵌入,并引入注意力掩码机制确保生成指定长度的肽类序列。其核心创新在于解决了现有模型无法有效控制序列长度的问题,同时支持基于条件信息的功能性肽类生成。实验表明 CPL-Diff生成的肽类在复杂度和相似性方面优于现有最先进模型,并在分子对接实验中展现出良好的结合性能。

PepMLM 实现了首个纯序列条件的肽类结合蛋白生成器。通过创新的跨度掩码策略,将肽类序列独特地定位在目标蛋白序列的C端,使 ESM-2能够完全重构结合区域。AlphaFold-Multimer基准测试中超越了 RFdiffusion,并在细胞模型中实验验证了模型生成肽类融合到E3泛素连接酶结构域后能够实现内源性底物降解。这项工作首次实现了无需目标结构的从头结合蛋白设计,为程序化蛋白质组编辑应用赋能。

PepDoRA 通过权重分解低秩适配(DoRA)高效微调 ChemBERTa-77M化学语言模型,在修饰和天然肽类序列数据上训练。该模型生成的优化嵌入能够捕获膜渗透性、非污染性、溶血倾向以及靶点特异性结合等核心治疗特性。PepDoRA作为多功能工具,支持预测和设计任务,促进了广谱治疗性肽类的开发。

变分自编码器架构的创新发展

ProT-VAE 实现了Transformer与变分自编码器的深度融合。该模型在预训练的Transformer编码器和解码器之间嵌入轻量级任务特定变分自编码器,实现无对齐训练和可解释的低维潜在空间。

✅ 什么是变分自编码器 (VAEs)? 变分自编码器是一种生成模型,由两个主要部分组成:

  1. 编码器 (Encoder):将高维的输入数据(如一个完整的蛋白质序列)压缩成一个低维的、连续的”潜在空间”(Latent Space)表示。这个潜在空间捕捉了数据的核心特征。
  2. 解码器 (Decoder):从潜在空间中采样一个点,并将其重构回原始的高维数据格式。 VAE的巧妙之处在于,它学习的是一个概率分布的潜在空间。这使得我们可以在这个空间中进行插值、采样,从而生成具有原始数据特征但又全新的、多样化的数据,例如生成具有新功能的蛋白质序列变体。

使用NVIDIA BioNeMo框架实现,在苯丙氨酸羟化酶(PAH)的从头序列设计任务中,生成了具有超过100个突变和相比人类PAH活性提升2.5倍的新PAH序列。ProT-VAE潜在空间揭示了祖先和功能关系,支持具有高功能性和显著序列多样性的新颖序列条件生成。

ProtWave-VAE 代表了VAE和自回归模型的创新融合。该模型采用信息最大化VAE,配备扩张卷积编码器和自回归WaveNet解码器,结合了VAE和AR范式的优势:支持无对齐序列数据训练和从可解释低维潜在空间进行变长序列条件生成设计。在酵母Sho1跨膜渗透感受器C端SH3结构域的应用中,经过实验验证显示了优异的性能。

专用模型架构的技术突破

变分自编码器在荧光素酶设计中的实验验证标志着深度生成模型的实用性突破。MSA VAE和AR-VAE两种架构在近70,000个荧光素酶样氧化还原酶数据集上训练,成功生成了功能性细菌荧光素酶变体。MSA VAE更好地捕获反映3D结构影响的长距离依赖关系,而AR-VAE适用于原始序列输入。条件版本的模型通过辅助溶解度信息训练,实现对生成序列变体预测溶解度水平的控制。

理论基础的重大进展

能量景观理论在这一时期得到了量化发展。研究人员开发了蛋白质自由能景观的新构建方法,提供了定量而非概念性的折叠能量学描述。这包括位点定向热力学分析方法,能够在不需要突变的情况下将蛋白质热力学函数分解为单个氨基酸的贡献。对于结构良好的蛋白质如HP-35和WW结构域,折叠漏斗斜率约为-50 kcal/mol,而本质无序蛋白质的景观较浅(~-24 kcal/mol)。

量子计算的首次实际应用

量子算法在蛋白质设计中的突破标志着计算方法的重大进展。Khatami等人实现了首个使用Grover算法的纯量子蛋白质设计方法,提供了相对于经典O(N)搜索方法的二次加速O(√N)。复杂蛋白质设计问题需要多达234个量子比特,在IBM量子设备上成功演示,尽管存在NISQ限制。

克利夫兰诊所-IBM框架在齐卡病毒NS3解旋酶催化环片段预测中超越了经典物理方法和 AlphaFold2。这种量子-经典混合架构有效地将计算任务分配给不同系统,为未来的量子优势提供了框架。

药物设计中的革命性应用

抗体设计的突破性进展

Absci的零样本抗体设计代表了实验验证的重大突破。使用生成深度学习对超过400,000个抗体变体进行筛选,针对HER2识别出三个比治疗性抗体trastuzumab具有更高亲和力的结合蛋白。表面等离子体共振确认了单数位纳摩尔结合亲和力,设计显示出高”自然度”分数,表明良好的可开发性。

RFdiffusion在抗体设计中的应用实现了原子级精度。成功设计了针对流感血凝素、艰难梭菌毒素B和Phox2b肽-MHC复合物的VHH和scFv。冷冻电镜结构数据确认了适当的Ig折叠和原子级精度的结合姿态,通过OrthoRep优化实现了单数位纳摩尔结合蛋白。

✅ 什么是VHH和scFv? VHH (Variable domain of heavy chain of heavy-chain antibody) 和 scFv (Single-chain variable fragment) 都是比完整抗体小得多的抗体片段,但保留了完整的抗原结合能力。

  • VHH(纳米抗体):来源自骆驼科动物,是已知最小的功能性抗原结合片段。它具有体积小、稳定性高、易于改造等优点。
  • scFv:由抗体的重链可变区(VH)和轻链可变区(VL)通过一个短的肽链连接而成的人工蛋白。 它们的尺寸优势使其更容易穿透组织、靶向传统抗体难以接近的表位,因此在药物开发中备受青睐。

肽类药物市场的爆发式增长

治疗性肽类市场经历了爆发式增长,销售额从2023年的414.4亿美元预计增长到2024年的456.6亿美元(10.2%的年增长率),到2028年预计达到688.3亿美元。semaglutide在2024年以138.9亿美元领跑全球肽类药物销售。

PepPrCLIP 平台的开发为靶向”不可成药”蛋白质提供了新途径。该AI平台受OpenAI图像生成模型启发,已在亚历山大病和各种癌症的肽类设计中得到应用。

酶工程中的智能化突破

工业酶设计的AI革命

RFdiffusion在酶设计中的应用展现了卓越的活性位点支架能力,实验成功率接近20%。能够精确定位催化残基和辅因子,实现了氧化还原酶、转移酶和水解酶的成功设计。Northwestern University的平台在10,953个独特反应中评估了1,217个酶变体,ML预测的变体显示出1.6-42倍的活性改善

AlphaFold集成为酶设计带来了结构预测的革命。预测超过2亿个蛋白质结构,使酶-底物相互作用建模和活性位点配置更加准确。这一突破加速了药物发现和生物催化剂开发时间线

💡 AlphaFold 的革命性意义 AlphaFold(特别是 AlphaFold2)是DeepMind开发的AI系统,它解决了困扰生物学界50年之久的”蛋白质折叠问题”,即如何从氨基酸序列准确预测蛋白质的三维结构。它的革命性在于:

  1. 超高精度:其预测的结构精度可以达到实验级别,在很多情况下与通过冷冻电镜(cryo-EM)等复杂实验方法测定的结构相媲美。
  2. 规模化与速度:它已预测了地球上几乎所有已知生物的数亿个蛋白质结构,构建了一个庞大的公开数据库。这在以前是需要花费数十年和海量资金才能完成的。 对酶工程和药物设计而言,这意味着研究人员可以快速获得几乎任何目标酶的精确三维结构,从而极大地加速了对酶工作机制的理解、活性位点的改造以及新酶的设计。

市场影响与产业化

全球蛋白质工程市场在2024年达到43.5亿美元,预计到2034年将增长到208.6亿美元(年增长率16.97%)。工业酶市场价值79亿美元,预计到2029年将达到108亿美元。

抗菌肽和功能性肽类的智能设计

AI驱动的抗菌肽设计

AMP-Designer平台实现了94.4%的成功率,能够设计对革兰氏阴性细菌具有广谱活性的抗菌肽。完整的设计到验证流程仅需48天,在11天内设计出18个抗菌肽,其中两个候选物显示出卓越的抗菌效力、最小的溶血毒性和低耐药性潜力。

细胞穿透肽市场预计到2034年将达到90.2亿美元,年增长率15.47%。BChemRF-CPPred机器学习框架在独立测试中实现了90.66%的准确率,结合了结构和序列特征进行膜预测。

✅ 什么是细胞穿透肽 (CPPs)? 细胞穿透肽(Cell-Penetrating Peptides, CPPs)是一类短肽(通常少于30个氨基酸),它们具有一种特殊的能力,可以携带各种”货物”(如其他药物分子、蛋白质、核酸等)穿过细胞膜进入细胞内部。它们相当于一个高效的”分子快递员”,能够将药物直接递送到细胞内的作用靶点,从而解决了许多大分子药物难以进入细胞的难题,在药物递送领域具有巨大的应用潜力。

抗病毒肽的创新发展

P9衍生自小鼠β-防御素-4,对H1N1、H3N2、H5N1、SARS-CoV、MERS-CoV显示出活性。机制涉及防止内体酸化和膜融合,在小鼠感染模型中提供70%的保护。P9R肽在40次病毒传代后防止了耐药突变体的出现。

前沿技术的突破性发展

流匹配模型的兴起

💡 新兴技术:什么是流匹配模型 (Flow Matching)? 流匹配模型是继扩散模型之后兴起的下一代生成模型。如果说扩散模型是通过模拟”噪声”的扩散过程来生成数据,那么流匹配模型则通过学习一个更平滑、更直接的”流场”(vector field)来将随机噪声连续地变换为目标数据。 其主要优势在于:

  • 训练更稳定、速度更快:它通常采用更简单的回归目标,避免了扩散模型中复杂的常微分方程(ODE)或随机微分方程(SDE)求解过程。
  • 路径更直接:生成的路径可以更短、更高效。 在蛋白质设计领域,这有望实现比扩散模型更快速、更高效的结构生成。

PepFlow 作为首个多模态流匹配框架,用于全原子肽类设计。在 SE(3)流形中使用刚性骨架框架表征肽类结构,同时处理侧链动力学和序列分布。在固定骨架序列设计和侧链包装方面表现出色。

SE(3)随机流匹配在ICLR 2024上发表,在蛋白质骨架生成中实现了突破。改进的采样效率和几何一致性使得蛋白质生成过程控制更加精确。

大规模基础模型的发展

xTrimoPGLM 发展到1000亿参数,展现出跨蛋白质相关任务的标度行为。DPLM-2 作为多模态扩散蛋白质语言模型,整合了序列和结构信息,通过统一表示推进了蛋白质理解。

技术前沿发展

可扩展架构发展1000亿+参数的蛋白质理解模型。流匹配代表了超越扩散的下一代生成模型。几何深度学习SE(3)等变架构用于蛋白质设计。强化学习进行目标导向的蛋白质优化。

✅ 什么是强化学习 (Reinforcement Learning)? 强化学习(RL)是一种机器学习范式,其核心是让一个”智能体”(Agent)通过与”环境”(Environment)的交互来学习如何做出最优决策以获得最大化的”奖励”(Reward)。 在蛋白质设计中,这个过程可以理解为:

  • 智能体:AI设计模型。
  • 环境:物理化学规则和生物学功能的模拟评估器。
  • 决策/行动:对蛋白质序列或结构进行一次修改(例如,一个氨基酸突变)。
  • 奖励:根据修改后的蛋白质是否具有更好的特性(如更高的稳定性、更强的靶点结合力等)来给予正向或负向的反馈。 通过成千上万次的”试错”迭代,强化学习可以驱动模型自主地、定向地优化蛋白质,使其朝着预设的目标(如成为高效的药物)不断进化。

应用领域扩展

治疗设计包括抗体、肽类药物和蛋白质治疗。酶工程为工业应用定制催化剂。生物材料为纳米技术和材料科学设计蛋白质。疫苗开发进行免疫原设计和递送系统。

评估与基准测试的标准化

综合评估工具的发展

SHAPES 框架引入了结构和层次化评估方法,跨多个层次评估蛋白质生成模型。揭示了观察到的蛋白质结构空间的大量欠采样,引入了弗雷歇蛋白质距离(FPD)用于分布覆盖评估。

ProteinGym v1.0 提供了超过250个标准化深度突变扫描测定,包含数百万个突变序列和策划的临床数据集,为蛋白质模型评估提供了大规模基准。

技术挑战与创新不足

计算复杂性挑战

蛋白质设计仍然是NP-hard问题,序列空间呈指数增长。经典方法需要广泛采样;量子方法虽有前景但尚未提供实际优势。大规模Rosetta设计需要大量计算资源(复杂问题需要CPU年),MD模拟需要微秒级模拟来充分采样折叠动力学。

数据质量和可用性限制

有限的数据集成为制约因素,高质量实验数据不足。标准化需要标准化的测定协议,训练数据存在偏差,某些肽类的过度代表性影响了模型的泛化能力。

实验验证的瓶颈

实验室设计常常在工业规模上失败,设计的酶可能在工艺条件下缺乏长期稳定性。与天然酶相比,底物混杂性有限,需要更多的实验验证。

方法学局限性分析

条件控制的精确性挑战:尽管 CPL-Diff等方法在序列长度控制方面取得突破,但对多维条件(如同时控制长度、功能和稳定性)的精确控制仍存在技术挑战。大多数现有方法只能处理单一或有限的条件约束。

潜在空间表示的局限性AMP-DiffusionLatentDiff等潜在空间方法虽然提高了计算效率,但潜在表示可能丢失重要的生物学细节。潜在空间的可解释性仍然是一个重大挑战,特别是在理解生成序列的功能相关性方面。

模型泛化能力不足ProT-VAEPepMLM等专用模型在特定任务上表现出色,但跨蛋白质家族或跨功能领域的泛化能力有限。模型往往需要针对每个新的蛋白质家族或功能类别进行重新训练或大幅微调。

实验验证率的不一致性:虽然 ProT-Diff等方法在抗菌肽生成中取得了高达97%的实验成功率,但这种成功率在其他功能域(如酶设计、结合蛋白设计)中尚未得到充分验证,存在过度乐观的风险

未来发展方向与技术前沿

新兴技术趋势

全原子建模正在从仅骨架生成转向全原子生成。多模态整合结合序列、结构和功能信息。动态建模整合蛋白质动力学和构象灵活性。生物安全整合为负责任的AI开发构建内置保障措施。

技术前沿发展

可扩展架构发展1000亿+参数的蛋白质理解模型。流匹配代表了超越扩散的下一代生成模型。几何深度学习SE(3)等变架构用于蛋白质设计。强化学习进行目标导向的蛋白质优化。

应用领域扩展

治疗设计包括抗体、肽类药物和蛋白质治疗。酶工程为工业应用定制催化剂。生物材料为纳米技术和材料科学设计蛋白质。疫苗开发进行免疫原设计和递送系统。

结论与展望

2022-2025年期间代表了蛋白质和短肽序列生成的转折点,在结合蛋白设计中实现了2个数量级的成功率提升,通过冷冻电镜和X射线晶体学验证了原子级精度,1000亿+参数基础模型的空前规模,整合多样化生物信息的多模态能力,以及在治疗、材料和生物技术中的实际应用。

关键创新点包括CPL-Diff的序列长度精确控制机制、PepMLM的无结构依赖肽类生成、PepDoRA的多特性优化嵌入、AMP-Diffusion的潜在空间抗菌肽设计、ProT-VAE的Transformer-VAE融合架构、FoldingDiff的角度表示扩散、LatentDiff的高效潜在空间生成、以及 PLAID的全原子序列-结构协同设计。这些方法在不同维度上推进了该领域:从条件控制精度、计算效率、生物学合理性到实验验证成功率。

这一时期的突破从概念验证发展到了具有原子级精度和实验验证的实际应用。随着基础模型扩展到1000亿+参数并整合越来越复杂的生物系统表示,该领域已准备好在能力和影响方面实现持续的指数增长。2024年诺贝尔化学奖的认可突出了该领域从学术好奇心到具有广泛社会影响的变革性技术的成熟

未来的发展将可能专注于扩展这些方法、提高实验成功率,以及解决日益强大的蛋白质设计能力的负责任发展问题。物理化学原理与机器学习方法的整合已经创造了一个新的蛋白质设计范式,为应对以前无法解决的治疗挑战提供了定制设计的蛋白质。


✏️ 编辑文章

💬 评论交流

ℹ️
GitHub登录评论
使用GitHub账户登录,支持丰富的Markdown格式,评论将同步到GitHub Discussions。