论文总结研究痛点蛋白标志物对癌症预后关键但检测昂贵、数据稀缺组织学 蛋白多模态融合研究不足。传统跨注意力计算复杂度高长序列建模效率低。核心方法提出HGP-Mamba基于 Mamba 的多模态生存风险预测框架。PFE 蛋白特征提取器从全切片图像WSI直接生成 50 种蛋白嵌入无需实测蛋白数据。LiAM 局部感知 Mamba细粒度捕获组织学与蛋白特征的跨模态依赖。GiEM 全局增强 Mamba滑动窗层级完成高效全局模态融合。关键创新用预训练模型从 WSI 生成高通量蛋白特征解决数据稀缺问题。双阶段 Mamba 融合替代跨注意力计算效率大幅提升。 端到端整合形态与分子信息适配多癌种预后。实验结果在 TCGA 四大癌症数据集COADREAD/KIRC/KIRP/LIHC取得SOTA平均 C-index 达0.758。消融实验证实 PFE、LiAM、GiEM 均为必要模块。参数量仅 2.47MB推理速度比 Transformer 基线快96%。结论价值低成本、高效率实现组织形态与虚拟蛋白特征的多模态预后。可扩展到更多模态与临床任务助力精准肿瘤诊疗。摘要多模式学习的最新进展显著改善了癌症生存风险预测。然而蛋白质标记物和组织病理学图像联合预测预后的潜力仍未被充分发掘这主要是由于蛋白质表达谱的高成本和可获得性有限。为了应对这一挑战我们提出了HGP-Mamba一个基于Mamba的多模式框架它有效地整合了组织学和生成的蛋白质特征用于生存风险预测。具体地说我们引入了一个蛋白质特征提取程序(PFE)它利用预先训练的基础模型直接从整个幻灯片图像(WSIS)中获得高通量的蛋白质嵌入从而实现了分子信息的数据高效整合。与捕捉形态模式的组织学嵌入一起我们进一步引入了用于细粒度特征交互的局部交互感知Mamba(LIAM)和用于在幻灯片水平促进整体通道融合的全局交互增强Mamba(GIEM)从而捕获复杂的跨通道依赖关系。在四个公共癌症数据集上的实验表明与现有方法相比HGP-Mamba在保持优越计算效率的同时实现了最先进的性能。我们的源代码可在https://github.com/Daijing-ai/hgp-mamba.git上公开获得。引言生存风险预测是临床肿瘤学的一项基本任务目的是估计死亡或复发等危重事件发生的时间并将其量化个体死亡风险。准确的预测提供了对疾病进展、治疗反应和患者预后的基本见解最终指导个性化的治疗决策[1]。随着数字病理学的快速发展全切片图像(WSIS)作为金标准越来越多地被用于生存风险预测。WSIS提供了细胞和组织水平上的形态变化的全面视图为生存评估提供了关键的基础。考虑到WSIS中的大量块许多方法采用基于MIL的方法来进行高效的处理和分析其中基于注意力的MIL模型[234]旨在捕获全局WSI表示。最近引入了基于转换器的[56]和基于Mamba的[789]架构它们利用自我注意机制和状态空间模型[10]它们都旨在探索实例和长序列模型之间的相互关系。然而仅用病理图像并不能全面反映癌症发生发展的全过程。因此开发稳健的多模式方法对于构建准确和可推广的生存分析模型是必要的但也是具有挑战性的[11]。随着分子病理学的进步组织学和分子标记的多模式数据的联合建模显著提高了生存分析的效率和准确性[1213]。以前关于多模式融合的研究主要集中在将组织病理学图像与基因组数据配对使用交叉注意[1415]或最佳传输[16]等技术。虽然已经取得了很大的进展但在生存风险预测中发挥关键作用的蛋白质标记物还没有得到充分的研究。这主要是由于蛋白质标记物的评估既耗时又昂贵这限制了它们与常规临床工作流程的整合[17]。蛋白质标记物作为细胞过程的直接功能介质提供了对肿瘤微环境和分子信号通路的独特见解从而补充了组织学图像提供的形态视角。最近的研究[1819]显示了将蛋白质标记物预测整合到基于组织病理学的预后建模中的潜力。然而它们仅限于具有代表性的标记限制了它们提供全面生物学见解的能力。此外现有的框架通常专注于特定的癌症类型它们在其他癌症类型中的更广泛应用仍有待验证。此外大规模的WSIS和高维蛋白质组学图谱对有效的细粒度相互作用构成了重大挑战。交叉注意机制的二次计算复杂性往往会导致关键补丁级别信息的丢失并增加过度适应任务无关特征的风险[20]这限制了其性能和效率使其难以在临床环境中使用。为了应对上述挑战我们提出了HGP-Mamba这是一个基于Mamba的框架它捕获组织学并生成蛋白质特征同时实现两种模式的有效集成。我们的模型直接从WSIS中同时嵌入多达50个蛋白质生物标记物即使在没有测量到蛋白质PRO的情况下也能实现可靠的多模式生存建模档案。此外我们引入了一种基于Mamba的双阶段融合机制该机制实现了局部跨通道交互和全局通道内聚而不需要与交叉注意体系结构相关的大量计算开销。HGP-Mamba弥合了组织形态和分子特征之间的差距为传统的多模式预后框架提供了一种具有成本效益和可扩展的替代方案。我们的主要贡献概括如下-为了解决蛋白质表示学习的挑战我们开发了一个蛋白质特征提取程序(PFE)它使用预先训练的基础模型直接从WSIS获得高通量的蛋白质特征从而缓解了昂贵的临床分析造成的数据稀缺。-我们引入了分层融合策略其中包括本地交互感知Mamba(LIAM)和全局交互增强Mamba(GIEM)前者用于捕获细粒度的模式间依赖关系后者用于确保整个组织环境中的整体模式集成。-在四个癌症数据队列中进行的广泛实验表明与最先进的基线相比所建议的方法在生存风险预测方面具有优势和效率。图1.HGP-Mamba概述。(A)提出的HGP-MAMBA的详细内容包括三个步骤多模式特征提取、特征交互和增强以及风险预测。(B)本地交互感知Mamba(LIAM)示意图。(C)加强全局互动的Mamba(GIEM)的架构。方法HGP-MAMBA的总体结构如图1所示包括三个主要阶段多模式特征提取、跨模式交互和增强以及生存风险预测。如图1(A)所示每个WSI被划分为数千个不重叠的斑块。然后使用两个预先训练的基础模型独立地提取组织学和蛋白质嵌入。随后采用了局部相互作用感知的Mamba(LIAM)和全局相互作用增强的Mamba(GIEM)来有效地整合和增强组织学和蛋白质表示。最后将融合后的多峰特征用于生存风险预测。在接下来的部分中我们首先介绍状态空间模型(SSM)的基本知识然后描述所提出的HGP-MAMBA框架的核心组件。状态空间模型SSMsSSMS可以被看作是线性时不变系统它代表了一类序列模型该序列模型通过潜在状态h(T)∈RN将一维输入信号x(T)∈R映射到输出响应y(T)∈R。系统动力学正式表示为Mamba[7]通过结合选择机制进一步扩展了SSMS允许模型参数动态依赖于输入同时利用高效的、硬件感知的并行算法。因此Mamba通过基于当前令牌沿序列选择性地传播或丢弃信息来实现有效和高效的长序列建模[8]。图2.我们的蛋白质特征提取程序(PFE)的图解。请注意ConvNet是ROISE模型的主干。多模态特征提取组织学特征WSIS为肿瘤微环境提供了丰富的形态信息。然而由于WSIS的规模非常大不能直接用卷积神经网络来处理需要首先进行划分。我们首先分割组织区域然后以20倍的放大倍数将它们分割成256×256个不重叠的块。我们使用一个预先训练的海螺模型[21]它最初是在大规模的WSI-文本对上训练的来为每个补丁提取512维的嵌入。来自同一WSI的所有补丁嵌入被收集为一个嵌入集。为了减少特征冗余和计算开销我们使用多层感知器对特征进行降维最终得到嵌入fh∈RN×D的组织学其中N表示面片的数目D256是特征的维度。蛋白质特征蛋白质图谱为了解与癌症预后相关的分子生物标志物提供了有价值的见解。鉴于多重蛋白质分析的高成本和有限可用性我们利用ROISE[22]这是一个预先训练的基础模型在共染色HE和免疫染色切片的最大数据集上进行训练。与以前的蛋白质预测框架[1819]不同ROISE可以同时推断多达50种不同蛋白质的共表达模式。基于这种能力我们开发了一个蛋白质特征抽取器(PFE)来直接从WSIS中提取蛋白质特征如图2所示。具体地说每个WSI块被划分成大小为128×128的非重叠网格。然后应用ConvNet[23]主干来预测每个网格中50个蛋白质的表达水平。对于每个标记通道我们计算所有网格上的平均预测强度得到归一化的1×M特征向量该特征向量总结了斑块级别的平均表达轮廓[24]。最后多层感知器将该表示投影到嵌入FP∈RN×D的256维蛋白质中。局部交互增强的Mamba(LIAM)为了在保持计算效率的同时实现细粒度的跨模式交互我们引入了一种新的LiAM模块如图1(B)所示。vt.给出对于组织学和蛋白质特征Fh和Fp我们首先通过应用层归一化然后进行线性投影来获得它们的投影表示Xh和Xp。平行地fh和fp也分别投射到zh和zp。具体公式如下最后残馀连接被结合到每种形式中以促进梯度流动从而提高稳定性和收敛。通过这种交互式学习机制Liam有效地捕获了互补信息并对局部跨模式依赖进行了建模。Golobal交互增强的Mamba(GIEM)在本地跨模式交互之后我们引入了GIEM模块它采用了双向Mamba(BiMamba)[25]主干来进一步加强多模式表示如图1(C)所示。与依赖自我关注来同时处理所有令牌的基于Transformer的方法不同Giem采用有序扫描策略该策略保留了Mamba的顺序性质同时支持高效的全局交互建模。具体地说在给定多峰特征序列的情况下我们通过依次扫描组织学特征和蛋白质特征来构建统一的FC∈R2N×D表示。这种有序的安排确保以结构化的方式处理来自两种模式的信息从而允许Mamba的选择性扫描机制有效地捕获模式内和模式间的依赖关系。生存风险预测GIEM模块输出处理后的特征序列f‘c∈R2N×D然后通过最大汇集来聚集该特征序列以产生全局特征向量。该向量随后被传递到线性分类器以生成最终的生存风险预测。在前人研究[1415]的基础上通过将连续时间线分成n个区间我们将原事件时间回归问题简化为一个分类问题。事件发生的间隔tk被用作分类标签k。该模型预测危险向量H{h1.。。、hk、。。。Hn}其中HK表示事件在第k个间隔内发生的条件概率。每个样本表示为{Hck}其中c∈{01}表示审查状态。离散生存函数定义为fsurv(Hk)qki1(1−hi)。生存风险预测损失公式为实验数据集和评估指标我们对来自癌症基因组图谱(TCGA)4的四个癌症队列进行了实验包括结肠癌和直肠腺癌(COADREADn551)肾透明细胞癌(KIRCn498)肾乳头状细胞癌(Kirpn261)肝癌(LIHCn311)和肺腺癌(LUADn455)。对于有多张幻灯片的病例随机选择一张进行分析。我们训练模型来预测总体生存(OS)风险并使用交叉验证的一致性指数(C-index)[26]来评估性能该指数根据患者的生存时间与实际生存结果相比较来评估生存模型对患者进行排名的程度。实施详情我们使用5次交叉验证来评估我们的模型和其他比较方法。我们设置Liam块的数目N12和Giem的数目块n21。基于验证C指数进行了最多100个周期的训练并提前停止。每个历元使用的批次大小为1在反向传播之前梯度累积了32个步骤。使用ADAM优化器学习速率为2e-4权重衰减为1e-5。在训练期间采用了加权抽样策略来缓解所有任务中的班级不平衡。所有实验均使用运行在单个NVIDIA RTX 4090 GPU上的PyTorch进行。图3.提出的模型在四种癌症数据集上的Kaplan-Meier生存曲线。对比结果为了验证HGP-Mamba的有效性我们将其与以下方法进行了比较(1)传统的池化方法包括Mean Pooling和Max Pooling(2)基于注意力的方法包括ABMIL[2]、CLAM[4]及其两个变体CLAM-SB和CLAM-MB(3)基于Transformer的TransMIL[6](4)基于Mamba的方法[8]包括MambaMIL、BiMambaMIL和SRMambaMIL。表1给出了比较结果其中我们提出的HGPMamba达到了75.8%的平均C指数超过了所有其他比较方法。具体地说HGP-Mamba在KIRC、KRIP和LIHC数据集上的表现优于之前的所有方法并在COADREAD数据集上与TransMIL并列第一。这些结果强调了HGP-MAMBA在有效集成多模式特征方面的有效性并突出了多模式学习在生存预测中的优势。患者分层为了进一步验证HGP-MAMBA用于生存分析的有效性我们根据HGP-MAMBA生成的预测风险评分的中位数将所有患者分为低风险组和高风险组。然后进行Kaplan-Meier(Km)分析以可视化两组的生存结果如图3所示。风险组之间的统计学意义用Log-ranch检验来评估p值小于0.05被认为显著。如图3所示所有数据集的p值都远低于0.05表明HGP-MAMBA在生存风险预测中具有很强的区分能力。图4。(A)不同多模式融合方法的比较。(B)不同补丁的推断时间比较消融实验所提出组件的有效性我们在表2中进行了消融研究以评估建议组件的贡献。首先移除PFE模块将HGP-Mamba降低为类似于BiMambaMIL的MIL方法导致C-指数显著下降(例如在Kirp上从0.842降至0.786)。这突出了PFE提供了与原始组织学表现相补充的预后信息。接下来排除LIAM模块会显著降低模型对细粒度多模式交互进行建模的能力导致C指数显著下降。Liam利用了一种动态权衡组织学和蛋白质特征之间相互作用的门控机制可以学习在训练过程中抑制噪音影响。这种设计确保了稳健的生存风险预测。最后省略GIEM模块会降低通道凝聚力并产生次优性能。总体而言这些消融证实了PFE、Liam和Giem各自扮演着基本和互补的角色。它们共同提供了肿瘤形态和分子异质性的综合表示这对于准确的生存风险预测是必不可少的。多通道融合方法的优越性为了进一步展示我们的多通道交互和增强模块的优越性我们将Liam和Giem采用几种基线融合方法进行生存风险预测。首先我们合并了两个使用ABMIL和特征串联(ABMIL-Cat)[27]和ABMIL和Kronecker乘积融合(ABMIL-KP)的常见晚期融合方案[28]。如图4(A)所示与HGP-Mamba相比这两种方法都表现不佳表明它们捕捉复杂的肿瘤-微环境关系的能力有限。我们还比较了HGP-Mamba与领先的早期融合方法MCAT[141819]。由于GPU内存的限制在我们的实现中我们用FlashAttent[29]替换了MCAT的交叉注意模块。我们的方法利用双级Mamba架构在保持高计算效率的同时实现了卓越的预测性能。并从参数计数和推理时间两个方面进行了效率分析。为了公平起见比较只关注跨模式交互和增强阶段排除了多模式特征提取的代价所有实验都是在相同的条件下进行的。我们将HGP-Mamba与基于Transformer的MCAT进行了基准比较该MCAT具有两个核心注意机制(共同注意和FlashAttent)。具体地说我们构建了长度为1,0005,00010,00020,00050,000和100,000的嵌入序列嵌入维度为512同时保持蛋白质嵌入在50维固定。如图4(B)所示HGP-Mamba的参数占用比Transformer基线小得多(2.47MB)并且在所有序列长度上都一致地实现了大幅加速。例如当处理50,000个令牌时HGP-Mamba只需要34.08ms与基于FlashAttendant的MCAT(875.26 ms)和共同注意MCAT(988.73 ms)相比分别减少了96.1%和96.6%的推理时间。这些结果表明HGP-MAMBA不仅保持了对生存风险的稳定预测性能而且在跨模式交互的计算效率方面具有很大优势。蛋白质可视化为了验证PFE是否捕获了真实的分子信号我们可视化了TCGA-COADREAD队列中的蛋白质表达模式(例如PD-L1)。如图5所示预测的高表达区域(红色)与组织学证实的肿瘤区域显示出很强的空间一致性。详细的ROI分析进一步表明推断的信号仅限于特定的生物间隔如肿瘤巢和具有免疫渗透的间质。这种与病理基础事实的一致性表明HGPMamba成功地弥合了原始形态和潜在的分子异质性之间的差距。总结在这项工作中我们提出了HGP-Mamba一个基于Mamba的框架它捕获组织学并生成蛋白质特征同时支持高效集成两种模式都有。通过利用预先训练的基础模型HGP-Mamba直接从WSIS中提取高通量蛋白质特征从而缓解了测量蛋白质图谱的稀缺性。通过基于MAMBA的跨模式交互和增强该框架有效地捕捉了肿瘤的异质性并产生了更全面的癌症生存风险预测表示。鉴于其优势和效率HGP-Mamba可以扩展到涉及不同数据模式的更复杂的任务促进未来向临床应用的转换。图5.从TCGA-COADREAD数据集中随机选择的幻灯片上PD-L1的空间表达热图。对于每个样本左侧面板显示WSI缩略图中间面板将预测的PD-L1表达热图覆盖在WSI上右侧面板根据预测的表达水平显示选定的补丁。