1. 项目概述当机器学习遇见宇宙“放大镜”在浩瀚的宇宙中有一种被称为“强引力透镜”的奇妙现象。简单来说它就像宇宙中一个天然的巨型放大镜当一个遥远星系光源发出的光线在传播途中经过一个质量巨大的前景天体如一个星系团时其路径会被后者的强大引力场所弯曲。这导致我们从地球上会看到同一个光源的多个、被扭曲和放大的影像有时会形成壮丽的“爱因斯坦环”或明亮的弧线。这种现象不仅是宇宙中一道独特的风景线更是天文学家研究暗物质分布、测量宇宙膨胀速率哈勃常数乃至检验引力理论的“宇宙探针”。然而强引力透镜事件极其稀有。在动辄包含数亿甚至数十亿个天体的现代大型巡天数据如暗能量巡天DES中它们如同沧海一粟。传统上天文学家需要耗费大量人力在成千上万的图像中“大海捞针”式地人工筛选候选体效率低下且主观性强。近年来机器学习ML技术特别是深度学习为这一挑战带来了革命性的解决方案。通过训练模型自动识别图像中的透镜特征搜索效率得到了指数级的提升。但随之而来的问题是不同的机器学习模型谁更“慧眼识珠”它们各自擅长发现什么样的透镜当多个模型“会诊”同一批数据时我们能否得到更可靠、更全面的结果这正是我们这项研究的核心。我们系统性地对比了应用于暗能量巡天DES数据的三种独立开发的机器学习搜索算法并深入探索了将它们的结果进行“集成”的策略。这不仅仅是一次技术性能的比拼更是一次关于如何更智能、更高效地探索宇宙的方法论实践。2. 三位“候选者”模型架构与训练策略解析在深入对比之前我们有必要先认识一下参与本次“竞赛”的三位主角。它们代表了强透镜搜索领域中三种主流的、且各具特色的技术路线。2.1 Jacobs经典卷积网络的稳健之选Jacobs等人采用的是一个经典的卷积神经网络架构其复杂度和著名的AlexNet相近拥有约900万个可训练参数。这个模型可以看作是一位经验丰富、遵循传统方法的“老侦探”。网络结构它主要由四个卷积层构成卷积核尺寸依次为11、5、3、3旨在从大到小、由粗到细地提取图像特征。每个卷积层后都跟着一个ReLU激活函数和一个2x2的最大池化层最后连接两个各有1024个神经元的全连接层进行决策。这种结构在早期的图像识别任务中已被验证有效且在“博洛尼亚透镜发现挑战赛”中表现不俗证明了其在强透镜识别上的潜力。训练数据团队生成了20万张g、r、i三波段的训练图像正负样本各半。正样本透镜是通过模拟生成的使用“红序星系”目录作为前景透镜星系基于观测数据估算其速度和质量分布采用奇异等温椭球体模型来模拟其引力场并用指数盘模型模拟背景源星系。最后利用GRAVLENS软件生成透镜效应并与真实的DES前景星系图像合成。负样本则直接从目标搜索目录中随机抽取这些目标极不可能包含强透镜。核心思路Jacobs模型的核心优势在于其经典和稳健。它不追求最前沿的架构而是依靠经过充分验证的CNN基础和精心构建的模拟数据力求在复杂的天文图像中稳定地捕捉透镜的形态学特征。2.2 Rojas效率与精度平衡的“轻量化专家”Rojas团队选择了EfficientNet B0模型。这是一个旨在平衡计算效率和识别精度的CNN家族中的基础型号仅有约400万个参数比Jacobs模型更“轻量”。网络特点EfficientNet的核心创新在于“复合缩放”方法它系统性地协调网络的深度层数、宽度通道数和输入图像的分辨率从而在有限的算力下实现最优性能。这使得它特别适合处理海量天文数据能够以较低的计算成本进行快速推理。训练数据同样使用了20万张三波段图像。其正样本的构建有一个关键创新使用了哈勃太空望远镜HST拍摄的真实高红移星系图像作为背景源并结合了Hyper Supreme Camera巡天的颜色信息。这使得模拟出的透镜源具有极其真实、多样的形态和颜色更贴近真实宇宙的复杂性。透镜前景同样使用红序星系其参数通过K近邻算法从斯隆数字巡天SDSS的百万星系样本中匹配估计。透镜模拟通过Lenstronomy软件完成并有意将源增亮1个星等并放置在靠近“焦散线”的位置以增强透镜特征的显著性。核心思路Rojas模型代表了实用主义的优化。它利用更先进的轻量级架构和更真实的源星系库试图在保证一定搜索精度的前提下大幅提升处理速度为在更庞大的数据集上运行扫清障碍。2.3 González拥抱变革的“视觉Transformer新秀”González等人的工作则迈出了更大胆的一步他们采用了计算机视觉领域的新贵——视觉变换器。具体是ViT-Base/16模型它将图像分割成16x16像素的块进行处理拥有约8600万个参数。架构革命与CNN从局部像素开始逐步构建全局理解不同ViT从一开始就通过“自注意力”机制关注图像所有块之间的关系。这使它天生擅长捕捉图像中长距离的依赖关系对于识别强透镜中那些跨越整个图像、相互关联的弧或像点可能具有独特优势。训练策略该模型在ImageNet-21k这个包含1400万张图像的超大数据集上进行了“预训练”。这相当于让模型先在海量的通用图像中学习了广泛的视觉模式如边缘、纹理、形状具备了强大的特征提取先验知识然后再针对强透镜任务进行“微调”。这种“预训练微调”的策略是目前提升模型泛化能力的黄金标准。数据与任务设计训练集约4万张图像但任务设计更为精细。它将问题构建为一个九分类任务而不仅仅是二分类是透镜/不是透镜。除了“强透镜”这个正类它还专门设立了“红色椭球星”、“环状星系”、“旋涡星系”等八个常见的负类即易混淆的非透镜天体。这种设计迫使模型不仅要学会识别透镜还要学会区分那些与透镜形态相似的“山寨货”理论上能有效降低误报率。其正样本模拟同样基于真实DES前景星系但为了训练效果有意将源增亮了2个星等使透镜特征更加明显。核心思路González模型代表了前沿探索。它结合了最先进的ViT架构、大规模预训练带来的强大泛化能力以及多分类任务设计带来的高判别精度旨在实现更精准、更可靠的识别。实操心得模型选型的背后逻辑从这三个模型的选择我们可以看出强透镜搜索领域技术演进的清晰脉络从依赖经典、稳健的CNNJacobs到追求效率与真实感平衡的优化CNNRojas再到拥抱前沿、追求更高判别力的ViTGonzález。在实际项目中选择哪种模型往往需要权衡计算资源、数据规模、对误报的容忍度以及对新发现“奇异”透镜形态的渴望。没有绝对的最优只有最适合当前任务约束的方案。3. 方法论如何公平地“同台竞技”要让三个出身、训练方式各异的模型公平比较并探索集成之道需要一个严谨、统一的评估框架。我们的工作主要分为以下几个步骤3.1 构建统一的测试舞台“交集”样本三个模型最初搜索的DES天体目录因筛选标准不同规模差异巨大Jacobs: 790万Rojas: 1870万González: 2.36亿。为了公平比较我们取它们的交集——即同时被三个模型处理过的约75万个天体构成“交集样本”。所有后续的性能评估和集成分析都基于这个共同的基础。由于不同模型输出的原始分数Raw Score范围和分布差异很大直接比较分数绝对值没有意义。我们将其转换为归一化排名。具体来说在交集样本中对每个模型给所有天体的打分进行排序最高分排名为1最低分排名为0。这样我们关注的是天体在各自模型眼中的“相对优秀程度”而非绝对分数这更符合实际搜索中“从高分往下看”的操作逻辑。3.2 寻找“标准答案”专家视觉检查我们需要一个可靠的“地面实况”来评判模型的预测。我们从SLED强透镜数据库中选取了1651个已被各类巡天和研究报告为强透镜候选体的系统。关键一步是我们组织了一个由7位强透镜研究专家组成的团队在Zooniverse平台上对这些候选体进行了重新审视。检查流程每位专家会看到每个天体在四种不同图像显示设置下的样子通过调整g、r、i波段的对比度和增强比例以突出不同的颜色和形态特征。这有助于发现那些在单一显示模式下不明显的透镜迹象。评分标准专家将每个系统归类为A确定是透镜、B可能是透镜、C可能是透镜、Z不是透镜并对应转换为3、2、1、0分。分数聚合为了减少个别专家的偶然误判我们对每个系统去掉一个最高分和一个最低分然后取剩余分数的平均值得到最终的“专家分数”。我们将专家分数≥1.2的系统即A类和B类定义为“真阳性”实际是透镜其余定义为“真阴性”实际不是透镜。这构成了我们评估模型性能的黄金标准。3.3 性能评估指标我们采用信息检索和机器学习中标准的评估指标查全率也叫召回率指所有真正的透镜中被模型正确找出来的比例。查全率 正确找出的透镜 / (正确找出的透镜 漏掉的透镜)。它衡量的是模型的“搜罗”能力查全率越高漏网之鱼越少。查准率也叫精确率指模型所有判定为“是透镜”的预测中真正是透镜的比例。查准率 正确找出的透镜 / (正确找出的透镜 误报的透镜)。它衡量的是模型的“准确”程度查准率越高垃圾结果越少。F1分数查全率和查准率的调和平均数。F1 2 * (查准率 * 查全率) / (查准率 查全率)。这是一个综合指标当查全率和查准率都需要兼顾时F1分数比单独看任何一个都更有参考价值。满分是1。ROC曲线与AUC通过不断调整模型判断的阈值多高的分数算“是透镜”可以得到一条以假正率为横轴、真正率为纵轴的曲线。曲线下的面积即为AUC值它衡量模型整体区分“是透镜”和“不是透镜”的能力。AUC0.5相当于随机猜测越接近1说明模型判别能力越强。4. 性能对决单模型的表现与启示基于上述框架我们对三个模型进行了全面的性能剖析。4.1 核心性能数据对比我们首先关注模型在最佳阈值下的表现即最大化F1分数时的阈值。结果如下表所示模型最佳F1分数对应查全率对应查准率AUC值Jacobs0.3131%31%0.82Rojas0.3552%26%0.85Gonzalez0.5470%44%0.91结果解读性能演进明显从Jacobs到Rojas再到Gonzalez无论是综合指标F1分数还是判别能力AUC都呈现显著的阶梯式提升。这直观地反映了机器学习技术在强透镜搜索领域的快速进步从经典CNN到优化后的轻量CNN再到结合预训练和多任务学习的ViT模型的能力在不断增强。查全率与查准率的权衡Jacobs模型查全率和查准率持平但都较低属于“谨慎型”不轻易下结论但也会错过很多。Rojas模型查全率大幅提升至52%但查准率有所下降属于“广撒网型”能找到更多真透镜但需要后期从更多候选体中筛选。Gonzalez模型则在查全率70%和查准率44%之间取得了最好的平衡实现了性能的全面领先。模型“偏好”不同通过分析模型对高置信度透镜专家评分高的排名我们发现它们各有侧重。例如有些被专家高度认可的透镜在某个模型中排名可能很低。这说明不同的模型基于其训练数据和架构学会了关注图像中不同的特征组合。有的可能对完整的爱因斯坦环敏感有的可能对微弱的弧段更警觉有的则可能更容易被某些颜色的组合所触发。这种“多样性”恰恰是后续集成学习能够发挥作用的基础。4.2 模型间的共识与分歧我们计算了模型之间在“头部”排名前5000和“尾部”排名后10万候选体上的杰卡德相似系数。该系数为1表示两份名单完全一致为0表示毫无重叠。头部共识低在排名最高的候选体上任何两个模型之间的杰卡德系数最高不超过0.06。这意味着每个模型认为的“最像透镜”的前几千个目标重合度非常低。它们各自找到了不同的“宝藏”。尾部共识高在排名最低的候选体上杰卡德系数显著升高最高达到0.51Jacobs和Rojas之间。这表明对于“最不像透镜”的明显负样本模型们更容易达成一致。这个发现极具实践意义模型们在“什么肯定不是透镜”上意见统一但在“什么最有可能是透镜”上则各执己见。这提示我们单一模型提供的“高分名单”很可能只是全部真实透镜的一个有偏子集。要构建更完整的透镜样本必须融合多个模型的视角。5. 集成策略让“三个臭皮匠”胜过“诸葛亮”既然单个模型各有优劣且发现的目标不同一个自然的想法是能否将它们的预测结果组合起来得到一个更强大的“超级模型”这就是集成学习的思想。我们系统测试了六种集成策略平均法直接对三个模型的归一化排名取算术平均值。中位数法取三个模型归一化排名的中位数。线性回归以三个模型的排名为特征以专家分数转换为二分类标签为目标训练一个线性回归模型用其预测值作为集成分数。决策树使用决策树算法进行同样的训练和预测。随机森林使用多棵决策树构成的随机森林进行集成这是更强大的非线性方法。独立贝叶斯法这是一种基于概率的融合方法。它假设不同模型的预测在给定目标真实类别下是条件独立的然后利用贝叶斯定理计算一个天体是透镜的后验概率。5.1 集成效果分析我们将所有集成方法在测试集上的最佳F1分数与最好的单模型Gonzalez, F10.54进行对比集成方法最佳F1分数相对于Gonzalez的提升备注平均法0.53-0.01简单平均未能带来提升中位数法0.560.02稳健受极端值影响小线性回归0.580.04有效可解释性强决策树0.600.06效果显著随机森林0.620.08效果最佳独立贝叶斯0.590.05概率框架理论扎实核心结论集成普遍有效除了最简单的平均法其他所有集成方法都超越了最好的单模型Gonzalez。这强有力地证明了结合多个异构模型的预测可以系统性地提升强透镜搜索的综合性能。非线性模型优势明显决策树和随机森林这类非线性集成方法表现最好尤其是随机森林将F1分数从0.54提升到了0.62。这说明三个模型排名之间的关系并非简单的线性叠加而是存在更复杂的交互模式非线性模型能更好地捕捉这种模式。查准率大幅提升集成带来的最大惊喜在于对查准率的极致优化。在某些阈值下集成模型的查准率相比最好的单模型提升了高达6倍。这意味着如果我们希望得到一个非常“干净”、误报极少的候选体列表用于后续昂贵的光谱确认集成策略是必不可少的步骤。完备性达到新高当我们将三个模型的预测结果以“逻辑或”的方式简单合并即只要有一个模型认为某天体的排名高于某个阈值就将其选为候选体对于中高置信度的透镜专家分数≥1.2其综合完备性达到了82%。这比任何一个单模型最高70%都要高得多直观展示了模型互补性带来的价值。5.2 集成策略的实操建议基于我们的研究对于计划开展或优化强透镜搜索的团队给出以下实操建议起步阶段如果资源有限只训练或部署一个模型Gonzalez类型的ViT多分类任务预训练路线是目前单模型性能的天花板值得优先考虑。追求性能如果追求最高质量的候选体列表高查准率或希望尽可能不漏掉真实透镜高查全率必须采用集成策略。优先尝试随机森林进行模型融合它通常能提供最佳的综合性能。流程设计在实际搜索流水线中可以设计两级筛选。第一级让多个模型至少两个架构差异越大越好独立对全量数据进行初筛每个模型输出一个排名。第二级使用训练好的集成模型如随机森林对第一级产生的“候选池”例如各模型前1%的目标进行重新评分和排序得到最终的高置信度候选名单。持续迭代集成模型的权重或结构并非一成不变。当有新的、经过确认的透镜样本无论是正例还是负例加入时可以重新训练集成器使其适应数据分布的变化持续优化性能。避坑指南集成学习的注意事项多样性是关键集成的模型之间必须有足够的差异性。如果用三个结构、训练数据都几乎相同的模型做集成效果提升会非常有限。我们的成功得益于三个模型在架构CNN vs. ViT、训练数据模拟源 vs. 真实HST源、任务设计二分类 vs. 多分类上的根本不同。警惕过拟合用于训练集成器如线性回归、随机森林的数据必须与训练底层单个模型的数据严格分开。通常需要额外的、独立的验证集或测试集。否则集成器可能只是记住了单个模型在特定数据上的噪声而无法泛化。复杂度与收益的平衡随机森林虽然效果好但需要额外的训练和调参。如果对可解释性要求高线性回归或中位数法这些简单方法可能是更实用、更稳健的起点。6. 总结与展望迈向更智能的宇宙探索这项研究通过一场在暗能量巡天数据上的“模型竞赛”清晰地展示了机器学习在强引力透镜搜索中从单打独斗到协同作战的演进路径。我们证实了更先进的架构如ViT、更真实的训练数据、更巧妙的训练策略如多分类、预训练都能切实提升单模型的搜索能力。然而更重要的是我们通过系统的实验证明没有任何一个单模型是完美的但通过集成多个具有多样性的模型我们可以构建一个更强大、更可靠的“透镜搜索系统”。这不仅将查全率推高至82%更能将查准率提升数倍这对于面临海量数据、且后续光谱确认资源宝贵的现代天体物理学来说具有重大的实用价值。未来的强透镜搜索尤其是在LSST、Euclid、CSST等下一代超大规模巡天项目即将产生指数级增长数据的前夜基于异构模型集成的自动化筛选流程很可能成为标准配置。这项工作也留下了一些开放性问题指引着未来的方向如何设计更具差异性的模型来进一步提升集成收益如何将模型的预测概率进行更精细的校准以提供更可靠的可信度能否让集成学习框架动态地适应不同天区、不同观测深度数据的特点对这些问题的探索将推动我们不断优化手中的“宇宙放大镜”更清晰、更完整地窥见引力扭曲下的深空奥秘。