当前位置：首页 > news >正文

基于GBDT神经架构比较器的移动端人脸识别模型快速搜索框架

news 2026/5/26 17:01:49

1. 项目概述

在移动设备上部署人脸识别模型，我们常常面临一个经典的“鱼与熊掌”难题：既要模型识别得准，又要它跑得快。你手头可能有一台旗舰机，也可能是一台中端机，它们的CPU、GPU算力天差地别。用一个在高端GPU上训练好的“大而全”的模型（比如ResNet-50）直接塞进中低端手机里，推理速度可能慢到无法用于实时视频流处理；而如果为了速度，盲目选择一个极度轻量化的模型（比如某些超小型MobileNet变体），识别准确率又可能惨不忍睹，连熟人都认错。

更棘手的是，移动设备的硬件生态极其碎片化。高通、联发科、麒麟，不同芯片架构（如ARM Cortex-A系列的不同核心配置）、不同制程工艺、甚至不同厂商的神经网络加速器（NPU）对同一神经网络层的计算效率都不同。这意味着，不存在一个“放之四海而皆准”的最优模型。为一个设备精心调优的模型，换到另一个设备上，性能表现可能大打折扣。

传统的解决思路是“手动炼丹”：为每一类目标设备，从零开始设计或搜索一个网络架构，然后重新训练。这个过程耗时耗力，成本极高，根本无法规模化。而神经架构搜索（Neural Architecture Search, NAS）和自动化机器学习（AutoML）技术，正是为了解决这类自动化模型设计问题而生的。其核心思想是，将网络架构（如卷积层的类型、数量、通道数、连接方式等）也作为可优化的参数，通过一个“搜索算法”（如强化学习、进化算法、可微分搜索）在一个庞大的“搜索空间”中自动寻找在特定指标（如准确率、延迟、模型大小）上最优的架构。

然而，标准的NAS流程仍然存在瓶颈：每为一个新设备搜索模型，都需要从头开始进行大量的架构性能评估（通常需要成百上千次耗时的模型训练或推理），这被称为“搜索成本”。Once-for-All (OFA) SuperNet的出现，是NAS领域一个重要的范式转变。它不再为每个任务或设备从头搜索，而是先训练一个庞大的、包含无数子网络可能的“超级网络”。这个超级网络训练完成后，我们可以像从“模型超市”里挑选商品一样，根据目标设备的硬件特性（通过一个预定义的查找表（Look-Up Table, LUT）来量化每层在不同硬件上的延迟），快速“抽取”出符合特定延迟、精度要求的子网络，而无需任何重新训练。这极大地降低了为不同设备定制化模型的边际成本。

本文要深入探讨的，正是基于OFA SuperNet思想，并加以关键改进，专为移动端人脸识别任务打造的一套快速模型搜索框架。它的核心创新点在于，用更高效的基于梯度提升决策树（Gradient Boosted Decision Trees, GBDT）的神经架构比较器（Neural Architecture Comparator, NAC），替代了原始OFA中相对简单的多层感知机（MLP）精度预测器，从而在进化搜索过程中能更准确、更快地比较和筛选出最优子网络。最终，我们能在几分钟内，为一部具体的手机（例如搭载骁龙865或765芯片的设备），找到在给定毫秒级延迟约束下，人脸验证准确率最高的专用模型。

2. 核心思路与技术框架拆解

2.1 问题定义：移动端人脸识别的核心矛盾

移动端离线人脸识别通常分为两个阶段：1)特征提取：使用一个深度卷积神经网络（CNN）将输入的人脸图像映射为一个固定长度的特征向量（或称嵌入，embedding）；2)特征比对：计算待识别人脸特征与数据库中已注册人脸特征之间的相似度（如余弦距离、欧氏距离），根据阈值或最近邻规则做出判断。

整个流程的耗时瓶颈几乎完全在第一个阶段——神经网络的前向传播（推理）。因此，我们的优化目标非常明确，即公式(1)所示的多目标优化问题：

在满足推理延迟 t ≤ 目标阈值 t0的前提下，最大化人脸识别/验证的准确率 A。

这里的t0是一个关键的超参数，由产品需求决定。例如，要实现30FPS的实时视频处理，平均每帧处理时间需小于33ms，再扣除人脸检测、对齐等步骤的时间，留给特征提取的t0可能就需要设定在10ms甚至5ms以内。

2.2 整体框架：三阶段流水线

我们的解决方案是一个清晰的三阶段框架，完美分离了耗时的训练过程与高效的部署搜索过程。

第一阶段：超级网络训练与比较器学习（离线，在强大GPU服务器上完成）

训练人脸OFA SuperNet：我们选择一个大型人脸数据集（如VGGFace2，包含9131个名人，约330万张图片），在此数据集上训练一个基于MobileNetV3架构搜索空间的OFA超级网络。与原始OFA用于ImageNet分类不同，我们针对人脸识别任务优化了训练损失，结合了标签平滑的交叉熵和ArcFace损失，以学习判别性更强的人脸特征。
构建架构-精度数据集：从训练好的SuperNet中随机采样大量（如16,000个）不同的子网络。每个子网络由一组架构参数定义：每个模块的深度、每层卷积的核大小、扩展因子等。在验证集上评估每个子网络的识别准确率，形成一个(架构编码, 验证精度)的数据对集合。
训练神经架构比较器（NAC）：这是我们的核心改进。我们不训练一个回归模型来直接预测子网络的绝对精度（这很难且容易高估），而是训练一个二元分类器。它的输入是两个子网络的架构编码，输出是判断第一个子网络是否比第二个更准确。我们采用LightGBM库实现的GBDT模型作为这个比较器。GBDT能很好地处理表格型数据，捕捉特征间的复杂非线性关系，且训练和推理速度极快。

第二阶段：设备特性分析与子网络搜索（按需，针对目标设备）

生成设备专属延迟查找表（LUT）：为目标移动设备（如某款具体型号的手机）开发一个轻量级基准测试应用。这个应用会逐一测量OFA SuperNet中每一种可能层（不同核大小、通道数等）在该设备CPU（或GPU）上的平均推理时间。所有层的耗时汇总成一个查找表。为什么是CPU？因为移动端GPU的并行调度存在不确定性，简单将各层耗时相加来估算整体延迟误差较大，而CPU的延迟更具可加性。实际部署时，模型仍可使用GPU加速。
进化搜索最优子网络：输入目标延迟t0、设备LUT和训练好的GBDT比较器。采用进化算法进行搜索：
- 初始化：随机生成一批满足t0延迟约束的子网络，作为初始种群。
- 迭代进化：在每一代中，使用训练好的GBDT比较器，配合快速选择（QuickSelect）算法，高效地从种群中选出“较优”的个体作为父代。然后通过交叉（Crossover）和变异（Mutation）操作产生新一代子网络。变异操作会随机改变子网络的深度、核大小等参数，但必须通过LUT校验新网络仍满足延迟约束。
- 终止与输出：经过若干代进化后，选择种群中最优的子网络。移除其最后的分类层，得到一个专用于人脸特征提取的CNN模型。

第三阶段：模型部署与识别（在移动设备上运行）

模型转换：将搜索到的PyTorch子网络转换为TensorFlow Lite（TFLite）格式。TFLite是移动端部署的事实标准，它对移动设备有深度优化，并且支持GPU代理，能充分发挥硬件加速能力。
集成应用：在移动App中集成该TFLite模型、人脸检测器（如RetinaFace）和简单的特征比对逻辑，完成端到端的人脸识别流程。

关键洞见：为什么GBDT比较器比MLP预测器更优？原始OFA使用MLP回归器直接预测子网络的精度值。但在高维、离散的架构空间中，精确回归一个绝对值非常困难，模型容易产生系统性偏差（如普遍高估）。而将其转化为一个相对比较的二元分类问题，任务变得简单且更符合搜索过程的需求（我们最终只需要知道哪个架构更好，而非它具体多少分）。GBDT在处理这类结构化特征（架构编码是数值和类别特征的混合）时，通常比MLP更稳定、更高效，且不易过拟合，从而在进化搜索中能做出更可靠的比较决策。

3. 关键技术细节与实操要点

3.1 Once-for-All SuperNet的定制化训练

OFA SuperNet并非开箱即用，为人脸任务训练一个高质量的SuperNet是后续所有工作的基石。这里有几个容易踩坑的细节：

搜索空间设计：我们沿用了OFA-MobileNetV3的搜索空间，因为它本身是为移动设备设计的。其核心是5个可弹性变化的模块（Block），每个模块的搜索维度包括：

深度（d）：每个模块包含的层数，可选 {2, 3, 4}。
卷积核大小（ks）：每层卷积的核尺寸，可选 {3, 5, 7}。
扩展因子（e）：控制每层通道数的缩放比例，可选 {3, 4, 6}。

训练策略调整：

损失函数：人脸识别的核心是学习一个具有判别性的度量空间。因此，我们放弃了原始的纯分类交叉熵损失，采用了带标签平滑的Softmax损失 + ArcFace损失的组合。ArcFace通过添加加性角度间隔（Additive Angular Margin），使得同类特征在角度空间内更紧凑，不同类特征更分离，显著提升了特征的判别力。
输入分辨率固定：与ImageNet中物体尺寸多变不同，人脸检测和裁剪后，输入尺寸相对固定。因此，我们移除了OFA中对输入图像多分辨率支持的复杂性，将输入固定为224x224，简化了训练和搜索过程。
教师模型：OFA训练采用了知识蒸馏。我们使用一个在相同人脸数据集上预训练好的EfficientNet-B0作为教师模型，利用其输出的“软标签”来指导SuperNet的训练，有助于小模型（子网络）获得与大模型相近的泛化能力。

实操心得：SuperNet训练稳定性训练一个覆盖广、性能均衡的SuperNet需要大量计算资源和时间（通常在数十个GPU日）。关键是要确保渐进收缩（Progressive Shrinking）算法运行正确：先训练最大的网络，然后逐步允许采样更小深度、更窄宽度、更小核尺寸的子网络进行训练。这个过程如果收缩太快，会导致小模型性能不佳；太慢则训练效率低下。需要仔细调整每个阶段的训练轮数（epoch）。

3.2 设备延迟查找表（LUT）的精准构建

LUT的准确性直接决定了搜索出的模型在实际设备上能否满足延迟要求。构建时需注意：

测量环境：必须在真实的、清空后台的目标设备上进行测量。避免在充电、高温或运行其他大型应用时进行。测量前进行足够的热身（warm-up）推理，以消除冷启动带来的性能波动。
测量方法：编写一个简单的Android基准测试应用。对于SuperNet中的每一种层类型（例如：深度可分离卷积，核大小3x3，输入通道64，输出通道128），单独实例化该层，用随机生成的张量作为输入，运行足够多次（如1000次），取平均时间，并记录标准差以评估波动性。
层间依赖的简化处理：OFA的LUT方法假设网络总延迟是各独立层延迟之和。这忽略了层与层之间数据搬运、内存分配等开销，是一个近似。但对于同系列架构（如都是MobileNetV3变体），这种近似在实践中被证明是有效的，且能保持搜索的高效性。更精确的方法需要测量整个子网络的端到端延迟，但这会使搜索成本急剧上升。

3.3 基于GBDT比较器的进化搜索算法详解

这是整个框架的“智能引擎”。算法1（进化搜索最优子网络）的每一步都值得深究：

编码与初始化：一个子网络被编码为一个向量，包含所有可搜索维度的值。初始种群通过随机采样生成，但每个采样出的网络都需要用LUT快速估算其总延迟t_hat，只有t_hat < t0的网络才会被加入初始种群。这保证了搜索起点都是可行的。

快速选择（QuickSelect）与GBDT比较器：这是效率提升的关键。在每一代中，我们需要从种群P中选出前K个（K = P * Kr）最优个体作为父代。如果对种群进行全排序，复杂度是O(P log P)。但我们只需要前K个，不需要完整的顺序。此时，使用QuickSelect算法，其平均复杂度仅为O(P)。算法需要一个比较函数来判断两个网络孰优孰劣，这正是我们训练好的GBDT比较器的工作：输入两个网络的编码，输出一个概率值，表示网络A优于网络B的置信度。

交叉与变异：

交叉：随机选择两个父代网络，随机选择一个切割点，交换它们部分模块的架构参数，生成子代。需要检查子代网络的延迟是否仍满足约束。
变异：随机选择一个父代网络，以概率Pm随机改变其某个维度的值（如将某个模块的深度从3改为2，或将某层的核大小从5改为3）。同样需要进行延迟校验。

超参数调优经验：通过消融实验（见原文图4-8），我们得到了一些经验性结论：

迭代次数T：并非越多越好。在500代左右，精度提升已趋于平缓，而时间线性增长。通常200-500代是性价比最高的区间。
种群大小P：默认值100是一个较好的平衡点。太小则多样性不足，容易陷入局部最优；太大则每代评估耗时剧增。
父代比例Kr和变异比例Mr：默认值（0.25和0.5）在大多数情况下表现稳健。提高Kr（更多父代参与繁殖）有时能略微提升精度，但也会增加计算量。
变异概率Pm：这是最敏感的参数。默认值0.1（即10%的变异概率）并非总是最优。我们的实验表明，对于严格的延迟约束（t0很小），搜索空间有限，较低的变异概率（如0.05）可能更有效，因为大幅变异很容易产生不满足约束的无效网络。对于宽松的约束，可以适当提高变异概率以增加探索能力。

4. 实验验证与结果分析

4.1 实验设置与对比模型

我们在业界广泛使用的LFW（Labeled Faces in the Wild）数据集上进行评估。为了模拟移动端真实场景，我们特别测试了两种人脸预处理方式：

简单裁剪：仅使用人脸检测框，不进行关键点对齐和旋转校正。这模拟了快速、轻量级的处理流程，但会引入姿态、背景的干扰。
对齐裁剪：使用5点关键点进行相似性变换对齐，然后裁剪出224x224的人脸区域。这是学术论文中的标准做法，效果通常更好。

我们对比了多种公开的、以及我们自己训练的模型：

大型通用模型：IResNet-50 (InsightFace), SENet-50 (VGGFace2), FaceNet (InceptionResNet v1)。这些是精度标杆，但模型大、速度慢。
轻量级移动模型：MobileNet v1 (多任务版), EfficientNet-B0/B2 (我们自己训练的)。
NAS生成的轻量模型：PocketNetS/M (专为人脸设计的NAS模型)。
我们的模型：从人脸OFA SuperNet中为骁龙865和765芯片搜索出的两个子网络（Subnet 1 和 Subnet 2），分别对应较宽松（t0 = 0.6 * t_EfficientNet）和较严格（t0 = 0.4 * t_EfficientNet）的延迟约束。

4.2 核心发现与优势解读

1. 在“简单裁剪”条件下表现卓越这是最能体现我们方法实用价值的发现。如表2所示，在未经对齐的“粗糙”人脸图像上，我们搜索出的子网络（尤其是Subnet 1）在验证准确率（Accuracy）、Val@1e-3等指标上，超越了所有对比模型，包括那些大型通用模型。而像InsightFace这样的模型，在对齐图像上表现顶尖（表3），但在非对齐图像上精度下降明显。

这意味着什么？在真实的移动应用中，进行精确的人脸对齐需要额外的计算开销（运行关键点检测模型），且在某些极端角度或遮挡情况下，对齐可能失败或引入误差。我们的模型展现出了强大的鲁棒性，能够直接从检测框裁剪出的人脸中提取高质量特征，省去了对齐步骤，实现了更简洁、更快速的端到端流程。

2. 速度与精度的完美权衡表6展示了在真实手机（小米10T Pro/骁龙865 和小米10 Lite/骁龙765g）上的推理时间。我们的Subnet 2在骁龙865上处理单张人脸仅需约5ms，在骁龙765上约13ms。这个速度与经典的MobileNet v1相当，甚至更快，但我们的模型在LFW上的识别准确率（表4）远超MobileNet v1。

3. GBDT比较器的有效性验证表5的消融实验清晰地证明了我们方法的改进。与使用原始OFA的MLP精度预测器相比，采用GBDT神经架构比较器（NAC）搜索出的子网络，在相同延迟约束下，人脸验证和识别的准确率有最高达1.1%的提升。这验证了将回归问题转化为相对比较的分类问题，并使用GBDT模型的优势。

4. 模型尺寸的考量我们的方法目前主要优化延迟，未将模型大小作为硬约束。从表1看，我们搜索出的子网络参数量在4-5M左右，而PocketNetS仅0.7M。这是一个需要权衡的方向。未来的工作可以将模型大小（参数量或内存占用）也纳入进化搜索的约束条件中，或者结合模型量化、剪枝技术，进一步压缩模型。

5. 常见问题、挑战与未来方向

5.1 实际部署中的挑战与解决方案

1. 量化困难我们尝试对搜索出的FP32模型进行训练后动态范围量化（Post-training dynamic range quantization）到INT8时，发现精度下降有时高达10-20%，这是不可接受的。

原因分析：OFA SuperNet在训练时没有考虑量化感知。其权重分布可能对量化不友好，某些层对精度损失特别敏感。
解决方案：
- 量化感知训练（QAT）：在SuperNet训练阶段就模拟量化操作，让网络权重适应低精度计算。但这会大幅增加训练复杂度。
- 联合搜索：借鉴APQ（Architecture, Pruning, Quantization）的思想，将量化策略（如每层的位宽）也作为搜索空间的一部分，与架构搜索同时进行。这将是未来一个重要的研究方向。

2. GPU延迟估算不精确我们的LUT基于CPU测量，但最终部署可能使用GPU/NPU。CPU延迟的加性假设在GPU上可能不成立，因为GPU的并行执行和内核融合优化会改变层与层之间的耗时关系。

解决方案：构建一个更精细的设备性能分析器。可以测量一组具有代表性的“基准子网络”在目标设备GPU上的端到端延迟，然后训练一个轻量级的延迟预测模型（例如一个小型神经网络或GBDT），输入子网络的架构编码，预测其GPU延迟。这比构建完整的层级GPU LUT更可行。

3. 跨域泛化能力我们的SuperNet在VGGFace2（名人数据集）上训练。虽然在LFW上表现良好，但在其他差异较大的场景（如儿童面孔、特定种族、戴眼镜/口罩等）下，性能可能会下降。

解决方案：使用更多样化、难度更高的数据集（如MS-Celeb-1M、WebFace260M等）来预训练SuperNet。一个更具挑战性的预训练任务，有助于学习到更具泛化能力的基础特征，使得搜索出的子网络在跨域任务上更鲁棒。

5.2 扩展与应用前景

1. 多目标约束搜索当前框架主要优化“延迟 vs 精度”。可以轻松扩展为多目标优化，例如同时约束延迟、模型大小和功耗。进化算法非常适合处理这类问题，可以通过定义加权和或帕累托前沿（Pareto Front）来寻找最优折衷方案。

2. 动态自适应模型一个更前沿的想法是，让移动端应用具备动态模型选择能力。设备可以根据当前的剩余电量、发热情况、可用内存，甚至场景复杂度（检测到的人脸数量、图像模糊度），从预先生成好的、针对不同约束优化的一组子网络中，动态加载最合适的一个。我们的快速搜索框架能为同一设备生成这样一个“模型族”，支撑这种自适应能力。

3. 向其他视觉任务迁移此框架不局限于人脸识别。任何需要在移动端部署、且对精度和速度有双重要求的视觉任务，如图像分类、物体检测、语义分割等，都可以套用此范式。只需用对应任务的数据集训练一个新的OFA SuperNet，并定义好任务特定的精度评估指标即可。

4. 集成更先进的NAS组件可以探索集成更先进的NAS技术，例如：