当前位置: 首页 > news >正文

全新强化学习框架 BeautyGRPO:重塑真实人像

行业困局:审美探索与高保真的“零和博弈”

高质量的数字人像精修早已成为移动影像时代的高频刚需。然而,对 AI 而言,这是一项极为严苛且微妙的任务:它既要像手术刀般精准剥离痘印、斑点等微小瑕疵,又要让肌肤透出真实的“自然呼吸感”,并完整保留诸如痣等极具辨识度的原生特征。本质上,这是一场“原生高保真”与“人类主观审美”之间的极致博弈。现有的 AI 模型往往受限于底层训练范式,难以做到两全其美。

现有痛点 1:SFT 的“刻板拟合”局限。

目前主流的修图模型(如 RetouchFormer)或通用编辑模型(NanoBanana)大多依赖监督微调(SFT)范式,迫使模型陷入对参考图的“像素级严格拟合”。模型并未真正捕捉人类审美逻辑,一旦训练数据存在瑕疵,便会全盘继承这些错误标注。因此在泛化到真实场景时,极易出现瑕疵残留,或因粗暴的“过度磨皮”导致人脸呈现失真的“硅胶质感”。

现有痛点 2:RL 的“随机失控”副作用。

为突破 SFT 局限,文生图领域尝试引入在线强化学习(RL,如 FlowGRPO)引导模型对齐人类审美。然而,这类方法在采样中往往需要注入随机噪声来驱动探索。对于极度依赖保真度的人像精修而言,这种不断累积的随机漂移(Stochastic Drift)是致命的,会严重破坏原图的高保真流形并引入明显的视觉伪影。

核心挑战:究竟该如何打破这一“零和博弈”,在追求极致美学探索的同时,实现原生特征的绝对保真?

二、技术逻辑:细粒度审美量化与动态路径引导

我们提出了BeautyGRPO框架,从偏好量化与采样机制两个维度入手解决上述问题:

2.1 构建细粒度评价体系:FRPref-10K 与多维奖励模型

现有的奖励模型大多聚焦语义对齐和整体美学质量评估,缺乏对人像微小感知差异的敏锐度。 为此,我们构建了业内首个包含 10,000 对高清精修偏好对的大型数据集FRPref-10K,将审美标准拆解为 5 个细粒度维度:皮肤平滑度、瑕疵去除、纹理质感、清晰度、身份特征保留。 在此基础上,我们结合视觉大模型(VLM)与人类专家校准,训练出具备高感知能力的多维奖励模型。该模型能够敏锐捕捉图片之间的肌肤纹理、光泽质感等微小差异,为强化学习提供高质量的偏好对齐信号。

2.2 可控 RL 探索:动态路径引导(DPG,Dynamic Path Guidance)

针对审美探索与高保真的冲突,DPG 在采样过程中构建了一种柔性的“锚点约束”机制。算法在每一步会规划一条指向高质量参考锚点(Anchor)的确定性轨迹,将其与原始 SDE 采样方向结合计算出专属的“纠正向量(Correction Vector)”。借助时间步自适应的权重衰减策略,DPG 对生成轨迹进行了精细化控制:

  • 采样前期(高噪声阶段):赋予纠正向量较强的引导权重,强力纠正随机漂移,将生成轨迹拉回高保真流形,确保面部结构和光影的稳定。
  • 采样后期(细节生成阶段):动态降低纠正向量的引导强度,释放更多随机探索空间,使模型能在安全边界内,寻找超越高质量锚点、更契合人类审美的修图结果。

三、实验结果

Figure 1: 客观指标全面领先(跨越“感知-失真”困境)

  • 指标选择:为避免全参考指标(如 PSNR)带来的“感知-失真困境”,采用 NIMA、MUSIQ、MANIQA 等无参考(NR)美学指标。
  • 评估结果:BeautyGRPO 在各项 NR 指标上均显著优于现有专精及通用修图模型;同时 ArcFace 身份保留得分稳居0.95+,证明其在提升美感的同时未破坏面部特征。

Figure 2: 视觉效果直观对比(拒绝油光,还原呼吸感)

  • 传统基线:常陷入两难极端——要么对微小瑕疵“漏修”,要么因粗暴磨皮导致肌肤呈现失真的“塑料油光感”。
  • BeautyGRPO:精准剥离暗沉与痘印,重塑细腻毛孔与真实光泽。在完整痣等原生特质的同时,完美还原肌肤的“自然呼吸感”,呈现通透、高级的影像质感。

Figure 3: 主观双盲偏好测试(高度契合大众审美)

  • 测试设定:邀请 100 名涵盖不同年龄段与具备专业修图经验的用户,开展了严格的双盲偏好与打分测试。
  • 主观偏好断层领先:BeautyGRPO 以高达63.25%的偏好胜率位列第一,对第二名(12.00%)形成碾压式优势,切实印证了优化结果高度契合大众的审美预期。
  • 审美对齐精准拟合:测试进一步证实,专属多维奖励模型的评分与人类真实评分展现出了极高的对齐度,强有力地证明了该模型真正“读懂”了人类的审美逻辑。

Figure 4: 优异的基座泛化能力(即插即用)

将 BeautyGRPO 框架直接应用于通用的 Qwen-Image-Edit 大模型,有效化解了原模型在面部编辑时易引发的“身份偏移”和“过度平滑”问题,展现出极强的泛化潜力。

四、结语: 探索计算摄影的“真实之美”

BeautyGRPO 成功让 AI 摆脱了死板的修图套路,在“极致美学”与“原生保真”之间找到了完美的平衡。 这项 CVPR 2026 顶会成果的背后,印证着 vivo 蓝图影像实验室(vivo BlueImage Lab)在计算摄影与 AIGC 前沿的持续深耕。秉承“拒绝同质化粗暴磨皮,还原个人特质与自然真实”的美学哲学,团队期待此类底层算法的突破能够加速落地终端,为用户的每一次日常记录,赋予更专业、更高级的影像质感。

vivo BlueImage Lab
蓝图影像创新实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。
致力于不断提升 vivo 移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。
欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。
http://www.gsyq.cn/news/1603740.html

相关文章:

  • 这个项目是做什么的
  • [MAF预定义ChatClient中间件-01]LoggingChatClient——在调用LLM前后输出日志
  • 通用PLM根本撑不住!汽车/芯片/新能源研发的痛,它懂[特殊字符]全星研发项目管理APQP软件系统来救场
  • 评估模块(EVM)使用指南:规避法律风险与安全合规要点
  • FDE课程: Codex+AI 编程+ SeedanceAI 视频+ AgentAI 智能体
  • 汉明码编码译码推演与验证(P124302158李晨雨)
  • C#摸鱼实录——IoC与DI案例详解
  • FanControl终极指南:三步搞定Windows风扇智能控制
  • DLSS Swapper:终极游戏性能优化指南,告别卡顿从版本管理开始
  • python爬虫实战项目|第100篇:爬虫技术全景回顾与未来展望
  • 强制访问控制的数学基石:深度拆解BLP机密性模型的设计哲学与工程遗产
  • vi 删除指定范围的行,不用再反复按 dd
  • 编写高质量 Skill 系列 -- 如何设计需求分析与用例生成的 SKILL
  • 如何在10分钟内解决离线音乐库的歌词同步难题?LRCGET批量歌词下载终极指南
  • Seedance 2.0 做短视频分镜,我最在意的不是“出片”,而是能不能交给团队复用
  • 洛谷 P1854 花店橱窗布置:从 OJ 题解到动态规划实战心法
  • TLS 1.3如何防御中间人攻击:从加密原理到Nginx实战部署
  • 2026 年深圳远程IO模块选型指南:明达智控MR30系列
  • 国内外网站建设选择-主流网站建设工具客观对比(2026年6月最新)含零代码、AI编程、源码定制交付
  • Nacos Derby反序列化漏洞深度剖析与安全加固实战
  • TPA2018D1音频放大器I2C寄存器配置与驱动开发实战
  • Unlock Music:浏览器端音乐解锁完全指南 - 3分钟学会解密各大平台加密音乐
  • Docker--认识Docker网络
  • 如何在Windows上实现完整的AirPlay 2投屏:终极开源解决方案实战指南
  • 5步实现音乐自由:Unlock-Music帮你轻松解密各大平台加密音频文件
  • 2026一线大厂Java八股文精选(附答案,高质量整理)
  • 基于Feign+Resilience4j的微服务熔断防雪崩优化方案
  • 英雄联盟Akari助手:从手忙脚乱到从容不迫的游戏效率革命
  • 金库·封条·记分牌:SHE 安全硬件密钥防护体系深度解析
  • 深度学习十大归一化方法:两大阵营体系完整精讲