当前位置：首页 > news >正文

[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越

news 2026/6/15 13:52:49

Rethinking Machine Unlearning Objectives: A Gradient Perspective and Go Beyond

核心问题与动机

大型语言模型（LLM）在训练时容易记忆大量网际网路资料，导致版权侵害、隐私洩露或有害知识的问题。传统方法如监督微调或对齐（RLHF/DPO）成本高昂、需要高品质偏好资料，且稳健性不足。

机器忘却（Machine Unlearning）因此成为高效替代方案，目标是：在不重新训练整个模型的前提下，移除针对性「忘却资料」（unlearn data，如敏感或虚构作者档案）的参数化知识，同时保留对非目标资料（retain data）的模型完整性（utility retention）。

现有忘却目标（如 Gradient Ascent, GA；Negative Preference Optimization, NPO；Representation Misdirection for Unlearning, RMU 等）各有特性，但缺乏统一框架深入理解其机制、优缺点及副作用（如过度忘却导致通用能力崩坏）。论文核心动机是填补此空白，从梯度视角提出可量化、可细粒度分析的工具，揭示现有方法的根本局限，并探索改进与新方向。

这不仅是理论分析，更是专案导向：透过 G-effect 诊断问题 → 提出加权机制与 token-wise 改进 → 实证新 SOTA 方法，具高度可複製性与实务价值。

结果/成果

提出 G-effect（Gradient Effect）工具箱
定义忘却 G-effect（unlearning G-effect）和保留 G-effect（retaining G-effect），以风险度量 R（如 NLL）的梯度与忘却目标 L_u 的梯度点积近似性能变化。
- 负的 unlearning G-effect → 有效移除目标知识。
- 非负的 retaining G-effect → 维持通用能力。
优势：可跨资料点、更新步骤、模型层（浅层 vs. 深层）细粒度分析，远优于仅看最终 forget quality (FQ) 或 model utility (MU) 的黑箱评估。
对现有方法的深度诊断
- GA：unlearning 强但过度（inverse confidence 机制导致 retaining G-effect 大幅负向），浅层影响最大。
- NPO：权重机制优于 GA，能优先处理 retaining G-effect 小的点，但仍有局限（point-wise 非完美）。
- RMU：对层选择与超参敏感，易过度更新。
- 正则化：KL divergence 效果最佳，GD 次之，representation retention (RR) 不稳定。
新方法与改进
- Weighted GA (WGA)：引入 confidence weighting 缓解 inverse confidence，控制忘却程度。
- Token-wise NPO (TNPO) 与 Weighted TNPO (WTNPO)：将 NPO 权重细化到 token 层级，进一步提升弹性。
这些方法在 TOFU 基准（1%、5%、10% 忘却比例，Phi-1.5 与 Llama-2–7B）上达到新 SOTA，尤其 WGA 与 WTNPO 在移除与保留间取得更好平衡。

实验设定：使用 UWC（Unlearning with Control）框架调参，评估指标包含 ES-exact/ES-perturb（更直接反映参数化知识）、FQ、MU 等。

分析与洞见（多角度、边缘考量）

层级影响：忘却主要影响浅层（general knowledge），深层较稳健。这暗示忘却可针对性调整，而非全模型更新，具效率潜力。但浅层过度干扰可能导致广泛崩坏（catastrophic forgetting）。
过度忘却的危害：unlearning 增益常被 retain 损失抵消，甚至超过。G-effect 揭示这是动态过程（早期步骤影响最大），强调「early stopping」或 weighting 的重要性，而非单纯跑固定 epoch。
权重机制的威力与局限：NPO 的 w_su 能区分 beneficial/harmful points，但非完美（尤其 point-wise）。Token-wise 版本提供更好粒度，却也暴露 token 权重分配的语义不直观性（e.g., 关键词 vs. 功能词）。这开启未来「语义导向 weighting」的研究。
正则化角色：KL 等 retain 项至关重要，累积效应不可忽视。即使单步 G-effect 小，跨步骤仍会累积损害。

边缘考量与权衡：