当前位置：首页 > news >正文

[论文学习]大型语言模型中个人可识别资讯（PII）的机器遗忘技术：UnlearnPII 基准与 PERMU 方法的分析

news 2026/6/7 23:28:29

Machine Unlearning of Personally Identifiable Information in LLMs (D. Parii et al., 2025, ACL/NLLP)

核心问题与动机

大型语言模型（LLMs）在海量网络数据上预训练，常会无意中记忆并重现个人可识别信息（Personally Identifiable Information, PII），如姓名、电话、地址、银行账号、医疗信息等。这带来了严重的法律与伦理风险，尤其符合欧盟 GDPR 的「被遗忘权」（Right to be Forgotten），要求数据主体能请求删除其个人数据。

传统全量重新训练成本极高且不具弹性，而现有机器遗忘（Machine Unlearning）方法多聚焦于一般事实或虚构作者数据（如 TOFU 基准），忽略 PII 的特性：

隐含知识（Implicit Knowledge）：模型可能通过同义改写、间接关联或 jailbreak 攻击泄露 PII。
评估不足：现有指标常平等对待所有 token，忽略 PII 的细粒度泄露，且缺乏跨领域（如一般、银行、医疗）与对抗性测试。
实用性挑战：方法需同时达成有效遗忘（低泄露率）、保留模型效用（Utility）、维持输出质量，且易于整合到现有工作流程。

论文动机是开发模型无关（model-agnostic）、计算高效的 PII 专用遗忘解决方案，并建立专门基准来系统性评估，推动符合隐私法规的实际应用。研究问题包括：如何同时移除显性与隐性知识？不同 PII 类别的遗忘难度差异？SOTA 方法在不同模型规模上的表现？

结果/成果

1. UnlearnPII 基准

包含225 个合成个人档案（2000+ QA 对），涵盖16 种 PII 类别，跨一般、银行、医疗三大领域。
评估框架：内范围攻击（DirectQA、ParaphrasedQA）与外范围攻击（OneHopQA、InvertedQA），通过自动补全（Autocompletion）与提取攻击测试。
细粒度指标：Extraction Success Rate (ESR)，区分显性/隐性泄露，同时测量 Utility、Fluency 与保留集（Test Retain）表现。
优点：解决现有基准忽略隐含知识与对抗稳健性的问题，提供更现实的 PII 风险评估。

2. PERMU_tok 方法（PERMU 的 token-level 扩展）

基于原始 PERMU（Perturbation-based Machine Unlearning），通过token-level 噪音注入生成对抗样本，结合对比学习调整 logit 分布。
改进点：
- 用简单启发式（以目标人物姓名作为 subject token）取代计算密集的 Model Sensitivity Metric (MSM)；
- 转为 token-level 噪音，实现模型无关（只需修改输入数据，无需改动模型 forward 函数）。
参数：Replace Token Probability (R=1) 与 Corrupt Token Neighborhood (N=k1_match)，平衡遗忘强度与效用。

主要成果（以 Llama3.1–8B 为例）：

Direct/Paraphrased 攻击 ESR 降至0.22%–0.61%（显著优于基线）。
隐性攻击（如 InvertedQA）也有良好表现。
Test Retain ESR 维持>95%，Utility 轻微下降但在 MMLU、GSM8K、ARC 等通用基准上仅掉<1%。
优于 Gradient Ascent (GA)、DPO、NPO 等替代方法（后者常导致灾难性遗忘或输出退化）。

跨模型规模测试（Qwen2.5 1.5B–32B）：更大模型倾向有更好遗忘效果与知识分离能力。

开源程序代码公开可用，易于整合。

不同 PII 类别表现差异：

电话号码等孤立识别符较易遗忘；
职业、疾病、治疗等语义丰富类别较难完全移除（ESR 残留 5–9%），因其形成广泛关联网络。

分析与洞见

遗忘 vs. 效用权衡：PERMU_tok 通过温和 token-level 扰动，产生更高熵的对抗分布，有效漂移概念而非死记硬背，适合 PII 这种需要移除「关联」而非单一事实的场景。相较 embedding-level 原始 PERMU，它在隐性知识移除上更优，效用损失更小。
PII 语义特性：语义丰富的 PII 形成多路径记忆，更难精准切断。这暗示未来需结合语义图或更细粒度遗忘策略。
模型规模影响：更大模型因参数容量大，更易分离目标知识与通用知识，符合 scaling law 直觉。但小模型在特定设定下也展现潜力。
评估细微之处：精确匹配（exact matching）用于 ESR 避免模糊匹配的假阳性，但可能低估部分泄露。合成数据虽控制良好，但现实中 PII 稀疏，遗忘效果预期更好。

边缘案例与限制：