当前位置：首页 > news >正文

快手开源大模型Keye-VL-2.0：一个能“看懂“两小时视频AI

news 2026/6/18 21:23:22

这项由快手集团Keye团队主导开发的研究成果，以技术报告的形式于2026年6月发布，论文编号为arXiv:2606.10651，感兴趣的读者可以通过该编号查阅完整原文。这份报告详细记录了Kwai Keye-VL-2.0-30B-A3B这一开源多模态大模型的完整技术细节，模型权重已公开发布在Hugging Face平台上。

你有没有试过让一个AI助手帮你总结一部两小时的纪录片，然后它告诉你它"只能看前几分钟"？这种令人抓狂的局限性，正是当前几乎所有视频理解AI都面临的核心困境。快手的研究团队在这份报告里，详细讲述了他们是如何打造出一款能够真正"看完"整部影片、并且还能精确定位其中关键片段的AI系统。

从表面上看，Keye-VL-2.0是一个"多模态大模型"——这个词听起来很高深，本质上就是一个既能看图、看视频，又能理解文字、写代码、操作工具的AI助手。但它真正的特别之处，在于它解决了两个长期困扰这类系统的根本性难题：一是如何在不把计算机搞崩溃的前提下处理超长视频；二是如何在教会AI各种新技能的同时，不让它忘掉原本已经掌握的能力。

贯穿整篇报告的核心比喻，可以用一位"全科医生"来理解。一名优秀的全科医生不仅要有宽广的知识面，还要能在海量的病历资料中迅速定位到关键信息，同时在学习新专科技能时不能把原来学过的基础医学知识全部遗忘。Keye-VL-2.0的设计目标，正是成为视觉世界里的这样一位全科医生。

一、为什么处理长视频这么难——以及快手团队找到的突破口

要理解这个问题，先来想象一下人类读书的过程。读一本薄薄的小册子很轻松，但如果要你一口气把一套三十卷的百科全书都放进脑子里同时记住，你大概会直接宕机。AI处理视频面临的挑战比这更极端：视频是由每秒数十张图片组成的，一部两小时的电影，即便以较低的采样频率截取帧，也会产生数以万计的图片需要分析。传统的AI注意力机制（可以理解为AI"眼神聚焦"的方式）是让每一个信息片段都与其他所有片段互相对照，这会导致计算量随着内容长度呈平方级增长——内容翻倍，计算量变成四倍；内容翻十倍，计算量变成一百倍。处理一小时视频的代价，会让绝大多数计算资源望而却步。

快手团队的解法，是将DeepSeek公司开发的一种叫做"稀疏注意力"（DSA，DeepSeek Sparse Attention）的技术，首次移植到多模态视觉理解场景中。这是整个系统最核心的技术创新之一。

稀疏注意力的原理，类比到人类阅读就很好理解了。当你精读一篇长文章时，你不会让眼睛逐字盯着每一个字与文章里所有其他字进行比对。你会先快速扫描，找到关键句子，然后在关键内容之间建立联系。稀疏注意力做的事情与此类似：它首先用一个轻量级的"侦察员"模块（论文中称为Lightning Indexer，闪电索引器）快速扫描所有信息，计算出哪些位置的内容最值得重点关注，然后只在这些精选位置之间进行深度的注意力计算。

具体来说，这个侦察员模块采用了一种叫做MQA（多查询注意力）的共享设计——它只用一组"眼睛"去扫描全文，而不是为每个信息片段都配一双独立的眼睛，大幅节省了计算资源。扫描完成后，系统会为每个当前处理的信息点，从整个上下文中选出最相关的2048个"关键伙伴"进行深度关注，而不是与所有数十万个内容点都进行对照。这样一来，原本O(L?)的计算复杂度就降低到了O(Lk)，其中L是总内容长度，k是固定的2048，且k远远小于L。

这里还有一个巧妙的工程细节：快手团队的模型底座采用的是GQA（分组查询注意力）架构，而现有的稀疏注意力系统大多是为DeepSeek自己的MLA架构设计的，两者并不兼容。快手团队为此专门开发了GQA与DSA的适配方案，这在业界是首次。

为了让稀疏注意力学得稳、用得好，训练过程分成两个阶段。第一阶段叫"密集热身"：先保持原有的全量注意力不变，专门训练那个侦察员模块，让它学会如何识别哪些位置是真正重要的。这个阶段用了约20亿个多模态训练样本，通过让侦察员的判断尽量贴近全量注意力的分布（用KL散度这一数学指标来衡量差距并最小化它）来完成训练。第二阶段叫"稀疏适应"：把整个模型的参数全部解冻，切换到真正的稀疏模式，让全局模型学会依赖这个侦察员来工作，同时继续用下一个词预测的标准语言模型目标进行训练。

最终效果相当可观：在128K上下文长度下，与标准全量注意力相比，预填充（处理输入内容）的计算代价只有原来的32%，解码（生成输出内容）的代价只有原来的20%。这使得处理256K长度的超长视频上下文变得实际可行。

二、模型的"身体构造"——四大核心组件如何协作

Keye-VL-2.0的整体架构，可以比作一套高度专业化的信息处理流水线，由四个核心部件组成。

第一个部件是视觉编码器（ViT），负责把图片和视频帧"翻译"成AI能理解的数字信息。快手团队为它设计了"原生分辨率"编码能力。以往的视觉AI通常有一个固定的"视力范围"，所有输入的图片都必须先缩放到同一个标准尺寸，这就像强迫一个视力正常的人永远戴着度数不对的眼镜看世界——很多细节会因为缩放而丢失或变形。Keye-VL-2.0的视觉编码器可以直接处理任意分辨率和任意宽高比的图片，不需要裁剪或拼接，保留原始图片中的所有信息。这对于阅读文件、识别图表中的小字、以及理解视频中的场景细节来说至关重要。

为了支持这种灵活性，编码器引入了两项技术改进。其一是自适应位置编码：原始的位置信息是固定的，通过插值方法让它能够随着输入图片的大小自动缩放。其二是2D旋转位置编码（2D RoPE）：这种编码方式能更好地捕捉图片中的二维空间关系，尤其在处理超高分辨率图片时表现更稳定。此外，训练时还采用了序列打包技术，把不同尺寸的图片拼在一起处理，避免计算资源的浪费。视觉编码器本身在五千亿个图文对上预训练，且使用了与下游多模态任务相同的数据分布，减少了预训练和实际使用之间的分布鸿沟。

第二个部件是语言解码器（LLM），也就是负责理解和生成文字的核心"大脑"，采用了阿里巴巴Qwen团队的Qwen3-30B-A3B-Thinking模型作为底座。这里有个数字值得关注：模型参数总量是300亿，但实际运行时只激活30亿个参数。这是因为底座采用了MoE（混合专家，Mixture of Experts）架构——把模型想象成一个由许多"专科医生"组成的团队，每次遇到问题，只召唤最相关的几位专家来会诊，而不是让所有医生都全程参与。这样既保留了大模型的知识容量，又大幅降低了运行成本。

第三个部件是MLP投影器，扮演的是"翻译官"角色，专门负责把视觉编码器输出的"图像语言"转换成语言解码器能听懂的"文字语言"，使两个模块之间能顺畅沟通。

第四个部件就是前文详细介绍的稀疏注意力模块，为整个系统提供处理超长上下文的能力支撑。

三、视频理解的统一策略——如何让AI理解"时间"

在具体处理视频时，快手团队采用了一套统一的编码策略，背后有几个值得细说的设计思路。

对于图片，系统直接按照原始分辨率编码，无需任何裁剪或缩放处理，视觉信息的完整度得到最大保留。

对于视频，团队选择了一种看起来简单但实际非常有效的做法：把每一帧视频都当作一张独立的高分辨率图片来处理，然后在每帧图片的视觉信息前面，额外加上一个自然语言格式的时间戳文字说明。比如"第00:02:35帧"这样的标注。这种设计的巧妙之处在于，时间信息被转化为了语言模型最擅长处理的文字格式，让模型在做时间定位和跨帧推理时可以直接借助其强大的语言理解能力，而不需要额外设计专门的时序处理模块。

针对不同长度视频的处理，团队还设计了自适应像素预算机制。短视频的信息相对密度高但重复性也高，长视频需要保留更多关键证据。因此系统会根据视频时长动态调整每帧分配的像素数量：256秒以内的短视频只用完整预算的12.5%，512秒以内用25%，1024秒以内用50%，2048秒以内用100%，超过2048秒的视频则使用完整基础预算。这套机制确保了在固定计算资源约束下，处理效果能随视频长度而合理扩展。

四、四阶段预训练——从零到精通的"修炼路线图"

Keye-VL-2.0的预训练过程分为四个阶段，就像一位学徒从入门到出师的成长历程，每个阶段有明确的学习目标和数据配方。

第零阶段叫"投影器初始化"，是整个训练的热身准备。这个阶段把视觉编码器和语言解码器都冻结，只训练中间的"翻译官"投影器，让它学会把视觉信息映射到语言模型的理解空间。使用的数据包括图文配对描述和交叉排列的图文混合内容，数据规模约40亿个训练样本，最大序列长度8K。这一步相当于先打通两个模块之间的通讯频道，再开始真正的联合训练。

第一阶段是"通用多模态预训练"，所有参数全部解冻，在约1万亿个训练样本上进行大规模训练，最大序列长度扩展到32K。这个阶段的训练数据涵盖了图文配对描述、交叉图文内容、交叉视频文字内容、纯文字问答，以及大量OCR（文字识别）数据。视频数据在这个阶段以15秒短片为单位进行学习，每段视频配有对应的文字描述，构成多模态序列。为了提升来自网络的开源数据集（LAION、DataComp、COYO、CC12M等）中图文描述的质量，团队采用了两种策略：一种叫Recaption，直接用专业的描述生成模型重新生成更高质量的描述；另一种叫Remake，在原有描述的基础上纠正语法和表达错误，但不改变其语义。这个阶段的核心目标是建立稳定的视觉-语言对齐基础。

第二阶段是"多任务能力注入"，上下文长度进一步扩展到64K，训练规模约2万亿个样本。这个阶段的重点是向模型注入各种专业能力：高级OCR能力通过真实样本（包括收据、各类图表）和合成样本（从XML模板生成，并叠加模糊、光照变化、褶皱、手写变化等数据增强）的结合来训练；数学与STEM能力通过涵盖几何图形、函数图像、实验装置、化学公式和科学图表的视觉题目来培养，并用LLM自动验证答案质量；图形界面理解能力（GUI）通过屏幕截图、控件元数据和交互语义数据来训练，为后续的页面操作和导航任务打基础；定位与计数能力通过合成的实例粘贴数据来训练，从COCO和OpenImages数据集中取出候选物体，粘贴到背景上并生成精确的边界框和数量标注；此外还有通用视觉问答、电商产品理解，以及将英文数据翻译成中文以增强中文覆盖的数据。纯文字数据在这个阶段也继续保留，包括数学推理、代码、工具调用轨迹、搜索与检索增强生成示例，目的是防止多模态训练侵蚀语言能力基础。

第三阶段是"长上下文扩展"，将最大序列长度推到了256K，视频处理时长从15分钟扩展到2小时。长上下文样本与短上下文样本以1:1的比例混合，确保模型在获得处理超长内容能力的同时不退化常规任务性能。训练数据覆盖长视频、长文档、多文档输入、跨页面多图对话、长代码上下文，以及长程Agent轨迹（需要跨越多次工具调用维护任务状态）。这个阶段的目标不仅是"放大上下文窗口"，更是训练模型真正具备在超长内容中进行检索、聚合和跨位置推理的能力。

在视频预训练的课程设计上，团队还引入了两个特别的数据构造方法。其一是"场景级密集描述"：将视频按场景边界分割，为每个场景生成带时间戳的详细文字描述，同时生成整视频的全局概览，帮助模型学习场景边界识别和时间对齐能力。其二是多样化的"时序视频定位"数据，参考ETBench基准构建，涵盖引用动作识别、视频高光检测、提取式视频摘要和时间事件匹配等任务，从不同角度提供时间感知和时间推理的监督信号。

五、后训练阶段——打磨成专家的精细工序

预训练完成后，模型相当于一位博览群书但还不太会与人交流的学者。后训练阶段的任务，是把这位学者打磨成一位能够流畅对话、独立决策、多领域协作的专家顾问。

后训练的第一步是监督微调（SFT），使用了约5000亿个训练样本的指令数据集，覆盖文字、视频、感知、推理、Agent和长上下文等类型。其中约40%是纯文字数据，用于锚定通用指令跟随和文字推理能力。

在这个阶段，团队构建了一套"合成思维链"（Synthetic CoT）数据。由于大多数多模态指令数据只提供最终答案，缺乏对中间推理过程的监督，团队用强大的教师模型为高质量问答对生成推理过程，然后通过查询级、回答级和过程级的多重质量检查进行过滤。对于数学任务，还额外引入了"Doubt2Clean"二次审查，在27个数据集上清洗可疑的思维链样本。视频数据在这一阶段有特别的设计：部分样本以多选题形式呈现，要求模型在思考阶段验证候选时间片段，并在最终答案中同时输出答案选项和支撑时间区间，格式为[[分钟, 分钟], ...]，强迫模型养成从连续视频中定位关键证据的习惯。

六、强化学习矩阵——让AI在"试错"中成长

后训练阶段的第二大支柱是强化学习（RL），这是Keye-VL-2.0能力跃升的关键引擎。快手团队设计了一套层次分明的强化学习体系，从合成数据RL、通用RL、专项RL到视频RL和Agent RL，环环相扣。

合成数据强化学习的核心思路，是用程序自动生成训练题目，从而获得可自动验证的奖励信号，无需人工标注。具体做法是给模型展示两张图片，其中一张在另一张基础上进行了受控修改，要求模型找出所有变化。由于修改内容是程序精确控制的，对错判断可以完全自动化。任务分为两类：定位类任务要求预测变化区域的边界框，结构类任务要求用领域专用描述语言输出对应的操作集合，覆盖几何图形、化学式、物理电路等结构化场景。为了防止模型走捷径（比如直接做像素级差分比较），训练中还刻意引入了与变化无关的干扰——颜色抖动、布局扰动、槽位打乱、语义无操作变化、视角变化等，迫使模型真正理解语义变化而非表面变化。

通用强化学习在监督微调和蒸馏完成后进行，专注于带有可验证标准答案的任务，包括通用视觉问答、STEM推理、图表理解、数学和逻辑推理。训练算法采用了阿里巴巴Qwen团队提出的GSPO（分组序列策略优化），其核心思想是对同一个问题生成多个回答，用这些回答之间的相对质量差异来计算优势值并优化策略，而不是单纯追求每个回答的绝对正确率。奖励系统分为四层：格式奖励确保输出可被解析，结果奖励验证最终答案是否正确，过程奖励惩罚推理中的事实错误和逻辑漏洞，而ContextRL奖励则通过将生成的回答与经过验证的参考解进行比对，来减少"答案对但推理错"这种虚假阳性问题。

专项强化学习针对五个垂直领域分别训练了专家模型：定位专家通过归一化边界框预测和匈牙利匹配奖励来强化精确目标定位能力；空间专家面向空间关系理解，因为许多空间问题没有简单确定性答案，采用了生成式模型评判打分（-1/0/1三档）；数学专家用符号等价奖励验证数学题的正确性；计数专家采用精确数字匹配奖励处理视觉计数任务；OCR专家用归一化文本匹配奖励（对大小写、空格和标点进行归一化后比较）来强化文字识别能力。这些专家模型的目标不是成为最终产品，而是成为后续能力蒸馏的优质教师。

视频强化学习在通用RL检查点基础上，用约31000个视频样本继续训练，同时冻结视觉编码器和投影器只更新语言模型部分。训练任务包括时序视频定位（用时间IoU作为奖励）、时序密集描述（用LLM评判主体识别、动作描述、场景信息、OCR文字、时序顺序、幻觉和覆盖率等多个维度）、帧级感知、视频问答、时序排序和事件计数。此外还引入了FrameForge合成视频，提供时间戳定位、计数、前后推理和共现推理的可程序验证监督信号。这个阶段约带来1个百分点的通用视频基准性能提升。

Agent强化学习覆盖代码、工具调用和搜索三类任务。在代码方向，系统使用在线判题（Online Judge）和软件工程两类环境：在线判题通过编译和隐藏测试用例判断程序正确性；软件工程任务在容器化环境中评估仓库级别的问题解决，模型需要查看日志、运行测试、编辑文件、提交补丁，奖励基于测试套件通过情况。对于仓库级任务，还设计了多审查员Agent协作的验证集成协议。工具调用训练覆盖超过150个模拟API域，随机化工具和参数名称以减少对记忆特定API格式的依赖，培养通用工具调用能力。搜索任务通过多轮检索交互训练，奖励以最终答案正确性为主，中间检索结果的轻量验证信号作为辅助。

为了处理长程交互中轨迹长度不均一的问题，三类Agent任务都采用了共享的"部分轨迹共置"机制：未完成的轨迹被缓存等待下一轮继续，完成的轨迹组立即用于GSPO更新，确保计算资源不因等待而浪费。

七、跨模态多教师在线蒸馏——解决"学新忘旧"难题的关键

在完成上述所有专项强化学习之后，一个棘手的问题出现了：每种专项训练都会让模型在该领域有所提升，但各领域之间可能产生干扰。比如数学推理RL训练完后，模型可能输出变得过于简短；Agent训练完后，模型可能在不需要工具的场景里也频繁插入工具调用格式。直接把所有数据混在一起训练，则容易因为任务目标相互冲突而导致各领域同时退步。这就是研究团队所说的"多模态对齐困境"。

快手团队的解法叫做"跨模态多教师在线蒸馏"（MOPD）。打一个比方：假设你同时在向一位钢琴老师、一位英语老师和一位数学老师学习，每位老师都在各自领域给你细致的指导，你需要把三位老师教授的知识整合进自己的大脑而不让它们互相冲突。MOPD做的正是这件事。

系统维护了13个经过领域专项RL训练的教师模型，覆盖安全、纯文字数学、指令跟随、代码、视觉STEM、OCR、定位、计数、视频、工具调用等多个领域。对于每一个训练样本，系统根据其模态和任务类型，自动路由到最匹配的教师模型。学生模型（也就是Keye-VL-2.0本身）先按照自己当前的策略生成一个回答，然后被路由的教师模型对学生回答中的每一个词（token）提供精细的概率分布反馈，指导学生在哪些位置应该更接近教师的分布。

为了让蒸馏信号更稳定，系统只在教师和学生都认为可信的词汇范围内（即两者TopK预测词的交集）计算反馈，避免在双方都不确定的低概率词上引入噪声。学生模型用优势加权的策略梯度目标进行优化，同时还有两个额外的细节处理：针对不同词的类别（格式词、感知词、推理词）施加不同的优势权重，降低格式词的权重以防止格式化问题压制实质内容的学习；对于长文本生成中出现的重复崩塌现象，只在崩塌发生位置之后施加惩罚，而不是对整个回答都扣分。

这一套MOPD机制的另一个工程挑战是：学生和教师必须在完全相同的输入预处理条件下运行，否则即使同一张图片，经过不同处理后对应的词序列可能不同，反馈信号就会错位。团队为此专门设计了严格的预处理对齐验证系统，涵盖图片token数量、视频帧采样方式、对话模板格式和旋转位置编码等所有可能导致错位的因素。

八、推理侧的工程优化——让一切在实际部署中跑得起来

理论上再美妙的设计，如果部署时慢得令人抓狂，也只是空中楼阁。快手团队在推理系统上也做了大量针对性优化。

针对超长视频推理，系统引入了三项关键优化。第一是"分块ViT"：把视频帧分成小批次，由视觉编码器顺序处理后再合并，显著降低了显存峰值占用，且不改变模型输出结果。第二是稀疏注意力的相邻查询去重：相邻查询往往选择高度相似的Top-k关键值集合，通过对相邻查询的Top-k集合进行去重，并在注意力计算核内使用MMA线程布局感知掩码，在128K上下文和topk=2048的配置下，16个相邻查询实际只需处理约8000个有效Key-Value对（而不是16×2048=32768个）。第三是解码优化：DSA特定的解码优化使得在128K上下文下，与标准全量注意力相比，预填充代价降低到32%，解码代价降低到20%。

在预训练系统侧，团队引入了ExtraIO异步I/O服务，把视频解码和帧采样的工作从训练主循环中剥离出来，通过水平可扩展的独立服务异步提供数据，消除了I/O瓶颈。此外，视觉编码器和语言解码器虽然共享同一组GPU，但采用独立的并行分片策略，避免了两者性能特征差异导致的负载不均衡。通过在多模态Token级别和语言模型样本级别两个层次进行负载均衡，端到端训练吞吐量提升了约20%。

在RL训练中使用DSA时，为了确保训练和推理阶段Top-k结果完全一致（避免训练-推理不一致问题），团队用flashinfer.topk替换了torch.topk，在保持确定性的同时实现了2-3倍速度提升。

九、全面评测——成绩单上的关键数字

在视频理解方向，Keye-VL-2.0-30B-A3B在多个重要基准上取得了领先表现。在LongVideoBench（专门评估长视频语言推理能力）上得分74.1，超过Qwen3-VL-235B-A22B（一个参数量是其近8倍的模型）的70.5；在Video-MME-v2（评估全模态信息聚合和复杂推理的新基准）上，512帧设置下的准确率42.4和非线性评分24.2，都显著领先同等规模的竞争对手。

时序定位方向的表现尤其突出。在TimeLens框架（对ActivityNet Captions、QVHighlights和Charades-STA重新清洗标注的高质量评测框架）上，Keye-VL-2.0在全部三个子集上都取得最高mIoU（时间交并比）：ActivityNet-TimeLens 58.5、QVHighlights-TimeLens 70.1、Charades-TimeLens 58.4，均领先参数量更大的Qwen3-VL-235B-A22B（对应得分52.1、64.6、47.8）以及Gemini-3-Flash（对应57.0、49.5、61.2，其中Charades子集Gemini得分较高）。在Video-MMMU（评估模型从教学视频中学习并应用领域知识的能力）上得分80.0，与同级别最强模型持平，接近闭源模型GPT-5-mini。

代码与软件工程方向，LiveCodeBench v6得分64.2，OJBench（在线判题风格的算法题）得分71.5，SWE-bench Verified（仓库级问题修复）得分62.0，在开源模型中处于第一梯队。工具调用方向，在τ?-Bench和VitaBench上取得最高分，在BFCL-V4上排名第二。

通用视觉语言能力方面，在WeMath视觉数学推理上得分75.8，DynaMath上80.9，AIME2025上86.7，AME2026上93.3，OCRBench上85.7，OmniDocBench上89.0，HallusionBench（视觉幻觉诊断）上73.5，FSC-147计数任务上28.0，EmbSpatialBench空间理解上83.2，PixMo-Count上87.9。这些数字描绘出一幅全面均衡的能力图谱，没有明显的短板领域。

归根结底，Keye-VL-2.0-30B-A3B的意义不只在于几个基准上的数字领先。它更重要的示范价值在于：用相对有限的激活参数量（30亿），通过精心设计的架构创新和分层训练策略，在超长视频理解和多领域Agent能力上同时达到甚至超越了参数量更大的模型。它证明了稀疏长上下文建模和精心设计的多阶段强化学习，可以被整合进一个单一可部署的MoE系统，而不必在通用推理能力上做出妥协。

对于普通用户而言，这意味着未来的AI助手有望真正帮你"看完"一部纪录片并做出有实质意义的总结，帮你在数小时的会议录像中精确找出你想要的那段对话，或者在复杂的多步骤任务中持续保持状态而不中途迷失。快手团队也在报告中明确表示，他们下一步的方向是把这套能力深度融入推荐、内容生态治理、商业定向等实际业务场景，以及开发视频与Agent协作的工作流。这表明该研究不是停留在实验室里的技术演示，而是有明确落地路径的工程实践。

对于研究人员而言，这份报告提供了大量可参考的技术细节，从GQA兼容的DSA适配方案、两阶段稀疏注意力训练策略、自适应像素预算设计，到MOPD的多教师路由机制和ContextRL奖励设计，每一个模块都有详细的公式推导和工程实现说明。有兴趣深入研究的读者，可以通过论文编号arXiv:2606.10651查阅完整技术报告，或前往Hugging Face的Kwai-Keye主页下载开源模型权重自行实验。

Q&A

Q1：Keye-VL-2.0是什么类型的AI模型，和普通的聊天AI有什么不同？

A：Keye-VL-2.0是快手开发的多模态大模型，意味着它不仅能理解文字，还能看图片、看视频，并且能写代码、调用工具。和普通聊天AI最大的区别在于它能处理长达两小时的视频内容，精确定位视频中的关键片段，而不是只能处理几秒或几分钟的短视频。它的参数总量是300亿，但运行时只激活30亿，部署成本相对较低。

Q2：DeepSeek稀疏注意力机制在Keye-VL-2.0里是怎么工作的，为什么重要？

A：稀疏注意力的核心思路是先用一个轻量级"侦察员"模块快速扫描所有视频帧和文字内容，选出最相关的2048个关键位置，然后只在这些位置之间进行深度计算。传统全量注意力是让所有内容互相对照，计算量随长度平方增长；稀疏注意力将其降低到线性增长，使处理256K超长上下文成为可能。在128K长度下，预填充计算代价只有传统方式的32%，解码代价只有20%。

Q3：多教师在线蒸馏（MOPD）解决了什么具体问题，怎么理解它的工作原理？

A：MOPD解决的是"学新忘旧"问题——在给模型注入代码、视频理解、工具调用等新能力时，往往会破坏它原本的数学推理或指令跟随能力。MOPD的做法是维护13个不同领域的专家教师模型，对每个训练样本自动匹配最合适的教师，让教师对学生生成的每个词提供细粒度的概率反馈。这样各领域的知识通过专属教师独立传递，再汇聚进同一个MoE主模型，避免了直接混合训练时的相互干扰。

查看全文

http://www.gsyq.cn/news/1550123.html