当前位置：首页 > news >正文

多语言大语言模型与大脑语言网络的因果关联研究

news 2026/6/24 19:04:33

1. 多语言大语言模型与大脑语言网络的因果关联研究概述

在计算神经科学和人工智能的交叉领域，一个根本性问题日益凸显：大语言模型(LLM)如何以及为何能够模拟人类语言处理？这个问题不仅关乎我们对人工智能的理解，更可能为揭示人类语言认知的神经机制提供新视角。本研究采用了一种创新的"计算神经科学"方法，通过系统性地干预多语言大语言模型的内部结构，来探究其与大脑语言网络的因果关联。

这项研究的核心在于将多语言LLM视为"可控的计算系统"，通过精确的参数干预（即"计算性切除"）来模拟神经科学中的经典损伤研究范式。研究者选取了三种主流模型架构（LLaMA2、Qwen2.5和Mistral），每种架构包含两个参数规模（约7B和13-14B），确保了研究发现的普遍性。特别值得注意的是，这些模型虽然架构各异，但都采用了解码器-only的Transformer结构，为跨模型比较提供了基础。

关键提示：计算性切除不同于简单的特征消融，它针对的是模型内部的功能性子网络，这种方法借鉴了神经系统科学的经典研究范式，但将其应用于人工神经网络的分析。

2. 研究方法与技术路线解析

2.1 模型选择与实验设计

研究团队精心选择了六种多语言大语言模型，覆盖三种不同的架构家族：LLaMA2、Qwen2.5和Mistral。这种选择绝非偶然——每种架构都代表了不同的多语言处理倾向：

LLaMA2（Meta开发）主要基于英语语料，但保留多语言能力
Qwen2.5（阿里巴巴开发）在英语和中文语料上表现突出，支持29种语言包括法语
Mistral（法国Mistral AI开发）特别强调多语言流畅性，尤其在欧洲语言上表现优异

这种架构多样性确保了研究发现不依赖于特定模型的设计特性。所有模型都采用Transformer的解码器-only架构，使用标准的自回归训练目标，但它们在注意力机制、tokenizer设计和上下文窗口等方面存在差异（见表1）。

2.2 核心与语言特定子网络的识别方法

识别模型中的功能性子网络是本研究的核心技术挑战。研究团队采用了一种基于参数重要性的精细方法：

全参数微调：每个基础模型分别在中文、英文和法文语料上进行独立微调
参数重要性评估：对于每个参数θ_i，计算其对于语言L的重要性得分I_L(θ_i) = |θ_i| · Σ|∂L_L/∂θ_i|，综合考虑了参数大小和训练过程中的梯度累积
核心子网络定义：将三种语言重要性得分总和最高的前1%参数定义为"核心语言区域"
语言特定子网络：计算相对重要性得分，识别对单一语言特别重要的前1%参数

这种方法确保了子网络的识别基于参数的实际功能贡献，而非简单的统计相关性。值得注意的是，这里的"核心"应理解为"跨语言共享的重要参数"，而非完全语言无关的算法。