当前位置：首页 > news >正文

重磅发布：KaLM-Embedding-V2.5横空出世，0.5B参数刷新紧凑型嵌入模型性能天花板

news 2026/6/11 9:28:28

重磅发布：KaLM-Embedding-V2.5横空出世，0.5B参数刷新紧凑型嵌入模型性能天花板

【免费下载链接】KaLM-embedding-multilingual-mini-instruct-v2.5项目地址: https://ai.gitcode.com/hf_mirrors/KaLM-Embedding/KaLM-embedding-multilingual-mini-instruct-v2.5

在自然语言处理领域，嵌入模型的性能与效率一直是开发者关注的核心议题。近日，一款名为KaLM-Embedding-V2.5的多功能紧凑型嵌入模型正式亮相，凭借其卓越的性能表现和创新的技术架构，在同等规模模型中一举实现了SOTA（State-of-the-Art）性能，甚至能够与3-26倍更大参数量的模型展开激烈竞争，为行业带来了全新的技术突破。

KaLM-Embedding-V2.5模型参数规模为0.5B，嵌入维度达到896，最大输入令牌长度支持32k，这意味着它能够处理更长文本序列的嵌入需求。同时，该模型提供了896、512、256、128和64等多种MRL（Model Reduction Level）维度选择，极大地增强了模型在不同应用场景下的灵活性和适应性。在技术实现上，KaLM-Embedding-V2.5采用了双向注意力机制和均值池化方法，有效提升了文本表征的质量和稳定性。

如上图所示，该性能对比图清晰地展示了KaLM-Embedding系列模型在参数量与平均任务得分之间的关系以及多任务表现。通过散点图可以直观看到，KaLM-Embedding-V2.5在0.5B参数量级别上，其平均任务得分显著高于同规模模型，甚至逼近了更大参数量模型的性能水平；雷达图则全面呈现了模型在各类任务上的均衡表现，凸显了其强大的综合能力。这为开发者在选择模型时提供了重要的参考依据，证明了小参数量模型也能拥有出色的性能。

KaLM-Embedding-V2.5的卓越性能得益于其精心设计的训练方案。该方案主要包括三个关键环节：大规模弱监督预训练、高质量监督微调以及带有细粒度软标签的对比蒸馏。在训练过程中，模型还运用了焦点式样本重加权和在线难负例混合技术，通过动态调整样本权重，突出困难样本的训练重要性，并丰富难负例的多样性，从而有效提升了模型对复杂语义的理解和区分能力。

为了推动技术的开放与共享，KaLM-Embedding-V2.5的开源计划涵盖了多个模型checkpoint，包括KaLM-embedding-multilingual-mini-v1、v1.5、v2、v2.5以及KaLM-Embedding-Gemma3-12B-2511等不同版本，满足了开发者在不同场景下的多样化需求。同时，开源资源还提供了完整的训练评估代码、详细的技术报告以及预训练和微调数据，为研究者和开发者深入理解模型原理、进行二次开发和应用部署提供了便利。

此训练工作流程图详细展示了KaLM-Embedding-V2系列模型的核心训练机制。左侧的对比学习流程清晰呈现了模型如何通过任务指令引导，对查询和段落输入进行处理并计算对比损失，以学习文本之间的语义关联；右侧的对比蒸馏流程则展示了如何利用细粒度软标签进行知识传递，进一步优化模型性能。这张图直观地揭示了模型训练的内在逻辑和关键技术点，帮助开发者更好地理解模型的训练过程，为模型的调优和改进提供了清晰的思路指引。

在性能评估方面，KaLM-Embedding-V2.5在MTEB（中文、英文v1版本）基准测试中展现了优异的整体性能和详细的任务表现。更值得一提的是，该模型具备强大的OOD（Out-of-Distribution）泛化能力，在现实检索场景中，即使面对未见过的数据分布，仍能保持稳定的性能，可与15倍参数量的大模型展开有效竞争。此外，模型采用的Matryoshka嵌入技术，使得在嵌入维度减小至64等小维度时，仍能保持稳健的性能表现，为资源受限的应用场景提供了高效的解决方案。

在实际使用过程中，为了确保模型的正常运行和最佳性能，建议用户安装transformers>=4.37.0版本。KaLM-Embedding-V2.5支持sentence-transformers和vllm两种调用方式，满足了不同部署环境的需求。同时，开发者可以通过为输入文本添加适当的任务指令来优化查询效果，进一步提升模型在特定任务上的表现。该模型适用于检索、重排序、分类、聚类等多种自然语言处理任务，为各类应用场景提供了强大的技术支持。

相关研究成果已发表于arXiv平台，研究者提供了详细的引用格式和联系方式，方便学术界和工业界人士进行交流与合作。KaLM-Embedding-V2.5的推出，不仅为紧凑型嵌入模型树立了新的性能标杆，也为自然语言处理技术的发展注入了新的活力。未来，随着技术的不断迭代和优化，我们有理由相信，KaLM-Embedding系列模型将在更多领域发挥重要作用，为构建更智能、更高效的文本处理系统贡献力量。开发者和研究者可以充分利用开源资源，探索模型在实际应用中的更多可能性，共同推动自然语言处理技术的创新与发展。

【免费下载链接】KaLM-embedding-multilingual-mini-instruct-v2.5项目地址: https://ai.gitcode.com/hf_mirrors/KaLM-Embedding/KaLM-embedding-multilingual-mini-instruct-v2.5

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.gsyq.cn/news/90130.html