当前位置: 首页 > news >正文

CANN/Qwen3-Next算子扩展

NpuOpsTransformerExt

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

简介 | Overview

该目录包含用于Qwen3-Next 推理的 NPU 融合算子实现,目前包括:

  • rmsnormgated融合算子
  • Gated Delta Network (GDN)融合算子

这些算子以 PyTorch Extension 的形式实现,并在安装后注册到torch.ops命名空间中供框架调用。

核心组件 | Core Components

本模块主要包含以下关键组件:

  1. gated_delta_net/<op_dir>/算子实现目录,主要包含:

    • <op_name>.cpp:算子调用文件。
    • op_kernel/:算子 Kernel 具体实现代码。
  2. gated_delta_net/<op_dir>/CMakeLists.txt算子编译配置文件。

  3. npu_ops_transformer_ext/npu_ops_transformer_ext/npu_ops_def.cpp算子接口注册文件。

环境要求 | Prerequisites

  • Python ≥ 3.8
  • CANN Ascend Toolkit
  • PyTorch ≥ 2.1.0
  • torch_npu (PyTorchAdapter)

上述依赖的安装与环境配置请参考 Qwen3-Next README。

安装步骤 | Installation

  1. 进入算子目录,安装依赖:
pip install -r requirements.txt
  1. 从源码构建.whl包:
python -m build --wheel -n
  1. 安装构建好的.whl包:
pip install dist/*.whl --force-reinstall --no-deps
  1. (可选)如果需要重新编译,建议先清理编译缓存:
python setup.py clean

算子调用 | Usage

完成编译并安装.whl包后,自定义算子会注册到torch.ops命名空间中,可通过如下方式调用:

import torch import npu_ops_transformer_ext # 调用自定义算子 out = torch.ops.npu_ops_transformer_ext.my_ops(input)

其中:

  • npu_ops_transformer_ext为算子注册的 namespace
  • my_ops为具体算子名称(在npu_ops_def.cpp中定义)

当前模块包含的算子示例:

torch.ops.npu_ops_transformer_ext.recurrent_gated_delta_rule(...) torch.ops.npu_ops_transformer_ext.mambav2_rmsnormgated(...)

具体输入参数格式请参考对应算子的实现代码。

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1632535.html

相关文章:

  • CodexBar终极指南:一站式掌控所有AI工具的用量监控
  • 逆向工程实战:Python脚本解析与生成IDA Pro授权文件
  • 深入理解Offix hooks:useQuery、useSave与离线数据操作技巧
  • 终极指南:yuzu Switch模拟器Android版架构深度解析与技术实现
  • CANN材料化学仿真预测:PID步响应特征提取
  • 基于YOLOv11的零售柜商品检测系统设计与实现
  • 3步搞定!tchMaterial-parser让您轻松获取智慧教育平台电子课本
  • 如何用CC Switch轻松管理所有AI编程工具:5分钟终极入门指南
  • 5分钟掌握DuckLake:SQL原生数据湖的现代数据管理方案
  • 3步打造你的脑机接口:用Arduino轻松读取脑电波数据的终极指南
  • DeepLearnToolbox:MATLAB深度学习工具箱的完整专业指南
  • ReScript genType 核心功能详解:从基础类型到复杂组件的自动转换
  • 2026大模型选型实战指南:性能、延迟与成本的动态平衡
  • AI网课摘要工具实测:语义压缩率与复习触发智能度深度解析
  • Packtpub-crawler性能优化:提升下载速度和稳定性的10个技巧
  • Packtpub-crawler故障排除:10个常见问题及解决方案完全手册
  • CPU架构:从指令集到生态,解析主流架构的竞争与融合
  • 深入解析clang-tutor:5个实用的Clang插件实例教学
  • Agent Skills技能边缘计算:在边缘设备部署技能的终极指南
  • [智能体-632]:OpenClaw web_search /web_fetch/browser 完整使用详解(含配置、两种调用方式、实战示例)
  • 如何用wiliwili将Switch变成你的全能娱乐中心:跨平台B站客户端终极指南
  • PWC-Net深度剖析:从传统光流到深度学习的革命性跨越
  • 2026驾驶证证件照制作指南:APP方法与尺寸规范
  • GoExec vs 传统工具:为什么这款Go语言编写的远程执行工具更受红队青睐?[特殊字符]
  • 探索Linux开源软件生态:从工具集合到开发范式的深度解析
  • Vue3DraggableResizable实战案例:构建可拖拽仪表盘
  • 突破性语音编码方案:如何在边缘设备上实现零依赖部署
  • 终极指南:如何在5分钟内安装CudaText跨平台文本编辑器
  • 揭秘tiktoken o200k_base:OpenAI新一代文本编码器如何重新定义AI语言处理边界
  • 5分钟解决Switch游戏PC体验难题:yuzu模拟器完全指南