当前位置: 首页 > news >正文

CANN/ops-tensor Kernel API 概述

Gemm/Kernel 类模板概述【免费下载链接】ops-tensorops-tensor 是 CANN Compute Architecture for Neural Networks算子库中提供张量类计算的基础算子库采用模块化设计支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensorAPI 清单组件名描述kernel_matmul_basic基础矩阵乘 Kernel仅 AIC 计算无 workspacekernel_qbmm_mx_basicMX 量化 Batch Matmul支持 MxFP4/MxFP8 量化kernel_matmul_streamkStreamK 矩阵乘 KernelAICAIV 双核计算支持 workspace公共框架所有 Kernel 组件基于 kernel.md 公共框架实现包含统一的模板参数数据结构Params、Arguments核心方法Init、operator详见kernel.md核心组件关系KernelMatmul ├── BlockScheduler (任务调度) │ ├── Tile 切分策略 │ ├── Block 分配 │ └── HF32/L2Cache 配置 ├── BlockMmad (矩阵乘计算) │ ├── GM → L1 → L0 数据搬运 │ ├── Mmad 计算 │ └── L0C → GM 结果搬出 └── BlockEpilogue (后处理) └── Empty 或 StreamK 实现实现差异对比Kernel 类型计算模式量化支持Scale 支持BlockEpilogueWorkspaceBatch 支持BlockSchedulerAIC-AIV 同步适用场景KernelMatmulBasic仅 AIC不支持不支持BlockEpilogueEmpty不需要单 batchMatmulBasic无通用 MatmulKernelQbmmMx仅 AICMX FP4/MX FP8ScaleA ScaleB无不需要多 batchBlockSchedulerQbmm无量化 Batch MatmulKernelMatmulStreamKAIC AIV 双核不支持不支持BlockEpilogueStreamK需要单 batchStreamK Scheduler有切 K 场景 Matmul使用流程查看公共框架了解模板参数和核心接口 → kernel.md选择具体实现根据场景选择 Basic、QBMM MX 或 StreamK查看特殊约束了解各实现的特有约束和方法组装组件定义 ProblemShape、BlockMmad、BlockEpilogue、BlockScheduler准备参数构造 Params 结构体执行 Kernel实例化并调用 operator()【免费下载链接】ops-tensorops-tensor 是 CANN Compute Architecture for Neural Networks算子库中提供张量类计算的基础算子库采用模块化设计支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensor创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
http://www.gsyq.cn/news/1340877.html

相关文章:

  • 新手如何选购第一台电钢琴?真实经验分享,这8款闭眼入不踩坑
  • 2026初学者电钢琴保姆级避坑指南|新手全阶段适配攻略,资深钢琴老师力荐
  • EIG旗下的MidOcean Energy宣布其股权融资计划获得The Arab Energy Fund的1.2亿美元投资
  • 【无人机编队】基于环形拓扑的分布式一致性无人机编队控制MATLAB实现,包含2D平面和3D空间编队算法及可视化工具
  • Twemoji跨平台表情统一渲染方案:构建一致性用户体验的核心技术
  • CANN ops-sparse与PyTorch集成指南:让深度学习模型享受稀疏加速
  • LunaTranslator实战指南:解锁视觉小说无障碍阅读的全流程解决方案
  • 排水泵站远程监控系统:远程启停,现场作业简约化
  • agx 在anaconda部署ros2和检测算法遇到的问题
  • 《Sysinternals实战指南》LiveKd 学习笔记(8.10):不重启、不双机,也能抓到内核现场?
  • Python实现动态Token签名机制:时间戳+密钥+设备指纹三重鉴权
  • UVa 257 Palinwords
  • VirtualSMC传感器数据流分析:从硬件读取到SMC密钥生成的完整流程
  • AnyFlip下载器:一键将在线翻页书转换为PDF的终极解决方案
  • 【2026必藏】6款智能降AIGC网站大曝光,一键秒降AI率至安全区!
  • Angular-dragdrop项目贡献指南:从克隆到测试的完整流程
  • AI创业的现状与未来:大模型时代下的创业机会
  • 工业AI模型全生命周期管理:AI模型养成记
  • UnattendGenerator实战案例:如何批量部署Windows系统
  • 抖音批量下载器完整指南:如何5分钟搭建你的个人内容库
  • 干掉内脏脂肪的 6 个狠招,腰围咔咔掉
  • ModSecurity-nginx终极指南:如何为Nginx部署下一代WAF防护
  • 【荷兰语语音生成黄金标准】:基于176小时母语者听感测试的ElevenLabs参数调优白皮书
  • 即梦视频怎么去水印?即梦AI水印怎么去除?2026最新手机去水印方法盘点 - 科技热点发布
  • Pandora.js监控数据可视化:集成Grafana打造企业级监控面板
  • 从零开始使用Taotoken为你的AI应用提供后端支持
  • CANN/asc-devkit:混合编程模型
  • Linux内核安全模块深入剖析【2.0】
  • TikTok-Live-Connector事件处理:从聊天、关注到连麦的完整解决方案
  • 题解:洛谷 P2845 [USACO15DEC] Switching on the Lights S