当前位置: 首页 > news >正文

CANN/asc-devkit多核矩阵乘法临时缓冲区大小获取

MultiCoreMatmulGetTmpBufSizeV2

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

功能说明

多核Matmul Tiling调用GetTiling接口获取Tiling参数后,根据Tiling结构体信息获取L1 Buffer/Unified Buffer/L0C Buffer的使用大小。

函数原型

int32_t MultiCoreMatmulGetTmpBufSizeV2(AscendC::tiling::TCubeTiling& tiling, matmul_tiling::SysTilingTempBufSize& bufSize)

参数说明

表1参数说明

参数名输入/输出描述
tiling输入Matmul多核Tiling的结构体,即MultiCoreMatmulTiling对象得到的TCubeTiling结构体。

TCubeTiling为Kernel侧定义的Matmul TilingData,与入参为带AscendC::tiling命名空间的TCubeTiling结构体的GetTiling接口配合使用。
bufSize输出根据TCubeTiling结构体信息获取L1 Buffer/Unified Buffer/L0C Buffer的使用大小。SysTilingTempBufSize结构定义如下方代码所示。
struct SysTilingTempBufSize { int32_t ubSize = 0; // Unified Buffer大小 int32_t l1Size = 0; // L1 Buffer大小 int32_t l0cSize = 0; // L0C Buffer大小 };

返回值说明

-1表示获取失败; 0表示获取成功。

约束说明

调用示例

auto ascendcPlatform = platform_ascendc::PlatformAscendC(context->GetPlatformInfo()); matmul_tiling::MultiCoreMatmulTiling tiling(ascendcPlatform); AscendC::tiling::TCubeTiling tilingData; ... // 初始化tilingData,详见MatmulTiling类使用说明 int ret = tiling.GetTiling(tilingData); // 获取Tiling参数 SysTilingTempBufSize bufSize; MultiCoreMatmulGetTmpBufSizeV2(tilingData, bufSize);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1642524.html

相关文章:

  • 如何利用MONAI解决医疗影像AI开发中的核心挑战:模块化设计与实战应用
  • 零代码革命:如何用MIT App Inventor在3天内开发出你的第一个移动应用?
  • AssetRipper终极指南:如何快速提取Unity游戏资源并转换为可编辑格式
  • Onekey Steam游戏解锁工具:免费快速解锁DLC的终极指南
  • NeSF框架实战教程:用Jax3d构建神经语义场(Neural Semantic Fields)的完整流程
  • 如何配置ESP32-BLE2MQTT与Olimex ESP32-POE的完美兼容性
  • Selenium IDE流程控制插件Sideflow:可视化构建复杂自动化测试
  • Disnake命令系统详解:前缀命令、斜杠命令与上下文菜单开发指南
  • AndroidComponentizeLibs进阶教程:跨App调用与动态注册技巧
  • 基于74HC32与TM4C129ENCZAD的键盘矩阵设计与优化
  • STM32学习3--新建工程和LED点亮
  • SAN 模型可视化教程:使用 TensorBoard 分析训练过程与结果
  • caxlsx_rails核心功能解析:从模板渲染到邮件附件的完整攻略
  • 如何利用Octo通用机器人策略解决跨平台机器人控制难题
  • Opslane安全考量:容器隔离与数据同步的安全机制
  • Netdata革命性Windows监控:一站式AI驱动的智能运维解决方案
  • 技术问答:R 语言扩展包安装出问题?解决方案详细来教你(更新20250128)
  • Web应用命令执行漏洞复现:从原理到实战的完整分析
  • Seelen-UI:重新定义Windows桌面环境的模块化解决方案
  • 为什么你的微信网页版总是无法登录?5分钟终极解决方案指南
  • 从数字助手到实体机器人:达沃斯论坛研判物理 AI 产业周期与规模化落地解法
  • 题解:学而思编程 区间外最大公约数
  • 佳佳的笔记1
  • 3步搭建大麦网自动抢票系统:告别手速比拼,轻松获取热门演出票
  • 题解:学而思编程 排队
  • SDC命令详解:使用write_script命令进行输出
  • 企业级LLM中间件架构:litellm智能请求处理与可观测性方案解析
  • 题解:学而思编程 折半与最小值
  • [A-48]ARMv9/v8-电源状态管理机制(PSCI协调机制)
  • STM32扩展EEPROM存储方案与I2C驱动实践