当前位置: 首页 > news >正文

CANN/CATLASS单块广播操作

tile_broadcast_one_blk

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

代码位置

[TOC]

概述

tile_broadcast_one_blk模块实现 epilogue 阶段的 one-block 广播操作。将 UB 上的单个元素广播到整个 block(32B),常用于将 scalar scale/zero 点广播后参与向量计算。

API 清单

API风格说明
TileBroadcastOneBlk非 TLAAscendC::Brcb+BrcbRepeatParams
TileBroadcastOneBlkTlaTLATLA 版本,tensor.layout()(tensor.coord())偏移

调用示例

TileBroadcastOneBlk(非 TLA)

#include "catlass/epilogue/tile/tile_broadcast_one_blk.hpp" using namespace Catlass::Epilogue::Tile; using ComputeType = Gemm::GemmType<half, layout::RowMajor>; constexpr uint32_t COMPUTE_LENGTH = 256; using BroadcastOp = TileBroadcastOneBlk<Arch::AtlasA2, ComputeType, COMPUTE_LENGTH>; AscendC::LocalTensor<half> ubOut, ubIn; BroadcastOp broadcastOp; broadcastOp(ubOut, ubIn);

TileBroadcastOneBlkTla(TLA)

constexpr uint32_t COMPUTE_LENGTH = 256; auto layoutOut = tla::MakeLayout<half, layout::RowMajor>(COMPUTE_LENGTH, 32); auto layoutIn = tla::MakeLayout<half, layout::VectorLayout>(COMPUTE_LENGTH, 1); AscendC::LocalTensor<half> ubOutData, ubInData; auto ubOut = tla::MakeTensor(ubOutData, layoutOut, Arch::PositionUB{}); auto ubIn = tla::MakeTensor(ubInData, layoutIn, Arch::PositionUB{}); TileBroadcastOneBlkTla<Arch::AtlasA2, half, COMPUTE_LENGTH> op; op(ubOut, ubIn);

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1425430.html

相关文章:

  • HGNN加速器优化:解决内存扩展与冗余访问挑战
  • 如何实现bloom-3b-conversational的NPU性能优化:3种快速推理方法全攻略
  • 大语言模型在喜剧创作中的创造力支持评估:量化与定性研究
  • ARM嵌入式开发中GCC内存对齐问题解析与优化
  • 2026年质量好的南京双螺杆造粒机/实验型双螺杆造粒机/南京电缆料双螺杆造粒机/氟塑料双螺杆造粒机源头工厂推荐 - 行业平台推荐
  • A51汇编器预定义宏在8051开发中的应用与技巧
  • 如何解锁加密音乐文件?3种方法让你重新掌控个人音乐库
  • 基于CBT原则的AI任务拆解:用微步骤对抗拖延与认知超载
  • Gemma-3-12b-it-GGUF多模态基准测试:VQA、图像描述等任务评估
  • DeepSeek从入门到精通
  • 2026年口碑好的工业涂料/有机硅防污涂料/宁波重防腐涂料推荐品牌厂家 - 行业平台推荐
  • Baichuan-7B中文优化策略:专为中文场景设计的大语言模型
  • llama-3-chinese-8b与transformers集成:完整API使用手册
  • 认知型企业转型:从数据驱动到智能决策的实战路径
  • COM3D2 MaidFiddler:5大核心技术实现实时游戏数据操控
  • MIPI CSI-2虚拟通道(VC)与数据类型(DT)的妙用:如何在一条数据线上同时传输多路摄像头信号
  • 别再乱调了!Unity LayoutElement三兄弟(Min/Preferred/Flexible)的保姆级使用手册
  • 从单卡到千卡:聊聊Megatron-LM里那些‘反直觉’的并行策略选择与硬件配置玄学
  • AI商业应用实战:从巨头案例到企业落地路线图
  • AI时代职场变革:从技能重塑到人机共生的未来工作指南
  • 避坑指南:UE与Omniverse USD文件Live-Sync实战,从环境配置到Session管理的完整流程
  • 如何在5分钟内开始使用Qwen2-7B-Instruct-embed-base-openmind生成文本嵌入
  • Fillinger终极指南:Adobe Illustrator智能填充插件完整教程
  • 免费RNA结构预测终极指南:ViennaRNA快速入门与实战技巧
  • da-ner-base模型训练数据揭秘:DaNE数据集完整指南 [特殊字符]
  • Guanaco-3B-Uncensored-v2高级部署教程:NPU与CPU环境下的优化配置方案
  • 深度学习篇---指纹识别的发展历程与代表技术
  • 告别熬夜调格式!okbiye 论文排版功能实测:一键匹配 5000 + 院校模板
  • 告别Unity启动等待:手把手教你用SplashScreen.Stop优化游戏第一印象
  • 别再手动填表了!用Java+EasyPOI+Docx4j自动生成带公章和签名的PDF合同(SpringBoot实战)