当前位置: 首页 > news >正文

CANN Ascend C Relu函数API

Relu【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品√Atlas 推理系列产品 AI Core√Atlas 推理系列产品 Vector CorexAtlas 训练系列产品√Kirin X90√Kirin 9030√功能说明按元素做线性整流Relu计算公式如下 函数原型tensor前n个数据计算template typename T __aicore__ inline void Relu(const LocalTensorT dst, const LocalTensorT src, const int32_t count)tensor高维切分计算mask逐bit模式template typename T, bool isSetMask true __aicore__ inline void Relu(const LocalTensorT dst, const LocalTensorT src, uint64_t mask[], const uint8_t repeatTime, const UnaryRepeatParams repeatParams)mask连续模式template typename T, bool isSetMask true __aicore__ inline void Relu(const LocalTensorT dst, const LocalTensorT src, uint64_t mask, const uint8_t repeatTime, const UnaryRepeatParams repeatParams)参数说明表 1模板参数说明参数名描述T操作数数据类型。Atlas 训练系列产品支持的数据类型为halfAtlas 推理系列产品 AI Core支持的数据类型为half/int32_t/floatAtlas A2 训练系列产品 / Atlas A2 推理系列产品支持的数据类型为half/int32_t/floatAtlas A3 训练系列产品 / Atlas A3 推理系列产品支持的数据类型为half/int32_t/floatAtlas 200I/500 A2 推理产品支持的数据类型为half/int32_t/floatAscend 950PR/Ascend 950DT支持的数据类型为half/int32_t/float/int64_tKirin X90支持的数据类型为half/int32_t/float。Kirin 9030支持的数据类型为half/int32_t/float。isSetMask是否在接口内部设置mask。true表示在接口内部设置mask。false表示在接口外部设置mask开发者需要使用SetVectorMask接口设置mask值。这种模式下接口入参中的mask值设置为占位符MASK_PLACEHOLDER用于占位无实际含义。表 2参数说明参数名输入/输出描述dst输出目的操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。src输入源操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。源操作数的数据类型需要与目的操作数保持一致。count输入参与计算的元素个数。mask[]/mask输入mask用于控制每次迭代内参与计算的元素。逐bit模式可以按位控制哪些元素参与计算bit位的值为1表示参与计算0表示不参与。mask为数组形式数组长度和数组元素的取值范围和操作数的数据类型有关。当操作数为16位时数组长度为2mask[0]、mask[1]∈[0, 264-1]并且不同时为0当操作数为32位时数组长度为1mask[0]∈(0, 264-1]当操作数为64位时数组长度为1mask[0]∈(0, 232-1]。例如mask[8, 0]80b1000表示仅第4个元素参与计算。连续模式表示前面连续的多少个元素参与计算。取值范围和操作数的数据类型有关数据类型不同每次迭代内能够处理的元素个数最大值不同。当操作数为16位时mask∈[1, 128]当操作数为32位时mask∈[1, 64]当操作数为64位时mask∈[1, 32]。repeatTime输入重复迭代次数。矢量计算单元每次读取连续的256Bytes数据进行计算为完成对输入数据的处理必须通过多次迭代repeat才能完成所有数据的读取与计算。repeatTime表示迭代的次数。关于该参数的具体描述请参考高维切分API。repeatParams输入控制操作数地址步长的参数。UnaryRepeatParams类型包含操作数相邻迭代间相同DataBlock的地址步长操作数同一迭代内不同DataBlock的地址步长等参数。相邻迭代间的地址步长参数说明请参考repeatStride同一迭代内DataBlock的地址步长参数说明请参考dataBlockStride。返回值说明无约束说明操作数地址对齐要求请参见通用地址对齐约束。操作数地址重叠约束请参考通用地址重叠约束。针对Ascend 950PR/Ascend 950DTint64_t数据类型仅支持tensor前n个数据计算接口。调用示例本样例的srcLocal和dstLocal均为half类型。更多样例可参考LINK。tensor高维切分计算样例-mask连续模式uint64_t mask 256 / sizeof(half); // repeatTime 4, 128 elements one repeat, 512 elements total // dstBlkStride, srcBlkStride 1, no gap between blocks in one repeat // dstRepStride, srcRepStride 8, no gap between repeats AscendC::Relu(dstLocal, srcLocal, mask, 4, { 1, 1, 8, 8 });tensor高维切分计算样例-mask逐bit模式uint64_t mask[2] { UINT64_MAX, UINT64_MAX }; // repeatTime 4, 128 elements one repeat, 512 elements total // dstBlkStride, srcBlkStride 1, no gap between blocks in one repeat // dstRepStride, srcRepStride 8, no gap between repeats AscendC::Relu(dstLocal, srcLocal, mask, 4, { 1, 1, 8, 8 });tensor前n个数据计算样例AscendC::Relu(dstLocal, srcLocal, 512);结果示例如下输入数据srcLocal: [6.938 -8.86 -0.2263 ... 1.971 1.778] 输出数据dstLocal: [6.938 0 0 ... 1.971 1.778]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
http://www.gsyq.cn/news/1329071.html

相关文章:

  • 3步搭建Label Studio标注平台:从零开始构建AI数据标注流水线
  • 一物一码在产品溯源中的实际案例,顶讯科技表现亮眼一“码”当先 - 奔跑123
  • 在长期运行的后台服务中感受Taotoken API的稳定性表现
  • HBM2E内存优化实战:从理论带宽到有效性能的系统性提升
  • C++-练习-109
  • MIT Cheetah-Software编译手记:搞定Qt5.10.0路径、LCM依赖与那些诡异的C++报错
  • LM317电源模块的“隐藏参数”与实战避坑:为什么你的空载电压总是不稳?
  • 告别JS逆向调试烦恼:WT-JS_DEBUG_V1.8.3保姆级安装与实战AES解密教程
  • 规避“造轮子”陷阱:企业级 Web 表格组件选型与 TCO 避坑指南
  • ChinesePinyin-CodeCompletionHelper项目维护与社区贡献指南:打造更好的中文编程体验
  • Windows11项目安全警示:常见系统漏洞与防范措施
  • OpenHarmony特性配置实战:从原理到开发板系统裁剪
  • 运算放大器失调电压(Vos)深度解析:从原理、影响、测量到选型与电路设计实战
  • ComfyUI-Impact-Pack终极指南:如何快速实现专业级AI图像增强
  • 别再手动找体边面了!用NX二次开发UF_MODL_ask_feat_函数一键搞定
  • YOLO-ONNX-Java图像缩放算法:保持宽高比与边界填充的工程实践
  • 李开复与苏姿丰炉边对话:2026年AI替代的不是岗位,而是整个部门
  • qb-web组件架构详解:Vue+TypeScript的最佳实践指南
  • 无王无帝定乾坤,来自田间第一人 大道无形定江山
  • CANN/Ascend C开发工具包
  • 德州动力滚筒输送机厂家实测排行:多维度品质对比解析 - 奔跑123
  • CANN/asc-devkit:SIMD-API核内同步Mutex锁
  • AWBus-lite:嵌入式轻量级软件总线与拓扑感知通信架构实践
  • 保姆级教程:在Ubuntu 20.04上从源码编译PX4固件,并用Gazebo跑通你的第一个仿真
  • 保姆级教程:在Ubuntu 20.04上从零跑通VoxelNet(KITTI数据集+TensorFlow 1.14)
  • 从芯片手册到CubeMX:手把手教你搞定STM32G431RBT6的时钟树与中断配置
  • 如何免费解锁Cursor AI Pro功能:开源工具完全指南
  • CANN/asc-devkit 切片数据搬运
  • 暗黑破坏神2存档编辑器的5个核心问题与完美解决方案
  • 3分钟学会:B站视频下载神器BiliDownload终极使用指南