当前位置: 首页 > news >正文

cann/asc-devkit SIMT数学函数

__hnex2_mask

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品x
Atlas A2 训练系列产品/Atlas A2 推理系列产品x
Atlas 200I/500 A2 推理产品x
Atlas 推理系列产品AI Corex
Atlas 推理系列产品Vector Corex
Atlas 训练系列产品x

功能说明

比较两个half2类型数据的两个分量,结果以unsigned int形式返回,低16位为第一个分量的掩码结果,高16位为第二个分量的掩码结果。如果分量不相等,则对应16位掩码为0xFFFF,否则为0x0。

函数原型

unsigned int __hnex2_mask(half2 x, half2 y)

参数说明

表 1参数说明

参数名输入/输出描述
x输入源操作数。
y输入源操作数。

返回值说明

  • 比较输入数据各分量是否不相等的结果:满足时对应16位掩码结果为0xFFFF,不满足时对应16位掩码结果为0x0。
  • 任一输入的分量为nan时,该分量的16位掩码结果为0x0。

约束说明

需要包含的头文件

使用该接口需要包含"simt_api/asc_fp16.h"头文件。

#include "simt_api/asc_fp16.h"

调用示例

  • SIMT编程场景:

    // 使用短向量可提升数据搬运效率 __global__ __launch_bounds__(1024) void simt_hnex2_mask(half* x, half* y, unsigned int* dst, uint32_t input_total_length) { uint32_t idx = blockIdx.x * blockDim.x + threadIdx.x; // 每个线程处理1个half2类型的数据,即2个half类型的数据,因此idx >= input_total_length / 2的线程不处理数据 if (idx >= input_total_length / 2) { return; } half2* input1 = (half2*)x; half2* input2 = (half2*)y; dst[idx] = __hnex2_mask(input1[idx], input2[idx]); }
  • SIMD与SIMT混合编程场景:

    // 使用短向量可提升数据搬运效率 __simt_vf__ __launch_bounds__(1024) inline void simt_hnex2_mask(__gm__ half2* x, __gm__ half2* y, __gm__ unsigned int* dst, uint32_t input_total_length) { uint32_t idx = blockIdx.x * blockDim.x + threadIdx.x; // 每个线程处理1个half2类型的数据,即2个half类型的数据,因此idx >= input_total_length / 2的线程不处理数据 if (idx >= input_total_length / 2) { return; } dst[idx] = __hnex2_mask(x[idx], y[idx]); } __global__ __vector__ void compare_kernel(__gm__ half* x, __gm__ half* y, __gm__ unsigned int* dst, uint32_t input_total_length) { asc_vf_call<simt_hnex2_mask>(dim3(1024), (__gm__ half2*)x, (__gm__ half2*)y, dst, input_total_length); }

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1336190.html

相关文章:

  • dsp.js FFT和DFT变换详解:从时域到频域的魔法
  • CANN/asc-devkit half类型精度转换函数
  • 如何在5分钟内安装BepInEx:游戏模组框架终极完整指南
  • 别再只会用默认符号了!手把手教你用ArcGIS 10.8制作专业地形图点线面符号(附符号库文件)
  • 保姆级教程:用ESP8266-01S和Blinker App,5分钟搞定手机远程开关灯(附完整代码)
  • 从普通 PM 到 AI PM,我观察了 100 人转型,只有这 3 条路走通了
  • Harness Engineering全面解析:OpenAI、Anthropic、ThoughtWorks的三种答案
  • Fs工作室_虚拟打卡,开启趣味新世界
  • CANN/asc-devkit AI Core注册接口
  • 不止是部署:深入webrtc-streamer容器,聊聊WebRTC网关的配置、监控与生产环境实践
  • 精选六款免费学编程 APP 小白自学全程够用
  • 如何用Mosaico制作响应式邮件:10个实用技巧
  • 如何用icloudpd轻松备份你的iCloud照片库:终极免费解决方案
  • 54、CAN总线共模扼流圈选型与滤波电路设计
  • Windows 11/10下Stable Diffusion WebUI启动慢、卡死的终极优化指南(更新显卡驱动/调整虚拟内存)
  • 别再只怪QQ了!深入MP4封装格式,揭秘录屏文件损坏的真正原因与修复原理
  • Hertz.dev多模态应用探索:结合WebRTC的浏览器端音频处理
  • 思源宋体TTF:Google与Adobe联手中文免费商用字体终极指南
  • TeamPass后台任务管理:自动化维护和清理操作手册
  • 从LED驱动到MCU供电:一文搞懂二极管和电容的选型避坑指南(附型号推荐)
  • 从GCC-5到Clang-15:手把手教你用CMake管理多版本编译器(实战演示)
  • SPlisHSPlasH ParaView插件安装与使用:可视化分析模拟结果的最佳实践
  • Zygo沙盒环境配置:安全运行不受信任的脚本
  • 如何用Sequin将Postgres变更实时流式传输到Kafka:完整指南 [特殊字符]
  • CANN Ascend C SIMT log10f函数
  • Windows字体自定义终极指南:用No!! MeiryoUI打造你的专属界面
  • 保姆级教程:用Webpack打包你的第一个Cesium项目(附50个Demo源码下载)
  • 3分钟快速上手:Rufus终极USB启动盘制作完整指南
  • 企业级ONVIF协议集成:实战架构设计与最佳实践
  • 终极B站视频下载指南:3分钟学会无水印高清下载技巧