当前位置: 首页 > news >正文

CANN/asc-devkit:Ascend C SIMD API

asc_half2int16

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

将half类型数据转换为int16_t,并支持多种舍入模式。

  • RINT舍入模式:四舍六入五成双舍入
  • ROUND舍入模式:四舍五入舍入
  • FLOOR舍入模式:向负无穷舍入
  • CEIL舍入模式:向正无穷舍入
  • TRUNC舍入模式:向零舍入

函数原型

  • 前n个数据计算

    // RINT舍入模式 __aicore__ inline void asc_half2int16_rn(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) // ROUND舍入模式 __aicore__ inline void asc_half2int16_rna(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) //FLOOR舍入模式 __aicore__ inline void asc_half2int16_rd(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) // CEIL舍入模式 __aicore__ inline void asc_half2int16_ru(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) // TRUNC舍入模式 __aicore__ inline void asc_half2int16_rz(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count)
  • 高维切分计算

    // RINT舍入模式 __aicore__ inline void asc_half2int16_rn(__ubuf__ int16_t* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride) // ROUND舍入模式 __aicore__ inline void asc_half2int16_rna(__ubuf__ int16_t* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride) // FLOOR舍入模式 __aicore__ inline void asc_half2int16_rd(__ubuf__ int16_t* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride) // CEIL舍入模式 __aicore__ inline void asc_half2int16_ru(__ubuf__ int16_t* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride) // TRUNC舍入模式 __aicore__ inline void asc_half2int16_rz(__ubuf__ int16_t* dst, __ubuf__ half* src, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride)
  • 同步计算

    // RINT舍入模式 __aicore__ inline void asc_half2int16_rn_sync(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) // ROUND舍入模式 __aicore__ inline void asc_half2int16_rna_sync(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) // FLOOR舍入模式 __aicore__ inline void asc_half2int16_rd_sync(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) // CEIL舍入模式 __aicore__ inline void asc_half2int16_ru_sync(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count) // TRUNC舍入模式 __aicore__ inline void asc_half2int16_rz_sync(__ubuf__ int16_t* dst, __ubuf__ half* src, uint32_t count)

参数说明

参数名输入/输出描述
dst输出目的操作数(矢量)的起始地址。
src输入源操作数(矢量)的起始地址。
count输入参与计算的元素个数。
repeat输入迭代次数。
dst_block_stride输入目的操作数单次迭代内不同DataBlock间地址步长。
src_block_stride输入源操作数单次迭代内不同DataBlock间地址步长。
dst_repeat_stride输入目的操作数相邻迭代间相同DataBlock的地址步长。
src_repeat_stride输入源操作数相邻迭代间相同DataBlock的地址步长。

返回值说明

流水类型

PIPE_V

约束说明

  • 操作数地址重叠约束请参考通用地址重叠约束。
  • dst、src的起始地址需要32字节对齐。

调用示例

constexpr uint32_t total_length = 256; __ubuf__ half src[total_length]; __ubuf__ int16_t dst[total_length]; asc_half2int16_rn(dst, src, total_length);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1465055.html

相关文章:

  • TMS320F28335驱动AD2S1210旋变芯片的SPI解码工程包(含完整外设配置与调试支持)
  • Swagger转Word终极指南:3种方式实现API文档自动化生成
  • 除了OBS推电影,你的Docker RTMP服务器还能这么玩:多场景应用指南
  • FLAN-T5-XXL 在中文场景下的应用:本地化使用技巧
  • 规避大模型结构化输出漏洞:防范提示词注入与安全越狱
  • 小白必看:ke-t5-base的5个核心功能及应用场景解析
  • CANN/Ascend C SIMD数据搬运API
  • 163MusicLyrics:网易云QQ音乐歌词下载终极指南,免费解决本地音乐无歌词困扰
  • 异地协同只是个梦?CRDE智橙跨地域跨组织跨终端协同功能让您梦想成真!
  • 告别讯飞!用Android原生TTS实现免费离线语音播报(附完整代码)
  • 韶关黄金回收6月最新报价+6家正规门店实测 - 余生黄金回收
  • 从伯德图到实际电路:一个电源工程师的补偿网络设计避坑指南
  • 【南京黄金回收+实时报价测评】 - 余生黄金回收
  • 【AI开票革命性落地指南】:2024年企业财务人必须掌握的7大智能开票整合实战场景
  • LabVIEW新手必看:别再乱用顺序结构了,数据流才是王道!
  • Qwen2.5-7B-Instruct-GPTQ-Int4模型微调教程:在量化模型上进行LoRA训练终极指南 [特殊字符]
  • 【邯郸6月黄金回收+实时报价避坑指南】 - 余生黄金回收
  • 从‘对不上’到‘严丝合缝’:ArcGIS栅格配准中控制点数量与多项式选择的实战避坑指南
  • MOSS-Audio多模态融合技术:音频与文本联合建模的先进方法解析
  • OpenCore Legacy Patcher终极指南:三步让老旧Mac重获新生,轻松运行最新macOS
  • GPT-5不存在:当前大模型代际演进事实核查与GPT-4o技术价值重估
  • 2026年淄博保险纠纷律师选对真的省心 周毅律师十年保险金融实战经验推荐 - 本地品牌推荐
  • Qt数据库开发避坑指南:QSqlTableModel的setEditStrategy三种策略到底怎么选?
  • 从仿真到实测:HFSS威尔金森功分器设计全流程与参数优化心得
  • 负债程序员的 AI 家人,八个模块如何从代码变成守护
  • PDF批量处理终极指南:如何用PDF补丁丁高效管理100+文档
  • CANN:PyPTO Exp算子测试
  • AI赋能树莓派:借助快马平台生成TensorFlow Lite图像识别应用代码
  • MATLAB多通道信号MEMD去噪工具包:专注EEG/ECG与电磁监测数据滤波
  • pandas多维聚合实战:金融风控中的五种生产级聚合模式