当前位置: 首页 > news >正文

CANN ColwiseMul算子实现

ColwiseMul算子实现

【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas

概述

BLAS ColwiseMul算子实现。

ColwiseMul(列方向复数乘法)算子实现了复数向量与矩阵每行的逐元素乘法运算,是BLAS基础线性代数库中的扩展算子之一。

该算子针对复数运算特性进行了优化,高效完成向量与矩阵的列方向乘法操作。

支持的产品

  • Atlas A3 训练系列产品/Atlas A3 推理系列产品
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品

目录结构介绍

├── colwise_mul │ ├── CMakeLists.txt // 编译工程文件 │ ├── README.md // 说明文档 │ └── colwise_mul_test.cpp // 算子调用样例

算子描述

  • 算子功能:
    ColwiseMul算子实现了复数向量与矩阵每行的逐元素乘法。对应的数学表达式为:
result[i, j] = vec[i] * mat[i, j]

vec是复数向量,mat是复数矩阵,result是输出复数矩阵

复数乘法公式:(a + bi) * (c + di) = (ac - bd) + (ad + bc)i

对应的接口为:

int aclblasColwiseMul(const float *mat, const float *vec, float *result, const int64_t m, const int64_t n, void *stream);
参数colwise_mul 参数说明
参数列表Param.Memoryin/out含义
min矩阵的行数。
nin矩阵的列数。
matdevicein复数矩阵,维度为 m × n,存储为 2*m*n 个float。
vecdevicein复数向量,包含 m 个元素,存储为 2*m 个float。
resultdeviceout复数矩阵,维度为 m × n,存储为 2*m*n 个float。
  • 算子规格:

    算子类型(OpType)ColwiseMul
    算子输入nameshapedata typeformat
    matm × ncomplexND
    vecmcomplexND
    算子输出resultm × ncomplexND
    核函数名colwise_mul_kernel
  • 算子实现:

    将输入数据从mat和vec的GM地址分块搬运到UB,进行复数乘法计算后再搬出到result所在的GM地址。

  • 调用实现
    使用内核调用符<<<>>>调用核函数。

编译运行

在本样例根目录下执行如下步骤,编译并执行算子。

  • 配置环境变量
    请根据当前环境上CANN开发套件包的安装方式,选择对应配置环境变量的命令。

    • 默认路径,root用户安装CANN软件包

      source /usr/local/Ascend/cann/set_env.sh
    • 默认路径,非root用户安装CANN软件包

      source $HOME/Ascend/cann/set_env.sh
    • 指定路径install_path,安装CANN软件包

      source ${install_path}/cann/set_env.sh
  • 样例执行

    bash build.sh --ops=colwise_mul --run # --ops=<算子名> --run可选参数,执行测试样例

    执行结果如下,说明精度对比成功。

    [Success] Case accuracy is verification passed.

【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1439246.html

相关文章:

  • MegaBeam-Mistral-7B-512k与Mistral-7B对比:长上下文能力提升分析
  • 英雄联盟智能助手Seraphine:3大核心功能提升你的游戏胜率
  • AI时代网络安全攻防升级:从Deepfake到零信任的实战防御指南
  • 如何永久保存微信聊天记录:3步实现数据自主管理终极指南
  • SSNet自监督学习在6G流体天线信道外推中的突破
  • 从STM32 HAL库转战英飞凌TC264:手把手教你搞定PIT定时器中断与正交编码器(逐飞库实战)
  • Boss Show Time:3个技巧帮你快速筛选最新招聘岗位
  • 终极指南:Alienware灯光与风扇控制工具完全配置手册
  • 5个高级技巧:用Zotero Style插件打造个性化文献管理体验
  • 如何用MOOTDX高效获取通达信数据:量化投资入门实战指南
  • 你的VMware 17开机自启总失败?可能是这个XML文件在“捣鬼”,3分钟教你排查修复
  • 不只是分辨率:聊聊多屏鼠标‘跳线’的物理原因和三种根治思路(附工具推荐)
  • 如何快速备份微信聊天记录:WeChatMsg完整教程让数据永久留存
  • 如何永久保存你的微信聊天记录?本地免费工具WeChatMsg终极指南
  • foobox-cn终极指南:如何让经典播放器foobar2000焕发新生?
  • AI编程助手分层上下文设计:提升代码生成精准度的工程实践
  • 第17章:安全边界权限与风险控制
  • CANN/asc-devkit:DCache访问优化
  • PingFangSC字体包技术指南:跨平台中文字体渲染架构方案深度解析
  • 2024年Intel OneAPI更新后,VASP 6.3.2编译安装避坑全记录(附常见错误解决)
  • AI时代职业重塑:从人机协同到技能升级的实战指南
  • swin-small-finetuned-cifar100模型训练揭秘:超参数选择与性能优化技巧
  • A/B测试加速实战:方差缩减与贝叶斯方法提升实验效率
  • 深入systemd:从‘ovsdb-server.service is not running’错误理解Linux服务管理
  • 告别VirtualBox的‘幽灵网卡’错误:深度清理与重建Host-Only网络适配器全流程
  • 【读书笔记】《系统架构设计》精华解读
  • 终极OpenCore自动化配置指南:如何用OpCore-Simplify在30分钟内完成Hackintosh部署
  • 实战案例:用SAE-Res-Qwen3.5-2B-Base-W32K-L0_50分析Qwen3.5模型推理过程
  • Linux网络开发避坑指南:当MAC直连没有PHY时,fixed-link属性怎么配才不报错?
  • 如何快速上手Qwen2.5-0.5B-Instruct:从安装到首次对话的简单教程