当前位置: 首页 > news >正文

CANN/oam-tools综合检测

综合检测

【免费下载链接】oam-tools本项目为开发者提供故障定位工具,包含故障信息收集,软硬件信息展示,AI core error报错分析等能力,提升故障问题定位效率,文档可在昇腾社区搜索“故障处理简介”(选择社区版)。项目地址: https://gitcode.com/cann/oam-tools

功能说明

包括压力检测、HBM硬件检测、CPU检测等功能。

注意事项

综合检测相关命令必须在物理机且root用户下执行。

对于Atlas 200I/500 A2 推理产品、Atlas 推理系列产品、Atlas 训练系列产品,不支持使用综合检测功能。

命令格式

# AI Core压力检测,可能需要时间较长 asys diagnose -r=stress_detect -d=deviceId --output=path # HBM检测 asys diagnose -r=hbm_detect -d=deviceId --timeout=num --output=path # CPU检测 asys diagnose -r=cpu_detect -d=deviceId --timeout=num --output=path

参数说明

  • r:必选参数,检测模式,取值如下:

    • stress_detect:AI Core压力检测

      该功能涉及执行算子,因此环境中需提前安装算子二进制包(包名为Ascend-cann-*-ops-*.run)。

      AICore压力检测涉及到对device侧部分电压调整,当压力检测正常结束时,可自行恢复;但部分压力检测异常退出时,存在电压不能自行恢复,这时用户可以根据asys环境配置功能手动恢复电压。建议在执行AI Core压力检测前、后,用户可以分别获取电压,用于判断电压是否异常、以及是否需要恢复电压。获取及恢复电压请参见环境配置。

      显示检测结果时:

      • 不指定device但device只有一个时,仅显示这个device的状态。
      • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
      • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
      • 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;2开头的错误码表示精度比对失败;3开头的错误码表示硬件问题。
      • 若检测结果为Pass,表示检测成功。
    • hbm_detect:HBM检测

      显示检测结果时:

      • 不指定device但device只有一个时,仅显示这个device的状态。
      • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
      • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
      • 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;4开头的错误码表示硬件问题。
      • 若检测结果为Pass,表示检测成功。针对hbm检测,若返回的数值>0,该数值表示检测后新增ECC错误的个数,用于提前激发风险地址报错并隔离,保证后续业务正常运行。
    • cpu_detect:CPU检测

      显示检测结果时:

      • 不指定device但device只有一个时,仅显示这个device的状态。
      • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn、Fail,则直接显示Pass - All、Warn - All、Fail - All。
      • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Fail。
      • 若检测结果为Fail,表示检测出硬件故障,需联系技术支持。
      • 若检测结果为Warn,表示检测过程中任务调度出现问题。可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log)中的详细信息定位问题,可先根据关键字“[ERROR] AML”筛选日志信息。
      • 若检测结果为Pass,表示检测成功。
  • d:可选参数,指定待检测的deviceId,不设置该参数,默认显示所有device的检测结果。Pass表示正常,Warn表示异常。

  • timeout:可选参数,指定硬件检测时间,单位秒。不传默认检测600秒。仅HBM检测、CPU检测时生效,HBM检测时取值范围:[0, 604800],设置为0时表示仅执行一轮HBM检测;CPU检测时取值范围:[1, 604800]。

  • output:可选参数,其值作为检测结果文件diagnose_result_{time_stamp}.txt的保存目录。命令行中不带output参数时,输出结果不落盘仅在终端屏幕显示;若output指定值为空、无效字符串、或指定路径目录无写权限、或创建目录失败,则asys工具退出执行并报错。

使用示例和输出说明

  • 不指定device,所有device正常,此处以四卡为例:

    asys diagnose -r=stress_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Performance --------+ -----------------------+ | Stress Detect | Pass - All | +------------------------+ -----------------------+ asys diagnose -r=hbm_detect --timeout=3000 +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | HBM Detect | Pass - All | | | (0, 9, 0, 0) | +------------------------+------------------------+ asys diagnose -r=cpu_detect --timeout=3000 +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass - All | +------------------------+------------------------+
  • 不指定device,部分device正常,此处以四卡为例:

    asys diagnose -r=stress_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Performance --------+ -----------------------+ | Stress Detect | Pass, Warn, Pass, Warn | +------------------------+ -----------------------+ asys diagnose -r=hbm_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Hardware -----------+ -----------------------+ | HBM Detect | Pass, Warn, Pass, Warn | | | (9, 0, 5, 0) | +------------------------+ -----------------------+ asys diagnose -r=cpu_detect +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass, Warn, Pass, Fail | +------------------------+------------------------+
  • 指定device,此处以device 0为例:

    asys diagnose -d=0 -r=stress_detect +--------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +====================+========================+ +--- Performance ----+------------------------+ | Stress Detect | Pass | +--------------------+------------------------+ asys diagnose -d=0 -r=hbm_detect +------------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | HBM Detect | Pass(9) | +------------------------+------------------------+ asys diagnose -d=0 -r=cpu_detect +------------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass | +------------------------+------------------------+

【免费下载链接】oam-tools本项目为开发者提供故障定位工具,包含故障信息收集,软硬件信息展示,AI core error报错分析等能力,提升故障问题定位效率,文档可在昇腾社区搜索“故障处理简介”(选择社区版)。项目地址: https://gitcode.com/cann/oam-tools

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1552535.html

相关文章:

  • 深入解析PowerPC 601 MMU:地址转换、TLB协同与内存保护机制
  • vum框架入门指南:如何快速构建Vue.js移动端应用
  • 2026年6月国内做得好的船用起重机生产厂家推荐,船用起重机/船用舵机/船用甲板机械/船用绞车,船用起重机实力厂家哪家好 - 品牌推荐师
  • Raspberry Pi上运行CapsuleFarmerEvolved:ARM设备低功耗挂机完整指南
  • 终极指南:如何在LIBRETINY与LibreTuya平台上使用AsyncTCP实现跨平台异步通信
  • 计算机知识分享论坛
  • 如何5分钟快速上手xfrpc:OpenWRT内网穿透完整指南
  • LiveScan3D高级配置:网络设置与多机部署最佳实践
  • CANN/ops-blas strttp算子
  • 四川省九州游汽车租赁靠谱哪家靠谱?2026真实口碑榜,价格透明不踩雷 - 工业品牌热点
  • 抖音批量下载终极指南:如何快速下载无水印视频和用户主页内容
  • 2026奥迪专修公司排名:五家风格各异的专业机构深度解析 - mypinpai
  • CANN/asc-devkit频率统计函数
  • DeepSeek V4 Lite百万上下文技术真相:分块稀疏注意力与工程落地瓶颈
  • 优化长尾关键词以提升SEO排名的实用策略与技巧
  • 从零开始:在本地搭建一个带知识库的 AI 助手(Ollama + Open WebUI)
  • Serverless-plugin-typescript高级配置:自定义tsconfig.json和打包策略详解
  • 淄博六家黄金回收门店实地走访推荐 - 余生黄金回收
  • 基于YOLOv8+pyqt5的摔倒检测系统1(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_可以扫码
  • 目前短视频点赞按钮识别速度已经达到0.7s水平
  • emWin Flex皮肤机制详解:从回调函数到自定义控件外观实战
  • 台式旧电脑回收哪家好,2026实力测评榜单价格透明避坑指南 - mypinpai
  • 端午安康
  • 2026年6月淄博黄金回收实测六家门店推荐 - 余生黄金回收
  • 2026录音转写工具保姆级指南:免费付费、无需下载、电脑手机高精准软件手把手教学
  • 基于YOLOv8火灾烟雾检测系统 火灾报警识别系统
  • 三分钟搭建高效QQ机器人:LuckyLilliaBot终极指南
  • 淄博黄金回收门店实测推荐六家靠谱店铺盘点 - 余生黄金回收
  • 第16期 专业管理隐藏启动项工具 revo_uninstaller_pro
  • 跨平台应用开发技术栈选型指南