当前位置: 首页 > news >正文

CANN oam-tools asys功能约束

asys工具功能及约束

【免费下载链接】oam-tools本项目为开发者提供故障定位工具,包含故障信息收集,软硬件信息展示,AI core error报错分析等能力,提升故障问题定位效率,文档可在昇腾社区搜索“故障处理简介”(选择社区版)。项目地址: https://gitcode.com/cann/oam-tools

功能介绍

为提高系统故障维测效率,提供故障信息收集工具asys一键式收集信息。该工具仅支持在Ascend EP形态下使用。

工具支持以下功能:

  • 故障信息收集:不复跑业务,仅收集故障信息,例如软硬件信息、日志等。
  • 业务复跑+故障信息收集:复跑业务后再收集故障信息,例如软硬件信息、日志等。
  • 软硬件、Device状态信息展示:收集安装包版本信息、Device温度、功率等。
  • 健康检查:检查所有Device或指定Device的健康状态(若不健康,会展示报错信息)。
  • 综合检测:涉及压力检测、HBM硬件检测、CPU检测等功能。
  • 组件检测:当前只支持AI Vector组件检测,不支持并行执行 。
  • trace文件解析/coredump文件解析/stackcore文件解析/coretrace文件解析/UB文件解析:解析各类文件,以便后续定位问题。
  • 实时堆栈导出:该功能适用于业务进程卡住场景,以便导出堆栈信息定位问题。
  • 环境配置:获取或恢复指定配置。
  • AI Core Error故障信息解析:执行业务时,若日志文件或屏幕打印信息中包含AI Core Error报错(例如“there is an aivec error exception”或“there is an aicore error exception”),可使用AI Core Error故障信息解析功能,快速定位AI Core Error问题的原因,提高排查效率。
  • 性能数据采集:采集关键性能数据,辅助用户分析性能问题。

表 1asys工具支持收集的信息列表

分类描述
软件信息涉及软件包版本,环境变量,软件依赖,系统信息。
日志信息包括以下信息:

- Host侧CANN软件栈日志。
- Host侧message日志。
- Device侧固件日志:device-*日志(需root权限)。
- Device侧系统日志:message日志,device-os日志(需root权限)。
- 黑匣子、stackcore文件、coretrace文件(需root权限)。
- 任务打印日志。
- run包安装日志(需run包安装用户与应用程序执行用户一致才可收集)。
dump信息包括以下信息:

- GE dump图。
- TF Adapter dump图。
- 发生AI Core Error时生成的dump文件。
算子编译*.o、*.json文件-
算子编译过程信息文件仅支持在业务复跑时收集算子编译过程信息文件,文件内容包括编译成功失败、编译结果是复用的缓存/在线编译/二进制等。
asys工具是否能收集到算子编译过程信息,取决于用户是否设置NPU_COLLECT_PATH环境变量(用于设置故障信息的保存路径),若设置,则系统会在该环境变量设置的目录下新建子目录/extra-info/ops/,在子目录下新建op_compile_stats.log,将算子编译过程信息写入log文件,此时asys工具则可以收集到算子编译过程信息文件;若不设置,则系统不会生成对应的log文件,因此asys工具也不会收集该文件。
自定义算子配置信息(*.json文件)asys工具是否能收集到自定义算子配置信息,取决于用户是否设置以下环境变量:

- 若用户设置ASCEND_OPP_PATH环境变量(用于设置算子库的安装路径),则asys工具会根据${ASCEND_OPP_PATH}/vendors/config.ini文件load_priority字段,收集${ASCEND_OPP_PATH}/vendors目录下的自定义算子配置信息(即config/.json文件);否则,asys工具不收集。
- 若用户设置ASCEND_CUSTOM_OPP_PATH环境变量(用于设置自定义算子包安装路径),则收集${ASCEND_CUSTOM_OPP_PATH}目录下的自定义算子配置信息(即config/
.json文件);否则,asys工具不收集。
用户用例执行的命令信息-
调试版本的二进制信息即${ASCEND_OPP_PATH}/debug_kernel目录下的信息,但需提前配置环境变量ASCEND_OPP_PATH(用于设置算子库的安装路径)。若未配置ASCEND_OPP_PATH环境变量或该环境变量配置不正确,则默认不收集调试版本的二进制信息。

说明:环境变量的详细配置说明请参见《环境变量参考》。

使用约束

  1. 不支持在Ascend RC形态下使用。

  2. 相同用户、相同时间段内,同机器同时作业时,收集到的数据会有交叉。

  3. 非root用户,获取到的数据范围会受限,具体限制参考上表中的权限要求。

  4. 集群、容器、虚拟机、云场景不支持一键式工具收集故障信息。

  5. asys工具涉及大量维测信息的收集,因此涉及内存占用,不建议多进程并行执行,否则可能导致asys工具执行出错或环境异常。

  6. asys工具会检索trace日志所在的目录,若trace日志文件过多,可能会导致asys工具执行时间长。

    trace日志默认存放路径为$HOME/ascend/atrace/,关于trace日志的详细介绍请参见《日志参考》中的“查看trace日志”。

【免费下载链接】oam-tools本项目为开发者提供故障定位工具,包含故障信息收集,软硬件信息展示,AI core error报错分析等能力,提升故障问题定位效率,文档可在昇腾社区搜索“故障处理简介”(选择社区版)。项目地址: https://gitcode.com/cann/oam-tools

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.gsyq.cn/news/1557007.html

相关文章:

  • Bash Commons数组操作完全指南:从array_contains到array_join的实战应用
  • 从像素到矢量:高分辨率遥感影像建筑物提取的算法演进与资源全景
  • 3个关键问题:如何用CXPatcher彻底解决Mac游戏性能瓶颈
  • CANN/asc-devkit向量最大值函数文档
  • Godot 4 开源RPG开发教程:快速搭建回合制战斗游戏
  • Insomnia API客户端:2024年最全面的开源跨平台API测试工具终极指南 [特殊字符]
  • 通达信缠论插件完整指南:让复杂技术分析变得简单直观
  • WebHaptics:为移动端网页添加触觉反馈的终极解决方案
  • MC9S08SG32定时器/PWM引擎(TPMV3)深度解析与实战避坑指南
  • 宁波汽车音响改装新选择:宁波乾音汽车音响旗舰店,3大核心优势揭秘,宝马原厂音响升级/路虎音响改装,音响改装品牌哪家好 - 音响改装门店分享
  • GRU4Rec训练速度优化:如何在GPU上实现每秒1500个mini-batch
  • 3步实现Minecraft极致光影:Iris与Sodium完美搭配指南
  • 图片压缩到200KB以内 手机小程序精确压缩方法 - 图片处理研究员
  • ComfyUI TTP Toolset:突破8K图像处理瓶颈的分块处理革命
  • Bamboo与ZooKeeper集成:分布式配置管理的完整实践指南
  • 从密文到明文:手把手解析SecureCRT会话密码恢复
  • 2026郑州空调维修避坑:高温天气不制冷、漏水、异响故障诊断+维修平台对比 - 一步到家
  • Markoff自定义配置:打造个性化Markdown写作环境
  • MC9S08DE60微控制器12位ADC模块:从原理到实战配置详解
  • 2026济南防水补漏维修团队实测盘点TOP4:济南业主房屋渗漏修缮靠谱选择 - 宅安选房屋修缮
  • 3步突破性实现A股智能分析自动化:从手动复盘到AI驱动的革命性转变
  • 2026年阜阳GEO服务商代理加盟选型靠谱推荐丨阜阳GEO优化代理合作路径与合伙人收益全解析 - 小随科技
  • OmenSuperHub:彻底释放惠普游戏本性能的开源控制工具
  • 2026年 北京丰台区防水堵漏推荐榜单:楼顶/外墙/卫生间/厨房/阳台/地下室/窗台防水施工公司精选! - 品牌发掘
  • Extended WPF Toolkit架构深度解析:企业级WPF控件库的完整解决方案
  • FlexiCubes高级技巧:如何使用正则化损失函数提升网格可制造性
  • Android自动化脚本实战:Auto.js深度解析与高级应用指南
  • WiFi6协议深度解析-基于AX200与Ubuntu20.04的无线监控与故障诊断实战
  • 学Simulink——燃料电池(PEMFC)热管理系统动态响应优化仿真
  • 2026深圳油烟机清洗实测:吸力变小、噪音大、油污堵塞深度清洁+平台对比 - 一步到家