143.在Google Cloud Vertex AI上管理YOLO训练任务:从云上炼丹到避坑实录
一、为什么把YOLO训练扔到Vertex AI?
上周调试一个YOLOv7的工业缺陷检测模型,本地显卡跑爆了显存,数据增强一开,训练到一半就OOM。同事甩过来一句:“试试Vertex AI吧,能自动扩缩容,还不用自己管环境。”
于是把代码扔上去跑,结果第一个训练任务就卡在了镜像构建超时——Docker镜像拉取慢,pip包版本冲突,CUDA兼容性报错……一堆破事。
今天这篇笔记,就记录怎么在Vertex AI上稳定管理YOLO训练任务,尤其是那些容易踩坑的细节。
二、任务配置:别在YAML里埋雷
Vertex AI训练任务通常用CustomJob或HyperparameterTuningJob,我习惯用Python SDK直接提交,避免YAML解析的幺蛾子。
fromgoogle.cloudimportaiplatform# 初始化,这里注意region要跟bucket一致,否则数据读写慢到哭aiplatform.init