142.AWS Lambda部署YOLO API:从内存溢出到冷启动优化的实战笔记
凌晨三点,Lambda函数又一次超时退出。
监控面板上那条刺眼的红色曲线,记录着刚部署的YOLO推理服务第17次崩溃。内存配置已经开到10240MB——Lambda允许的最大值,可10秒的超时限制依然像紧箍咒。这就是今天要解决的问题:如何让一个2.3GB的PyTorch模型在无服务器环境里稳定跑起来。
模型瘦身:从2.3GB到89MB的压缩之路
直接上传PyTorch的.pt文件到Lambda是条死路。解压缩后的容器镜像大小限制是10GB,但实际运行时/tmp目录只有512MB。第一版代码就栽在这里:
# 错误示范:直接加载原始模型model=torch.hub.load('ultralytics/yolov5','yolov5s')