当前位置：首页 > news >正文

YOLO11环境配置与实战指南：从安装到部署全流程解析

news 2026/6/16 5:17:14

1. 项目概述：为什么现在要关注YOLO11？

如果你正在计算机视觉领域，特别是目标检测方向进行探索或项目开发，那么“配置YOLO11”这个标题背后，远不止是敲几行安装命令那么简单。它代表着你正在尝试接入一个在2024年9月发布、代表了当时YOLO系列最新进展的模型框架。YOLO11并非一个简单的版本迭代，它在架构、效率和任务支持上都有显著提升，比如YOLO11m模型在COCO数据集上实现了比YOLOv8m更高的平均精度（mAP），同时参数量却减少了22%。这意味着，在相同的硬件条件下，你有可能获得更快的推理速度或更高的精度，这对于实际部署，尤其是在资源受限的边缘设备上，是一个极具吸引力的特性。

然而，配置过程本身就是一个筛选器。它考验着你是否理解从环境准备、依赖管理、模型验证到最终部署的完整链路。很多新手会卡在CUDA版本不匹配、PyTorch安装错误或者模型导出失败这些看似基础，实则关键的环节上。这篇内容，就是基于我多次从零搭建YOLO11环境的经验，为你梳理出一条清晰、可复现的路径。无论你是想跑通官方示例，还是为自己的数据集训练定制模型，甚至是将其集成到Java应用中进行行为检测，一个正确且稳固的基础配置都是第一步，也是最关键的一步。接下来，我会带你一步步拆解这个过程，并分享那些官方文档里不会写的“坑”和技巧。

2. 环境配置全流程与核心依赖解析

配置YOLO11，本质上是在搭建一个能够运行Ultralytics框架的Python深度学习环境。这个过程的核心矛盾在于：Ultralytics生态更新极快，而深度学习框架（PyTorch）和硬件驱动（CUDA）又有严格的版本依赖关系。一步错，就可能导致后续所有步骤失败。

2.1 硬件与驱动层：CUDA与cuDNN的精准匹配

这是所有配置的基石，也是最容易出问题的地方。你的选择不取决于“最新最好”，而取决于“兼容匹配”。

首先，通过nvidia-smi命令查看你显卡驱动版本支持的最高CUDA版本。例如，驱动版本525.XX.XX最高支持CUDA 12.0。记住，这是“最高支持”，不代表你必须安装这个版本。

其次，访问PyTorch官网，查看其稳定版推荐的CUDA版本。例如，在撰写本文时，PyTorch 2.3.0稳定版推荐使用CUDA 11.8或12.1。这时，你需要做一个权衡：是使用驱动支持的最高CUDA版本（如12.0），还是使用PyTorch推荐的最佳CUDA版本（如11.8）？

核心经验：优先匹配PyTorch的推荐CUDA版本。因为PyTorch的预编译轮子（wheel）是针对特定CUDA版本优化的，匹配推荐版本能获得最好的兼容性和性能。如果你的驱动支持的CUDA版本高于PyTorch推荐版（例如驱动支持12.0，但PyTorch推荐11.8），这通常没有问题，你可以直接安装低版本的CUDA Toolkit（如11.8），系统可以多版本CUDA共存。反之，如果驱动版本过低，不支持PyTorch所需的CUDA，则必须升级显卡驱动。

确定CUDA版本后（假设为11.8），再去NVIDIA开发者网站下载对应版本的cuDNN库。cuDNN是深度神经网络加速库，解压后将其bin、include、lib目录下的文件分别复制到CUDA Toolkit的安装目录对应文件夹下即可。

2.2 Python环境与PyTorch安装：隔离与复现的保障

强烈建议使用Conda或Venv创建独立的Python虚拟环境。这能避免项目间的包冲突，也是项目可复现性的基本要求。

conda create -n yolov11 python=3.9 -y conda activate yolov11

接下来安装PyTorch。不要直接pip install torch，这可能会安装不兼容的CPU版本或错误的CUDA版本。务必使用官网生成的命令，例如：

# 以CUDA 11.8为例 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装后，务必验证GPU是否可用：

import torch print(torch.__version__) # 应显示2.x.x print(torch.cuda.is_available()) # 应返回True print(torch.cuda.get_device_name(0)) # 应显示你的GPU型号

2.3 Ultralytics YOLO11安装与初步验证

环境就绪后，安装Ultralytics包就非常简单了：

pip install ultralytics

但这里有个细节：Ultralytics包更新频繁，且可能引入breaking changes。对于生产或长期项目，建议锁定版本：

pip install ultralytics==11.0.0 # 请替换为当时的最新稳定版

安装完成后，进行一个最简验证，下载一个微型权重并运行推理：

from ultralytics import YOLO import cv2 # 加载一个纳米级预训练模型，下载快，用于验证环境 model = YOLO('yolo11n.pt') # 首次运行会自动下载权重文件 # 使用一张示例图片（可以是任意本地图片，或使用自带的‘bus.jpg’示例） results = model('https://ultralytics.com/images/bus.jpg') # 可视化结果 res_plotted = results[0].plot() cv2.imshow('YOLO11 Test', res_plotted) cv2.waitKey(0) cv2.destroyAllWindows()

如果这段代码能成功运行并显示带检测框的图片，恭喜你，基础环境配置成功。但这也仅仅是开始，接下来我们会遇到更多实际项目中的挑战。

3. 模型使用模式详解：从推理到训练

YOLO11通过一个高度统一的API（YOLO类）支持多种任务模式，理解这些模式是灵活运用的关键。

3.1 五大任务模型与模型文件解读

YOLO11提供了五种预训练模型系列，对应不同任务，通过模型文件名即可区分：

模型类型	示例文件名	核心任务	输出特点
Detection	`yolo11n.pt`	标准目标检测	边界框 (xywh)、置信度、类别
Segmentation	`yolo11n-seg.pt`	实例分割	在检测基础上，增加每个实例的像素级掩码
Pose	`yolo11n-pose.pt`	姿态估计	在检测基础上，增加人体关键点坐标
OBB	`yolo11n-obb.pt`	旋转目标检测	输出旋转边界框 (xywhθ)
Classification	`yolo11n-cls.pt`	图像分类	输出图像类别概率

加载模型时，框架会根据文件名自动识别任务类型并配置相应的检测头。例如，加载一个分割模型后，其predict方法自然会输出分割掩码。

3.2 推理（Predict）模式：参数调优与性能平衡

推理是最常用的模式。除了最基本的model(img)，你需要掌握几个关键参数来平衡速度与精度：

from ultralytics import YOLO model = YOLO('yolo11n.pt') # 一个更典型的推理调用 results = model.predict( source='path/to/image/or/video/or/folder', # 数据源，支持多种格式 conf=0.25, # 置信度阈值，过滤弱预测框 iou=0.7, # NMS的IoU阈值，值越大，重叠框去得越狠 imgsz=640, # 推理图像尺寸，越大通常精度越高，速度越慢 device='0', # 指定GPU，'cpu'或'0'或'0,1'（多卡） half=False, # 是否使用FP16半精度推理，可提速，可能轻微掉精度 max_det=300, # 每张图最大检测数，防止过多杂乱结果 visualize=False, # 是否生成中间特征可视化图（开发调试用） augment=False, # 是否使用测试时增强（TTA），会大幅提升精度和耗时 save=True, # 是否保存带结果的图片/视频 save_txt=False # 是否保存结果为YOLO格式的txt标签文件 )

实操心得：conf和iou的“黄金组合”。对于大多数通用场景，conf=0.25，iou=0.45是一个不错的起点。但在特定场景下需要调整：1. 小目标或密集场景：降低conf（如0.1）以免漏检，同时可能需降低iou（如0.3）以避免NMS误删相邻目标。2. 高精度要求场景：提高conf（如0.5）以过滤假阳性，iou可保持0.45-0.5。3. 实时视频流：为提高速度，可适当提高conf（如0.4）和iou（如0.6），减少后处理的计算量。

3.3 训练（Train）模式：数据准备与参数配置

训练自己的模型是YOLO11的核心价值。其数据组织格式延续了YOLOv5以来的标准：

datasets/ └── custom/ ├── images/ │ ├── train/ │ │ ├── image1.jpg │ │ └── ... │ └── val/ │ ├── image2.jpg │ └── ... └── labels/ ├── train/ │ ├── image1.txt # 每行: class_id x_center y_center width height │ └── ... └── val/ ├── image2.txt └── ...

你需要创建一个YAML配置文件（如custom_data.yaml）来指明数据路径和类别：

# custom_data.yaml path: /path/to/datasets/custom # 数据集根目录 train: images/train # 训练集图像路径（相对于path） val: images/val # 验证集图像路径（相对于path） test: # 测试集路径（可选） # 类别列表 names: 0: person 1: car 2: traffic_light # ... 你的类别

启动训练的命令或代码非常简洁：

from ultralytics import YOLO # 从预训练模型开始微调（强烈推荐） model = YOLO('yolo11n.pt') # 开始训练 results = model.train( data='custom_data.yaml', epochs=100, imgsz=640, batch=16, # 根据GPU内存调整 workers=8, # 数据加载线程数，通常设为CPU核心数 device='0', # 使用GPU 0 project='my_train_project', name='exp1', exist_ok=True, # 允许覆盖同名实验 pretrained=True, # 使用预训练权重（默认） optimizer='auto', # 自动选择优化器（通常是SGD或AdamW） lr0=0.01, # 初始学习率 lrf=0.01, # 最终学习率因子 (lr0 * lrf) momentum=0.937, weight_decay=0.0005, warmup_epochs=3.0, # 学习率热身轮数 box=7.5, # 边界框损失权重 cls=0.5, # 分类损失权重 dfl=1.5, # DFL损失权重（YOLO8/11引入） save_period=-1, # 每隔多少epoch保存一次检查点，-1为仅保存最后和最佳 )

训练开始后，Ultralytics会启动一个本地Web服务器，默认在http://localhost:3000提供训练过程的可视化界面，你可以实时查看损失曲线、精度指标和验证集推理样例，这是监控训练状态不可或缺的工具。

4. 模型导出与部署：ONNX、TensorRT及其他格式

训练好的PyTorch模型（.pt）通常需要被导出为其他格式，以便在不同的推理引擎或硬件平台上部署。model.export()方法是实现这一转换的桥梁。

4.1 导出为ONNX格式：跨平台部署的基石

ONNX（Open Neural Network Exchange）是一种开放的模型格式，是模型从研究到生产部署的关键一步。YOLO11的导出非常直接：

from ultralytics import YOLO model = YOLO('path/to/your/best.pt') # 加载你训练好的模型 # 导出为ONNX格式 success = model.export(format='onnx', imgsz=[640, 640], simplify=True)

关键参数解析：

format='onnx'：指定导出格式。
imgsz=[640, 640]：指定模型的输入尺寸（高，宽）。这里有个大坑：如果你训练时使用了矩形训练（如imgsz=640，即[640, 640]），导出时也应保持一致。如果你使用了正方形训练，但推理时想用其他比例，ONNX模型会要求固定输入尺寸，你需要通过额外的预处理（如填充）来适配。
simplify=True：务必开启。它会调用onnx-simplifier库对计算图进行优化，合并冗余算子，显著简化模型结构，提高后续推理引擎的兼容性和性能。
opset=17：指定ONNX算子集版本。通常默认即可，但某些部署环境（如旧版TensorRT）可能需要指定特定版本。

导出成功后，你会得到一个.onnx文件。你可以使用netron工具（pip install netron）打开它，直观地查看模型的计算图结构，确认输入输出节点名称和维度是否符合预期。

4.2 导出为TensorRT格式：极致性能的追求

如果你在NVIDIA GPU上部署，TensorRT是获得极致推理速度的不二之选。YOLO11的导出同样支持一键转换：

# 导出为TensorRT引擎（需要已安装TensorRT） success = model.export(format='engine', imgsz=640)

这个过程实际上包含了两个步骤：首先将模型导出为ONNX，然后调用TensorRT的trtexec工具将ONNX编译优化为特定GPU上的.engine文件。因此，你需要确保系统环境中已正确安装TensorRT，并且其CUDA版本与你的PyTorch环境匹配。

重要注意事项：TensorRT的“固化”特性。导出的.engine文件是与导出时指定的精确参数（如imgsz、batch_size、精度fp16/fp32）以及运行它的具体GPU型号强绑定的。这意味着：
不能跨GPU型号使用：在RTX 3090上导出的engine文件，通常不能在RTX 4060上运行。
输入尺寸固定：导出时指定了imgsz=[640,640]，推理时就必须输入这个尺寸的图片。
动态Batch支持：可以通过batch_size参数指定支持动态批次，例如batch_size=1,8表示支持1到8的动态批次，但这需要在导出时明确设定。

对于需要动态输入尺寸（如不同分辨率的图片）的场景，更推荐使用ONNX格式配合支持动态轴的推理引擎（如ONNX Runtime），或者在导出TensorRT时使用显式的动态形状配置，但这需要更复杂的操作。

4.3 其他导出格式与“简易模型”导出

除了ONNX和TensorRT，export()方法还支持其他格式：

format='torchscript': 导出为TorchScript，用于LibTorch（PyTorch C++ API）部署。
format='coreml': 导出为Core ML，用于苹果生态系统（iOS/macOS）。
format='tflite': 导出为TensorFlow Lite，用于移动端和边缘设备（如安卓、树莓派）。

关于网络热词中提到的model.export(format="onnx") 如何导出简易模型，这里的“简易模型”通常指的是经过优化、剪枝或量化的更小、更快的模型。YOLO11官方的export方法本身不包含自动模型压缩功能。要实现“简易模型”，通常需要在训练阶段或导出后进行额外操作：

训练时选择小模型：直接使用yolo11n.pt（纳米型）而非yolo11x.pt（巨型）作为起点。
训练后量化（Post-Training Quantization, PTQ）：将训练好的FP32模型转换为INT8精度，可大幅减少模型体积和提升推理速度，但可能会轻微损失精度。这通常需要使用TensorRT、ONNX Runtime或OpenVINO等工具在导出后进行处理。
知识蒸馏或剪枝：更高级的模型压缩技术，需要修改训练流程或使用专门的模型压缩工具库。

因此，model.export()主要负责格式转换，要获得“简易模型”，你需要结合模型选型和后处理技术。

5. 高级配置与集成实战

掌握了基础配置和流程后，我们来看看如何应对更复杂的实际需求，例如与OpenCV集成、在Java中调用，或是进行特定领域的优化。

5.1 与OpenCV的深度集成：解决兼容性问题

网络热词中提到“opencv4.8不支持yolov11哪些功能”。这其实是一个误解。YOLO11是一个模型架构，由Ultralytics框架加载和运行；而OpenCV是一个计算机视觉库，主要用于图像处理、视频I/O和基础的DNN推理。它们之间的“不支持”主要体现在两个方面：

OpenCV DNN模块对新型算子的支持滞后：OpenCV的cv2.dnn.readNetFromONNX()可以加载ONNX模型进行推理。但是，如果YOLO11的ONNX模型中包含了OpenCV DNN模块尚未实现或优化过的全新算子（例如某些特殊的激活函数或注意力机制），加载或推理就会失败。Ultralytics在导出ONNX时，会尽量使用通用算子以保证兼容性，但并非绝对。
后处理差异：YOLO11的Ultralytics原生推理输出是经过NMS后处理、格式友好的结果。而用OpenCV DNN推理ONNX模型，得到的是原始的、密集的预测输出（如[1, 84, 8400]，表示1张图，84个值（4框+80类），8400个锚点），你需要自己编写代码来解析这些输出，进行置信度过滤和NMS操作。这正是“不支持”的核心——OpenCV不提供YOLO11专用的后处理。

解决方案：

方案A（推荐）：继续使用Ultralytics框架进行推理，仅利用OpenCV进行图像读取、显示和绘制。这是最稳定、最简单的方式。
方案B：如果必须在纯OpenCV DNN环境中运行，确保导出的ONNX模型是兼容的，并准备好自己实现后处理逻辑。你可以参考Ultralytics源码中的utils/ops.py文件里的non_max_suppression函数，将其移植到你的代码中。

5.2 Java集成方案：行为检测与工程调用

“java yolov11 行为检测”这个需求很典型，即在后端Java服务中调用YOLO11模型。由于YOLO11核心是Python/PyTorch生态，在Java中调用主要有以下两种路径：

路径一：进程间调用（RPC/命令行）这是将Python环境与Java服务解耦的常用方法。Java程序通过创建进程、调用Python脚本并传递数据（如图片路径或Base64编码的图片数据）来执行推理，然后解析Python脚本返回的JSON结果。

优点：架构清晰，Java端无需关心模型和深度学习环境，可以利用成熟的Python生态。
缺点：有进程间通信的开销，延迟较高，不适合超高并发或超低延迟场景。
工具：可以使用ProcessBuilder直接调用命令行，或使用gRPC、HTTP（如FastAPI）构建更规范的微服务。

路径二：通过Java本地接口（JNI）调用C++推理引擎这是追求高性能的方案。核心思路是：将YOLO11模型导出为ONNX格式，然后在Java中通过JNI调用一个用C++编写的推理引擎（如ONNX Runtime C++ API、TensorRT C++ API或OpenCV DNN C++ API）。

将模型导出为ONNX。
使用C++编写推理库，实现模型加载、预处理、推理、后处理（NMS）的全流程。
编译C++代码为动态链接库（如.so或.dll）。
在Java中通过JNI（或更友好的封装如JNA、JavaCPP）来加载这个动态库并调用其函数。

优点：性能极高，延迟低，资源利用率高。
缺点：技术栈复杂，需要C++开发能力，调试困难。

对于“行为检测”这类复杂任务，通常不是单帧目标检测能完成的，需要结合时序分析（如使用LSTM、3D CNN或基于轨迹的动作识别）。YOLO11可以作为一个强大的“行人或目标检测器”，为你提供每一帧中目标的位置，然后将这些序列化的检测结果输入到专门的行为识别模型中进行分析。整个 pipeline 可能需要Python来协调，或者将两个模型都导出并在C++中串联。

5.3 针对特定场景的微调与优化

网络热词中提到了“visdrone 微调精度”和“低光照目标检测”，这都是非常实际的垂直领域应用。

VisDrone数据集微调：VisDrone是一个无人机视角的目标检测数据集，目标通常较小且密集。针对此场景微调YOLO11，你需要：

调整模型锚框（Anchor）：YOLO11可以自适应计算锚框，但针对小目标，在训练前用你的数据集重新聚类生成先验锚框可能有益。可以使用Ultralytics提供的utils/autoanchor.py相关功能。
修改模型结构：可以考虑使用更专注于小目标的检测头，或者将特征金字塔网络（FPN）中的浅层特征（包含更多细节信息）赋予更高权重。这可能需要修改模型YAML配置文件。
数据增强策略：加强针对小目标和密集场景的增强，如Mosaic增强、随机缩放（RandomResize）、多尺度训练等。在model.train()的参数中，mosaic=1.0（启用），scale=0.5（缩放范围）等参数需要仔细调整。
损失函数权重：调整box、cls、dfl损失的权重，例如在密集小目标场景下，可能会更关注定位精度，可以适当增加box损失的权重。

低光照目标检测优化：低光照下图像噪声大、对比度低。

数据层面：在数据增强中引入模拟低光照的变换，如随机调整亮度、对比度、添加高斯噪声，或者使用更专业的低光照图像增强算法（如RetinexNet）对训练数据进行预处理。
输入预处理：在推理前，对输入图像进行低光照增强。你可以将增强算法集成到数据加载器中，或者作为一个前处理步骤。
模型层面：探索在Backbone前端加入一个轻量级的图像增强模块（可微分），让模型学会自己“看清”暗处。但这属于网络结构改进，需要一定的研究和实验。
领域自适应：如果能有少量在真实低光照环境下标注的数据，可以先用正常数据预训练，再用低光照数据微调，使模型适应新的数据分布。

6. 常见问题排查与实战技巧实录

无论教程多么详细，实际配置中总会遇到各种“坑”。这里记录了一些最常见的问题和解决方法，希望能帮你快速排雷。

6.1 安装与环境类问题

问题1：ImportError: libcudart.so.11.0: cannot open shared object file: No such file or directory

现象：导入PyTorch或运行CUDA相关代码时出现。
原因：系统找不到CUDA的动态链接库。通常是CUDA Toolkit未安装，或环境变量LD_LIBRARY_PATH未正确设置。
解决：
1. 确认CUDA已安装：nvcc --version。
2. 找到CUDA库路径，通常是/usr/local/cuda-11.x/lib64。
3. 将该路径加入环境变量：export LD_LIBRARY_PATH=/usr/local/cuda-11.x/lib64:$LD_LIBRARY_PATH。最好将这条命令写入你的~/.bashrc或虚拟环境的激活脚本中。

问题2：训练时GPU内存（显存）溢出（CUDA out of memory）

现象：训练开始不久后报错。
原因：batch_size设置过大，或模型尺寸（如yolo11x）过大，超出GPU显存容量。
解决：
1. 降低batch_size：这是最直接有效的方法，例如从16降到8或4。
2. 减小imgsz：降低输入图像分辨率，能显著减少显存占用，但可能影响小目标检测精度。
3. 使用更小的模型：从yolo11l切换到yolo11m或yolo11s。
4. 启用梯度累积：在model.train()参数中设置accumulate=2，这相当于模拟更大的batch_size，但会稍微增加训练时间。
5. 使用自动混合精度（AMP）训练：设置amp=True（默认通常是开启的），可以节省显存并加速训练。

问题3：训练损失（loss）为NaN或突然变得巨大

现象：训练过程中损失值出现异常。
原因：
- 学习率lr0设置过高。
- 数据中存在损坏的图片或标签（如坐标值超出0-1范围）。
- 梯度爆炸。
解决：
1. 降低学习率：尝试将lr0降低一个数量级，例如从0.01降到0.001。
2. 检查数据：使用Ultralytics提供的data=‘coco8.yaml‘这样的小数据集先跑通，排除代码问题。然后仔细检查你的自定义数据集，确保图片能正常打开，标签格式正确。
3. 启用梯度裁剪：在model.train()中设置grad_clip_norm=10.0，防止梯度爆炸。
4. 关闭AMP：在极少数情况下，混合精度训练可能导致数值不稳定，尝试设置amp=False。

6.2 模型训练与评估类问题

问题4：验证集mAP很低，但训练集损失正常下降

现象：模型过拟合，在训练集上表现好，在没见过的数据上表现差。
原因：
- 训练数据量太少。
- 模型复杂度过高（如用了yolo11x但数据只有几百张图）。
- 数据增强不够或不当。
解决：
1. 增加数据：收集更多数据，或使用数据增强。
2. 简化模型：换用更小的模型（如yolo11n）。
3. 增强正则化：增加weight_decay值（如从0.0005增加到0.001），或使用Dropout（需要在模型YAML中配置）。
4. 早停（Early Stopping）：监控验证集mAP，当其不再提升时提前停止训练。

问题5：如何选择预训练模型作为起点？

选择逻辑：这取决于你的任务复杂度、数据量和硬件条件。
- yolo11n/yolo11s：边缘设备、移动端、实时性要求极高的场景。数据量少（<1k）时也适合，避免过拟合。
- yolo11m：最通用的平衡选择。在精度和速度之间有很好的权衡，适用于大多数项目起点。
- yolo11l/yolo11x：追求极致精度，且拥有充足数据（数万张以上）和强大GPU（显存>=16GB）的研发场景。对于工业级应用，yolo11l往往是精度和速度的最佳结合点。

6.3 模型导出与部署类问题

问题6：导出的ONNX模型在OpenCV DNN中推理结果不对

现象：能成功加载和推理，但检测框错乱或无结果。
原因：后处理逻辑错误。OpenCV DNN输出的是未经过NMS的原始预测，你需要正确解析输出维度并实现NMS。
解决：
1. 打印ONNX模型的输出形状：print(results[0].shape)。
2. YOLO11的ONNX输出通常是[1, 84, 8400]（以640输入为例）。其中84 = 4（框中心xy+宽高）+ 80（COCO类别数）。8400是锚点数量。
3. 你需要编写代码：a) 将输出转置为[8400, 84]； b) 将框的xywh从中心格式解码为左上角右下角格式； c) 应用置信度阈值过滤； d) 执行NMS。强烈建议直接参考Ultralytics源码中的后处理函数。

问题7：TensorRT导出失败或推理速度不升反降

现象：导出.engine文件时报错，或导出后推理速度不如ONNX。
原因：
- TensorRT版本与CUDA、cuDNN不兼容。
- 导出时指定的精度（如FP16）在当前GPU上不支持或效率不佳。
- 动态形状配置复杂，导致优化不佳。
解决：
1. 确保环境一致：使用与TensorRT版本匹配的CUDA和cuDNN。
2. 尝试FP32：如果FP16导出或推理有问题，先回退到FP32 (half=False)。
3. 使用静态形状：对于固定输入尺寸的应用，导出时使用确定的imgsz，避免动态形状。
4. Profile性能：使用trtexec工具对导出的engine进行性能分析，查看瓶颈所在。