当前位置：首页 > news >正文

自动驾驶LiDAR语义分割避坑指南：我在SemanticKITTI数据集上复现SqueezeSegV2时踩过的那些雷

news 2026/6/9 3:39:01

自动驾驶LiDAR语义分割避坑指南：SemanticKITTI数据集实战经验

当第一次在SemanticKITTI数据集上运行SqueezeSegV2时，我本以为按照论文描述就能轻松复现结果。然而现实给了我一记响亮的耳光——从数据预处理到模型训练，处处是坑。本文将分享那些让我熬了无数个夜晚才解决的问题，以及从中学到的宝贵经验。

1. 环境配置与数据准备

在开始任何模型训练前，正确的环境配置和数据准备是基础。这里我遇到了第一个坑：官方开发工具包的版本兼容性问题。

开发工具包安装建议：

# 推荐使用conda创建独立环境 conda create -n squeezeseg python=3.7 conda activate squeezeseg pip install numpy==1.19.5 # 必须这个版本，否则会与spconv冲突 pip install torch==1.8.1+cu111 torchvision==0.9.1+cu111 -f https://download.pytorch.org/whl/torch_stable.html

SemanticKITTI数据集的组织结构需要特别注意：

原始数据应放在/data/semantic_kitti/dataset/sequences目录下
每个序列的velodyne点云数据和labels需要严格对应
开发工具包中的config/semantic-kitti.yaml必须与你的数据路径匹配

特别注意：SemanticKITTI的点云数据采用.bin格式存储，每个点包含[x,y,z,intensity]四个值，直接读取时需要用numpy的fromfile函数：

points = np.fromfile(bin_file, dtype=np.float32).reshape(-1, 4)

2. 点云稀疏性问题与解决方案

SemanticKITTI使用64线激光雷达采集数据，随着距离增加，点云会变得异常稀疏。这导致远距离物体识别准确率大幅下降，特别是在30米外的物体，mIoU可能下降40%以上。

应对策略对比表：

方法	优点	缺点	适用场景
多帧累积	提升点密度	增加计算负担	静态场景
球面投影	保留几何结构	损失部分信息	实时系统
动态采样	平衡近远点	需要调参	均衡数据集

在实际项目中，我采用了混合策略：

对50米内的点云进行动态采样
使用球面投影将3D点云转为2D范围图像
对关键区域（如道路前方）进行多帧融合

def spherical_projection(points, fov_up=3.0, fov_down=-25.0): # 将3D点云投影到2D球面坐标 x,y,z = points[:,0], points[:,1], points[:,2] depth = np.sqrt(x**2 + y**2 + z**2) yaw = -np.arctan2(y, x) pitch = np.arcsin(z / depth) # 转换为像素坐标 fov = abs(fov_up) + abs(fov_down) proj_x = 0.5 * (yaw/np.pi + 1.0) * 2048 # 水平分辨率 proj_y = (1.0 - (pitch + abs(fov_down)) / fov) * 64 # 垂直线数 return proj_x, proj_y, depth

3. 类别不平衡处理技巧

SemanticKITTI的类别分布极不均衡，道路和建筑物等大类占总点数的70%以上，而摩托车手等小类占比不足0.1%。直接训练会导致模型严重偏向多数类。

我尝试过的有效方法：

加权交叉熵损失：根据类别频率设置权重

class_weights = 1 / torch.log(frequency + 0.001) criterion = nn.CrossEntropyLoss(weight=class_weights)

困难样本挖掘：在训练中动态关注难以分类的点
数据增强策略：
- 对小类物体进行过采样
- 应用随机旋转和缩放时保护小类样本
- 在点云中随机复制小类实例

实际测试发现，结合焦点损失(Focal Loss)和在线困难样本挖掘效果最佳，小类mIoU提升约15%：

class FocalLoss(nn.Module): def __init__(self, alpha=0.25, gamma=2.0): super().__init__() self.alpha = alpha self.gamma = gamma def forward(self, inputs, targets): BCE_loss = F.cross_entropy(inputs, targets, reduction='none') pt = torch.exp(-BCE_loss) focal_loss = self.alpha * (1-pt)**self.gamma * BCE_loss return focal_loss.mean()

4. GPU内存优化实战

在复现SqueezeSegV2时，最大的挑战是如何在有限GPU内存下处理高分辨率点云。原始论文使用Titan Xp显卡，而我的RTX 2080 Ti经常爆显存。

内存优化技巧：

梯度累积：通过多次小批量累积梯度模拟大批量训练

optimizer.zero_grad() for i, (inputs, labels) in enumerate(train_loader): outputs = model(inputs) loss = criterion(outputs, labels) loss = loss / accumulation_steps # 梯度累积 loss.backward() if (i+1) % accumulation_steps == 0: optimizer.step() optimizer.zero_grad()

混合精度训练：使用Apex或PyTorch原生AMP

from torch.cuda.amp import autocast, GradScaler scaler = GradScaler() with autocast(): outputs = model(inputs) loss = criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()

动态点云采样：训练时随机下采样远处点云
检查点技术：将大模型分段计算

经过这些优化，我在11GB显存上成功训练了完整分辨率的模型，batch size仍能保持8。训练时间从预估的7天缩短到3天。

5. 移动与非移动物体区分

SemanticKITTI的一个独特之处是区分了移动和非移动物体，这对自动驾驶决策至关重要。但原始SqueezeSegV2并未专门优化这一特性。

改进方案：

时序特征融合：将连续5帧的点云叠加，通过移动轨迹识别运动物体

def accumulate_frames(frame_list): accumulated = [] for i, frame in enumerate(frame_list): # 应用位姿变换将各帧转换到当前坐标系 transformed = apply_pose(frame, poses[i]) accumulated.append(transformed) return np.concatenate(accumulated)

速度估计分支：在模型最后添加辅助输出头预测点速度

class SqueezeSegV2WithSpeed(nn.Module): def __init__(self, num_classes): super().__init__() self.backbone = SqueezeSegV2Backbone() self.seg_head = nn.Conv2d(128, num_classes, 1) self.speed_head = nn.Conv2d(128, 2, 1) # vx, vy def forward(self, x): features = self.backbone(x) seg = self.seg_head(features) speed = self.speed_head(features) return seg, speed