AI算力服务器使用体验
各位读者好,最近我有幸接触到一台专业算力服务器,这是机器详细规格:
https://www.supermicro.org.cn/zh_cn/products/system/4U/4028/SYS-4028GR-TVRT.php
在和大家分享一下使用感受前,先介绍一下显卡和GPU相关的基本知识:
显卡/GPU
上图是一张普通消费级显卡,这种卡将含芯片(GPU)、显存、风扇组合在一张电路板上,最初负责显示,因此也叫显卡,这张卡使用的接口叫做PCI-E(或PCIe)接口。
而专业的计算卡形态与普通显卡完全不同,下面是英伟达Tesla V100计算卡的照片:
这种卡使用的接口叫做SXM接口(例如V100使用的是SXM2)接口。
PCIe接口和SXM接口接口最大的差异在数据传输速度(带宽)上。例如,目前主流的PCIe 4.0 x16接口双向带宽约为63 GB/s,最新的PCIe 5.0 x16接口双向最高带宽约为126 GB/s。而SXM2接口双向最高带宽约为300 GB/s,H200使用的SXM5接口双向最高带宽约为900 GB/s。
高带宽带来的优势是大模型训练/推理速度的加速。因为单张卡(GPU)无法装下大模型,所以大模型的训练/推理需要将模型加载到多张卡里,多GPU协同计算。考虑到模型参数都是十亿甚至万亿级别,训练时GPU之间需要交换的数据量远超PCIe接口的传输能力。因此类似SXM这样的接口对于大模型的训练非常重要。
使用感受
接下来说说使用感受:
一是噪音大。普通PC一般用的都是静音风扇,算力服务器使用的是超高转速的“暴力风扇”,多个风扇同时工作的噪音类似装修时用冲击钻打墙的声音,穿透力非常强……通常需要安放在机房才好。
二是难上手。我之前安装过很多次操作系统和显卡驱动,基本上在普通PC上不会遇到什么问题。但在服务器上按同样方法装系统,各种奇怪的问题都出现了……例如用ubuntu25+最新版英伟达驱动在V100 pcie工作站上一切正常,但上了服务器以后立刻白屏……最后我用各大头部模型轮番上阵,费了老大劲才装好系统和驱动。我感觉也许和这个服务器款式比较老有关系,如果可能,尽量从比较新款的服务器上手。
三是机器重。我接触的这台服务器的重量大概在50公斤,在8卡机器里还算轻的……搬运这种机器需要2位大力士同时操作,一个人基本搬不动……
四是接口少。硬件兼容性差。这台机器只有2个usb口,插上键盘鼠标都没法插u盘。。我把在其它机器上正常工作的usb hub和独立显卡装过来都不行,出现各种奇怪的问题。。(当然专业的组织会从网络安装/操作服务器,各位专家们请忽略此条……)
最后就是这种服务器的能力普通PC无法相比,可以训练/全参微调6B的模型。这些是我目前的使用体验,供大家参考。
*本文部分图片来自于网络,如认为侵权,请联系我删除。
