当前位置：首页 > news >正文

模型单机多卡训练笔记

news 2026/6/13 17:01:33

## 一.训练前准备

- 1.平台账号与链接：https://autodl.com/home

- 2.训练数据准备**

- 这里以酒店评论数据sentiments.json、以及自我认知identity.json为例

- 将这两个文件标准化为Alpaca格式，如下所示：

~~~

{

"prompt": "instruction", # 指令

"query": "input", # 用户输入，可选

"response": "output", 模型输出

"system": "system" # 系统设置

}

- 在 dataset_info.json 中对训练数据进行注册，如下所示：

~~~

"sentiments": {

"file_name": "sentiments.json",

"columns": {

"prompt": "instruction",

"query": "input",

"response": "output",

"system": "system"

}

## 二.训练配置

- 1.打开autodl算力云平台：https://autodl.com/

- 登录账号：

- 配置算力：

- 算力市场/佛山区

- 型号：V100-32GB(43/88)

- GPU 数量：2（这里我选了两张卡，大家按实际情况来）

- 镜像：PyTorch/2.5.1/3.12(ubuntu22.04)/ 12.4

- 点击“创建并开机”按钮，

- 点击快捷工具列下的“jupyterLab ” 进入编辑器环境

- 2. 升级并安装 git-lfs,因为普通的 git clone 只会下载指针文件（几百字节），而不是真正的权重文件。

- 安装命令：

apt-get update && apt-get install -y git-lfs

git lfs install

- 3.下载模型，比如我这里以Qwen2.5-0.5B-Instruct为例：

- 逐行命令

git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git

cd Qwen2.5-0.5B-Instruct

git lfs pull

- 这时候看到核心的 model.safetensors 权重文件，大小差不多为1GB，说明文件已经正常下载了

- 4.下载LLaMA-Factory，以及安装及依赖包

- 可以选择git命令，也可以选择本地上传压缩包之后再解压

- 安装依赖包

- cd LLaMA-Factory

- pip install -e ".[torch, metrics]"

- 5.安装deepseek(做并行计算的)

- cd LLaMA-Factory

- pip install deepspeed

### 三、训练文件上传与训练预设文件设置

- 1.环境都准备好之后，上传之前准备好的数据文件，以及修改好data文件夹中的数据注册文件dataset_info.json

- 保证dataset_info.json无误：注册数据名称、路径、数据格式

- 2.训练显存监控，定时刷新命令如下：

- watch -n 2 'nvidia-smi'

- 每隔2s刷新一次

- 设置训练预设文件

- 选择正确的训练模板：在\LLaMA-Factory\examples\train_full> 中复制llama3_full_sft.yaml 文件

- 修改文件名为：QWen2.5_0.5B_Instruct_full_sft

- 修改文件中的参数

- model_name_or_path: /root/Qwen2.5-0.5B-Instruct

- dataset: identity,alpaca_en_demo,alpaca_zh_demo,sentiment

- template: qwen

- max_samples: 10000

- output_dir: /root/autodl-tmp/outputs/Qwen2.5-0.5B-Instruct

- save_steps: 10000

- per_device_train_batch_size: 2

- gradient_accumulation_steps: 1

- 设置好之后，将文件存到LLaMA-Factory目录下，这个路径很重要，要与后面的命令路径对上

- 3.一切就绪，切换到LLaMA-Factory目录下

- cd LLaMA-Factory

- 开始训练：FORCE_TORCHRUN=1 llamafactory-cli train QWen2.5_0.5B_Instruct_full_sft.yaml

### 四.等待训练结果，可以进行批量推理和模型评测

- 评测代码如下：

CUDA_VISIBLE_DEVICES=0 llamafactory-cli eval \

--model_name_or_path /root/autodl-tmp/outputs/Qwen2.5-0.5B-Instruct \

--template qwen \

--task cmmlu_test \

--lang zh \

--n_shot 5 \

--batch_size 4 \

--trust_remote_code True

### 五.模型训练好之后，可以封装成服务调用，后面再记录一下这部分的内容

查看全文

http://www.gsyq.cn/news/1476824.html

2026年更新：深度解析非标无动力游乐设备实力厂家的选择之道 - 2026年企业资讯

别再为多重共线性发愁了！用Python的sklearn快速上手岭回归实战

瑞德克斯信息服务平台节奏易懂吗？

银行级机器学习系统：从模型上线到生产就绪的工程实践

后端 API 设计：RESTful 与 GraphQL 的架构权衡与实战选择

思源宋体终极指南：7种字体样式完全免费商用方案

30天突破：KaTrain围棋AI训练平台完全指南

创新驱动合规为基一米臻选商业模式行业楷模

2026年瑞安旧房水电重做平台深度解析：专业服务商的选择与评估 - 2026年企业资讯

从收音机到5G滤波器：品质因数Q如何影响你的手机信号和网速？

别再死磕公式了！用Python+NumPy实战TDOA定位（从Chan到Fang算法对比）

Claude平台突发大规模宕机：Anthropic基础设施承压，AI服务稳定性再引争议

从DCDC到LDO：手把手教你用LM1117给STM32搭建一个‘安静’的3.3V电源

LangChain 与 LangGraph：从 Agent 应用到可控工作流的完整工程图谱

别再死记公式了！用Python+LTspice仿真，5分钟搞懂RLC谐振电路的品质因数Q

高斯盒嵌入与TaxoBell框架：知识表示新范式

B站直播推流神器：3分钟掌握专业直播设置技巧

多语言大模型事实召回能力评估与优化研究

高通孟樸：汽车成为AI进入真实世界的重要载体之一【附全文】

嵌入式开发踩坑记：STM32与短信模块TTL通讯失败，一根地线引发的‘血案’

BilibiliDown终极指南：三分钟掌握B站视频下载神器

行政区划 ZIP 导入（importZip）

`：如何被提取并用于浏览器标签页、历史记录？ - `＜meta charset=“...“＞`：字符集的早期（或重新）解析 - `＜meta name=“viewport“＞`：视口设置与布局的关联

如何用FModel轻松提取游戏资源：3个步骤开启MOD创作之旅

MySQL知识点综合详解_01

低资源语言语义关系构建：土耳其语语料库混合方法

MySQL 执行引擎深度解密：基于 AST 解析器定制与 Optimizer 执行计划干预的 SQL 性能调优实战

3步上手Windows自动化神器：Pulover‘s Macro Creator新手完全指南

相关文章：