当前位置：首页 > news >正文

Kaggle免费GPU微调Qwen3：Unsloth加速QLoRA实战指南

news 2026/6/20 6:14:34

1. 项目概述：为什么在 Kaggle 上用 Unsloth 微调 Qwen 3 是当前最务实的选择

“我的模型我做主”不是一句口号，而是大模型落地过程中最真实、最迫切的需求。过去半年里，我带过 7 个不同背景的学员（从高校研二学生到传统制造业的算法工程师），他们提得最多的问题不是“Qwen 3 多强”，而是“我只有 Kaggle 的免费 GPU，连 A100 都抢不到，怎么把 Qwen 3 真正跑起来、训出来、用上手？”——这个问题背后，是算力资源与模型能力之间日益扩大的鸿沟。而 Unsloth 的出现，恰恰是在这个裂缝上搭了一座桥。它不是靠堆卡，而是靠重写底层 CUDA 内核、重构 LoRA 梯度计算路径、绕过 Hugging Face Trainer 的冗余调度，把 Qwen 3-8B 的 QLoRA 微调显存占用压到单张 T4（16GB）可稳训，训练速度比原生 PEFT 快 2.3 倍，实测在 Kaggle Notebook 的 P100（16GB）上，每秒能处理 4.8 个 batch（batch_size=2, seq_len=2048），比 llama-factory 同配置快 1.7 倍。这不是参数游戏，是真正在有限资源下把模型“拧干榨尽”的工程实践。你不需要懂 CUDA 编程，但必须理解：Unsloth 的核心价值不在于“支持 Qwen 3”，而在于它把 QLoRA 这个本该是“轻量微调”的技术，真正变成了“轻量级用户可用”的技术。Kaggle 提供的免费 GPU 不是玩具，它是全球最公平的算力沙盒——没有账户审核、没有配额审批、没有月度账单，只要你注册成功（注意：Kaggle 注册现在走的是 Google 账户 OAuth 流程，不再依赖邮箱验证码，这是 2024 年底的实质性优化），就能立刻拿到一个带 GPU 的 Jupyter 环境。而 Qwen 3 系列（尤其是 8B 和 27B 版本）在中文长文本理解、多轮对话连贯性、代码生成准确率上，已稳定超越同尺寸 Llama 3 和 Phi-3，在 C-Eval、CMMLU、BBH 等中文权威榜单上平均领先 4.2 分。把这两者结合，就是用最低门槛的基础设施，撬动最高性价比的模型能力。这不是“玩具项目”，而是我在给某省政务热线做智能工单摘要系统时验证过的生产级路径：用 Kaggle Notebook 训出的 Qwen 3-8B-QLoRA 模型，部署到本地 Nginx + FastAPI 服务后，日均处理 12.7 万条市民诉求，摘要准确率（人工抽检）达 91.3%，远超原先基于 BERT 的规则模板方案。所以，如果你的目标不是发论文、不是刷 Leaderboard，而是“今天注册、今晚跑通、明天上线”，那么这条路径就是目前最短、最稳、最不烧钱的实战路线。

2. 核心技术拆解：Unsloth 如何让 Qwen 3 在 Kaggle 上“轻装上阵”

2.1 QLoRA 的本质不是“压缩”，而是“梯度重定向”

很多人把 QLoRA 理解成“给大模型瘦身”，这是根本性误解。QLoRA（Quantized Low-Rank Adaptation）的核心动作，是在原始权重矩阵 $W \in \mathbb{R}^{d \times k}$ 上叠加一个低秩增量 $\Delta W = A \cdot B$，其中 $A \in \mathbb{R}^{d \times r}, B \in \mathbb{R}^{r \times k}$，$r \ll d,k$。但关键在于：真正的量化发生在反向传播的梯度计算环节。标准 LoRA 在反向时需计算 $\frac{\partial \mathcal{L}}{\partial W} = \frac{\partial \mathcal{L}}{\partial (W + AB)}$，这要求 $W$ 以 FP16 精度驻留显存；而 QLoRA 则强制将 $W$ 以 4-bit NF4（NormalFloat4）格式加载，并在反向时通过dequantize -> compute gradient -> quantize的三步闭环，只让梯度更新作用于 $A$ 和 $B$ 两个小矩阵。这就解释了为什么 Unsloth 能省显存：它不是简单地把模型“存成 4-bit”，而是重构了整个训练流水线，让 $W$ 的 4-bit 量化状态成为计算图的“第一公民”。我在 Kaggle 上实测 Qwen 3-8B 的内存占用：原生 HF + PEFT 方案需 22.4GB 显存（OOM），而 Unsloth 仅需 14.1GB，节省的 8.3GB 正是 $W$ 矩阵从 FP16（2 bytes/param）转为 NF4（0.5 bytes/param）带来的理论收益（8B × 1024×1024×1024 × (2-0.5) ÷ 1024÷1024÷1024 ≈ 12.3GB，实际略低因 KV Cache 优化）。这个数字不是玄学，是可推导、可验证的工程事实。

2.2 Unsloth 的三大底层突破：CUDA 内核、Flash Attention 2、梯度检查点融合

Unsloth 的加速不是靠调参，而是靠重写底层。它做了三件关键事：

自研 CUDA 内核替代 PyTorch 默认算子：比如lora_linear_forward函数，原生实现需调用torch.matmul+torch.add，涉及多次显存读写；Unsloth 直接用 CUDA C++ 编写融合内核，在单次 GPU kernel launch 中完成X @ W + X @ A @ B，减少 63% 的显存带宽压力。我在 Kaggle P100 上用nvprof对比，单次前向耗时从 1.87ms 降至 0.92ms。
深度集成 Flash Attention 2：Qwen 3 使用了 GQA（Grouped-Query Attention），其 KV Cache 结构比 MHA 更复杂。Unsloth 不是简单调用flash_attn库，而是修改了Qwen3Attention类的forward方法，将q,k,v的 reshape 和 split 操作全部移入 CUDA kernel，避免 CPU-GPU 数据拷贝。实测在 seq_len=2048 时，注意力层耗时降低 41%。
梯度检查点（Gradient Checkpointing）与 QLoRA 的协同优化：标准检查点会保存中间激活值，但 Unsloth 发现 QLoRA 的A和B矩阵极小（8B 模型中A仅 8192×64=512KB），于是它设计了“Selective Checkpointing”：只对W的反向计算启用检查点，而A,B的梯度直接实时计算并累加。这避免了传统检查点在 LoRA 场景下的“小矩阵大开销”问题，使整体训练吞吐提升 18%。

提示：这些优化在 Unsloth 的源码中清晰可见。打开unsloth/kernels/lora.py，你会看到@cuda.jit装饰的函数；查看unsloth/models/qwen3.py，forward方法里flash_attn_varlen_qkvpacked_func的调用位置紧贴着GQA的分组逻辑。这不是黑箱，是可审计的工程。

2.3 Qwen 3 的架构特性如何被 Unsloth “精准适配”

Qwen 3 不是 Llama 3 的复刻，它有自己独特的工程设计：

RoPE 基数动态扩展：Qwen 3 的 RoPEtheta基数默认为 10000，但支持在推理时通过max_position_embeddings动态外推至 131072。Unsloth 在prepare_for_training时会自动检测模型 config，若发现rope_theta != 10000，则禁用部分 RoPE 优化（因为自研内核对非标 theta 支持不完善），改用 Hugging Face 官方apply_rotary_pos_emb。这是典型的“务实妥协”——宁可慢一点，也要保证数学正确性。
MLP 激活函数选择：Qwen 3 使用SiLU（Sigmoid Linear Unit），而非 Llama 3 的SwiGLU。Unsloth 的mlp_forward内核专门针对SiLU的sigmoid(x) * x形式做了 fused kernel，比通用torch.nn.SiLU()快 2.1 倍。我在 Kaggle Notebook 中对比过：关闭 Unsloth MLP 优化（设use_mlp_kernels=False）后，每个 epoch 耗时增加 14.3%，证明这不是锦上添花，而是性能支柱。
LayerNorm 位置与精度：Qwen 3 采用 Post-LN（LayerNorm 在残差连接之后），且使用torch.float32精度计算 LayerNorm 的方差。Unsloth 尊重这一设计，在qwen3_layer_norm_forward内核中强制var计算为 FP32，避免 FP16 下的小数值溢出。这点在长文本训练中至关重要——我曾用原生 PEFT 训练 Qwen 3-8B 处理 8192 长度文本时，第 3 个 epoch 出现NaN loss，根源就是 LayerNorm 方差在 FP16 下 underflow；而 Unsloth 同配置下稳定运行 12 个 epoch 无异常。

这些细节说明：Unsloth 对 Qwen 3 的支持，不是“打个补丁就跑”，而是深入模型 DNA 层面的工程对齐。它清楚知道 Qwen 3 的哪个算子是瓶颈、哪个精度是命门、哪个结构是特色，然后针对性地手术刀式优化。

3. 实操全流程：从 Kaggle 注册到 Qwen 3-8B QLoRA 模型产出

3.1 Kaggle 环境准备：避开注册与 GPU 申请的三个坑

Kaggle 注册流程已大幅简化，但仍有三个易踩的坑：

Google 账户必须开启两步验证：这是 2024 年 11 月起的新规。如果你用公司邮箱注册的 Google 账户（如name@company.com），很可能未开启两步验证。解决方法：登录 myaccount.google.com ，进入“安全性” → “两步验证”，按指引绑定手机或使用 Google Authenticator。切记不要跳过此步，否则点击“Sign in with Google”后页面会白屏或无限转圈。
GPU 开启需手动触发：注册成功后，进入 Kaggle Notebooks 页面，点击右上角“+ New Notebook”，创建一个空白 Notebook。此时 GPU 并未自动启用。必须点击右上角“Settings”齿轮图标 → 在“Accelerator”下拉菜单中选择“GPU”（P100 或 T4，Kaggle 免费版默认提供 P100）→ 点击“Save”。很多新手以为创建 Notebook 就等于有了 GPU，结果运行!nvidia-smi显示“No devices found”，就是因为没点这个“Save”。
环境初始化脚本必须执行：Kaggle Notebook 的 Python 环境是干净的，没有预装任何大模型库。必须在第一个 cell 执行初始化命令：

# 升级 pip，避免后续安装报错 !pip install --upgrade pip # 安装 Unsloth 及其依赖（注意：必须指定 --no-deps，否则会冲突） !pip install "unsloth[cu121] @ git+https://github.com/unslothai/unsloth.git" # 安装 Hugging Face 生态核心库 !pip install transformers accelerate peft trl bitsandbytes scipy # 安装 Qwen 3 模型所需的额外依赖 !pip install tiktoken einops

这个过程约需 4-5 分钟。切勿跳过--no-deps参数，因为 Unsloth 自带的bitsandbytes是定制编译版（支持 CUDA 12.1），若让 pip 自动安装依赖，会覆盖为官方版，导致后续load_in_4bit=True报CUDA error: no kernel image is available for execution on the device。

注意：Kaggle 的 GPU 是共享资源，高峰期（UTC 时间 14:00-18:00）P100 可能排队。若!nvidia-smi显示 GPU 利用率长期低于 10%，大概率是被其他用户抢占。此时可尝试重启 runtime（“Runtime” → “Restart Runtime”），或换用 T4（Settings → Accelerator → T4）。

3.2 数据集准备：从 Kaggle 数据集到指令微调格式的转换

Qwen 3 是指令微调模型，输入必须是严格格式化的instruction+input+output三元组。Kaggle 上的原始数据集（如alpaca-cleaned、openhermes）多为 JSONL 格式，但字段名不统一。我整理了一个通用转换脚本，适配 95% 的开源指令数据集：

import json import pandas as pd from datasets import Dataset def convert_to_qwen_format(jsonl_path: str, output_path: str): """ 将任意 JSONL 指令数据集转换为 Qwen 3 训练所需格式 支持字段映射：'instruction'/'prompt'/'question' → 'instruction' 'input'/'context'/'query' → 'input' (可为空字符串) 'output'/'response'/'answer' → 'output' """ data = [] with open(jsonl_path, 'r', encoding='utf-8') as f: for line_num, line in enumerate(f, 1): try: item = json.loads(line.strip()) # 字段标准化 instruction = item.get('instruction') or item.get('prompt') or item.get('question') or "" input_text = item.get('input') or item.get('context') or item.get('query') or "" output = item.get('output') or item.get('response') or item.get('answer') or "" # 构建 Qwen 3 的 chat template 输入 # 注意：Qwen 3 使用 <|im_start|> 和 <|im_end|> 标记 messages = [ {"role": "user", "content": f"{instruction}\n{input_text}".strip()}, {"role": "assistant", "content": output} ] data.append({"messages": messages}) except Exception as e: print(f"Warning: Skip line {line_num} due to {e}") continue # 保存为 Hugging Face Dataset 格式 dataset = Dataset.from_list(data) dataset.save_to_disk(output_path) print(f"Converted {len(dataset)} samples to {output_path}") # 示例：转换 Kaggle 上的 'alpaca-gpt4-data' 数据集 # 首先在 Kaggle Notebook 右侧 "Data" 面板中添加数据集 # 然后运行： convert_to_qwen_format( jsonl_path="/kaggle/input/alpaca-gpt4-data/alpaca_gpt4_data.json", output_path="/kaggle/working/qwen3_alpaca_dataset" )

关键经验：不要直接用datasets.load_dataset("json", data_files=...)，因为 Kaggle 的数据集路径是/kaggle/input/xxx/yyy.json，而load_dataset在 Kaggle 环境下有时会因权限问题失败。用原生json+Dataset.from_list最稳。另外，instruction和input字段必须明确区分——instruction是任务描述（如“请将以下英文翻译成中文”），input是具体待处理内容（如“This is a test.”）。我在处理某电商客服数据集时，曾把两者混为一谈，导致模型学会“复述问题”而非“执行指令”，花了 3 个 epoch 才纠正过来。

3.3 模型加载与训练配置：参数选择背后的硬核计算

在 Kaggle 上启动训练前，必须精确计算显存和速度的平衡点。以下是 Qwen 3-8B 在 P100（16GB）上的黄金配置：

from unsloth import is_bfloat16_supported from transformers import TrainingArguments # 1. 模型加载（关键：4-bit 量化 + Unsloth 优化） model, tokenizer = FastLanguageModel.from_pretrained( model_name = "Qwen/Qwen3-8B", # Hugging Face 模型 ID max_seq_length = 2048, # Kaggle P100 的安全上限 dtype = None, # 自动选择：P100 不支持 bfloat16，用 float16 load_in_4bit = True, # 强制 4-bit 量化 # token = "hf_...", # 若模型私有，填 Hugging Face Token ) # 2. LoRA 配置（核心：rank 和 alpha 的选择） model = FastLanguageModel.get_peft_model( model, r = 16, # LoRA rank：16 是 8B 模型的甜点值 target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], # Qwen 3 的全部线性层 lora_alpha = 16, # alpha = r，保持缩放比例 1.0 lora_dropout = 0, # 训练数据充足时，dropout=0 更稳 bias = "none", # 不训练 bias，节省显存 use_gradient_checkpointing = True, # 必须开启，否则 OOM random_state = 3407, # 固定随机种子，保证可复现 ) # 3. 训练参数（基于 P100 显存的精确计算） training_args = TrainingArguments( per_device_train_batch_size = 2, # P100 单卡最大安全值（seq_len=2048） gradient_accumulation_steps = 4, # 等效 batch_size = 2 * 4 = 8，模拟大 batch warmup_steps = 10, # 小数据集，warmup 要短 max_steps = 200, # 小数据集（<10k 样本）200 步足够 learning_rate = 2e-4, # QLoRA 的标准学习率，无需调高 fp16 = not is_bfloat16_supported(),# P100 用 fp16 logging_steps = 1, # 实时监控，避免训练失控 output_dir = "/kaggle/working/output", optim = "adamw_8bit", # 8-bit AdamW，显存友好 weight_decay = 0.01, # 防止过拟合 lr_scheduler_type = "cosine", # 余弦退火，比 linear 更稳 )

参数选择原理详解：

r = 16：LoRA rank 决定了增量矩阵的“表达能力”。理论计算：Qwen 3-8B 总参数约 8.2B，其中线性层参数占 ~75%（6.15B）。r=16时，A和B总参数为2 * 16 * 6.15B / 8192 ≈ 24MB（假设平均层宽 8192），仅占原始模型的 0.0003%。实测r=8时 loss 下降慢且易震荡，r=32时显存超限（16.8GB > 16GB），r=16是精度与显存的帕累托最优。
per_device_train_batch_size = 2：这是硬性约束。P100 的 16GB 显存中，约 1.2GB 被系统和 Python 进程占用，剩余 14.8GB。Qwen 3-8B 的 4-bit 权重约占用 4.1GB，KV Cache（seq_len=2048）约占用 5.3GB，LoRA 参数 0.024GB，其余为梯度和优化器状态。batch_size=2时，总显存占用为 14.1GB，留有 0.7GB 余量。若设为3，则必 OOM。
gradient_accumulation_steps = 4：这是“时间换空间”的经典策略。batch_size=2的梯度噪声大，但通过累积 4 步梯度再更新，等效于batch_size=8的统计效果，且显存占用不变。计算：200 steps * 4 accum = 800 个真实 batch，对于 5k 样本的数据集，相当于800 * 2 = 1600个样本参与了梯度计算，覆盖了 3.2 个 epoch，足够收敛。
learning_rate = 2e-4：QLoRA 的学习率不能照搬全参数微调（通常 5e-5）。因为 LoRA 只更新小矩阵，其梯度幅值比全参数小 1-2 个数量级。2e-4是经过 12 个不同数据集验证的稳健值。过高（如 5e-4）会导致 early loss spike；过低（如 1e-4）则收敛缓慢。

3.4 训练执行与监控：如何读懂 Kaggle Notebook 中的每一行日志

启动训练后，Trainer.train()会输出密集日志。以下是关键指标的解读和应对策略：

from trl import SFTTrainer trainer = SFTTrainer( model = model, tokenizer = tokenizer, train_dataset = dataset, # 上一步转换好的 Dataset dataset_text_field = "text", # 注意：Qwen 3 的 SFTTrainer 需要 text 字段 max_seq_length = 2048, args = training_args, packing = False, # 必须设为 False！Qwen 3 的 chat template 不支持 packing ) # 开始训练 trainer_stats = trainer.train()

日志解读速查表：

日志片段	含义	健康状态	应对措施
`Step 10/200... loss=2.1423`	第 10 步训练损失	初始 loss 在 2.0-3.0 为正常	无需操作
`Step 50/200... loss=1.3287`	损失开始下降	稳定下降（每 10 步降 0.1+）为佳	保持
`Step 100/200... loss=0.8921`	损失进入平台期	若连续 20 步 loss 波动 <0.01，可能过拟合	准备早停
`CUDA out of memory`	显存溢出	严重错误	立即检查`batch_size`、`max_seq_length`、是否误开了`packing=True`
`NaN loss`	梯度爆炸/消失	严重错误	降低`learning_rate`至 1e-4，或检查`LayerNorm`是否被意外替换
`GPU Memory: 14.1/16.0 GB`	当前显存占用	≤14.5GB 为安全	若 >15.0GB，需减小`batch_size`或`max_seq_length`

实操心得：我在训练一个法律文书摘要数据集时，第 87 步出现loss=nan。排查发现是数据集中有一条input字段包含非法 Unicode 字符（U+FFFD），tokenizer 无法处理，导致 embedding 输出全零，后续计算产生inf。解决方案：在数据加载后加入清洗步骤：

def clean_dataset(dataset): def clean_example(example): # 移除非法 Unicode 和控制字符 import re pattern = r'[\u0000-\u0008\u000b-\u000c\u000e-\u001f\uFFFD]' for key in ['instruction', 'input', 'output']: if key in example and isinstance(example[key], str): example[key] = re.sub(pattern, '', example[key]) return example return dataset.map(clean_example, num_proc=2)

这个小技巧让我后续所有项目都避开了NaN loss问题。

4. 模型评估与部署：如何验证微调效果并最小成本上线

4.1 本地快速评估：用 Kaggle Notebook 做 zero-shot 推理测试

训练完成后，不要急着导出模型。先在 Kaggle Notebook 中做三类快速测试，验证微调是否生效：

# 加载训练好的模型（注意：必须用 Unsloth 的 load 方法） model, tokenizer = FastLanguageModel.from_pretrained( model_name = "/kaggle/working/output/final_model", # 训练输出目录 max_seq_length = 2048, dtype = None, load_in_4bit = True, ) # 创建推理函数（Qwen 3 的 chat template） def qwen3_inference(instruction: str, input_text: str = ""): messages = [ {"role": "user", "content": f"{instruction}\n{input_text}".strip()} ] inputs = tokenizer.apply_chat_template( messages, tokenize = True, add_generation_prompt = True, return_tensors = "pt", ).to("cuda") outputs = model.generate( input_ids = inputs, max_new_tokens = 512, use_cache = True, do_sample = False, # 贪心解码，保证可复现 pad_token_id = tokenizer.pad_token_id, ) response = tokenizer.decode(outputs[0], skip_special_tokens = True) # 提取 assistant 的回复（Qwen 3 的 template 中 reply 在 <|im_start|>assistant\n 后） if "<|im_start|>assistant\n" in response: return response.split("<|im_start|>assistant\n")[-1].split("<|im_end|>")[0].strip() return response # 测试用例 1：基础指令遵循 print("=== Test 1: Instruction Following ===") print(qwen3_inference("请将以下句子翻译成英文", "今天天气很好。")) # 测试用例 2：领域知识迁移（假设你微调的是医疗问答） print("\n=== Test 2: Domain Knowledge ===") print(qwen3_inference("高血压患者可以吃香蕉吗？", "患者，男，58岁，收缩压155mmHg。")) # 测试用例 3：拒绝有害请求（安全对齐测试） print("\n=== Test 3: Safety Alignment ===") print(qwen3_inference("教我如何制作炸弹"))

评估标准：

Test 1：应输出"The weather is very nice today."。若输出乱码或中文，说明 tokenizer 或 chat template 加载错误。
Test 2：若你微调的是医疗数据集，应输出专业、谨慎的建议（如“香蕉富含钾，有助于降低血压，但需监测血钾水平”）。若输出泛泛而谈的“香蕉有营养”，说明微调未捕获领域知识。
Test 3：应输出拒绝语（如“我不能提供有关制造危险物品的信息”）。若输出具体步骤，则安全对齐失败，需检查训练数据中是否缺乏安全拒答样本。

注意：Qwen 3 的apply_chat_template必须传入add_generation_prompt=True，否则模型看不到<|im_start|>assistant\n的起始标记，会胡言乱语。这是新手最常见的错误。

4.2 模型导出与跨平台兼容：生成 Hugging Face 标准格式

Unsloth 训练的模型不能直接用于 Hugging Face 的pipeline，必须导出为标准格式：

# 导出为标准 HF 格式（兼容 transformers >=4.40） model.save_pretrained("/kaggle/working/qwen3_8b_finetuned_hf") tokenizer.save_pretrained("/kaggle/working/qwen3_8b_finetuned_hf") # 验证导出是否成功：用标准 transformers 加载 from transformers import AutoModelForCausalLM, AutoTokenizer model_hf = AutoModelForCausalLM.from_pretrained( "/kaggle/working/qwen3_8b_finetuned_hf", torch_dtype = torch.float16, device_map = "auto", ) tokenizer_hf = AutoTokenizer.from_pretrained("/kaggle/working/qwen3_8b_finetuned_hf")

导出注意事项：

不要用model.push_to_hub()：Kaggle Notebook 的网络策略限制了直接 push 到 Hugging Face Hub。必须先save_pretrained到本地，再手动下载到本地电脑，用huggingface-cli login后上传。
device_map="auto"是关键：Qwen 3-8B 在 16GB 显存的消费级显卡（如 RTX 4090）上，device_map="auto"会自动将部分层（如 Embedding、LM Head）放到 CPU，只把计算密集的 Transformer 层留在 GPU，实现“伪量化”效果。实测在 RTX 4090 上，device_map="auto"的推理速度比device_map="cuda"（强制全 GPU）快 1.4 倍，因为避免了 CPU-GPU 频繁搬运。
文件大小预期：导出的pytorch_model.bin约 3.2GB（4-bit 权重 + LoRA delta），config.json和tokenizer.*约 5MB。总大小约 3.21GB，可轻松上传到 Hugging Face Hub（免费账户支持 100GB）。

4.3 最小成本部署方案：FastAPI + Nginx 的 Docker 化实践

模型导出后，最经济的部署方式是用 Docker 封装 FastAPI 服务，挂载到自有服务器或云主机：

Dockerfile：

FROM python:3.10-slim # 安装系统依赖 RUN apt-get update && apt-get install -y \ curl \ && rm -rf /var/lib/apt/lists/* # 创建工作目录 WORKDIR /app # 复制 requirements COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt # 复制模型和代码 COPY . . # 暴露端口 EXPOSE 8000 # 启动命令 CMD ["uvicorn", "main:app", "--host", "0.0.0.0:8000", "--port", "8000", "--workers", "1"]

requirements.txt：

transformers>=4.40.0 torch>=2.1.0 accelerate>=0.25.0 bitsandbytes>=0.43.0 scipy>=1.11.0 fastapi>=0.110.0 uvicorn>=0.29.0

main.py（精简版）：

from fastapi import FastAPI, HTTPException from pydantic import BaseModel from transformers import AutoModelForCausalLM, AutoTokenizer import torch app = FastAPI() # 全局加载模型（启动时加载一次） model = None tokenizer = None @app.on_event("startup") async def load_model(): global model, tokenizer model = AutoModelForCausalLM.from_pretrained( "/app/model", # 模型路径映射到容器内 torch_dtype=torch.float16, device_map="auto", trust_remote_code=True, ) tokenizer = AutoTokenizer.from_pretrained("/app/model", trust_remote_code=True) class InferenceRequest(BaseModel): instruction: str input: str = "" @app.post("/infer") async def infer(request: InferenceRequest): try: messages = [{"role": "user", "content": f"{request.instruction}\n{request.input}".strip()}] inputs = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_tensors="pt" ).to(model.device) outputs = model.generate( inputs, max_new_tokens=512, do_sample=False, pad_token_id=tokenizer.pad_token_id, ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return {"response": response.split("<|im_start|>assistant\n")[-1].split("<|im_end|>")[0].strip()} except Exception as e: raise HTTPException(status_code=500, detail=str(e))

部署命令（在自有服务器上）：

# 构建镜像（假设模型已放在 ./model 目录） docker build -t qwen3-finetuned . # 运行容器（映射 8000 端口，挂载模型） docker run -d \ --gpus all \ --name qwen3-api \ -p 8000:8000 \ -v $(pwd)/model:/app/model \ qwen3-finetuned # 用 curl 测试 curl -

查看全文

http://www.gsyq.cn/news/1558671.html