当前位置：首页 > news >正文

机器学习新手生存指南：从环境配置到模型部署的实操路径

news 2026/6/26 1:17:44

1. 这不是又一本“机器学习速成课”，而是一份我带过37个转行学员、踩过21次环境坑、重装过14次CUDA驱动后，亲手写给真实初学者的生存指南

“Step by Step Guide to Learn Machine Learning”——光看这个标题，你脑子里可能已经浮现出那种封面印着发光神经元、目录里塞满“线性回归→逻辑回归→SVM→随机森林→XGBoost→Transformer”的教科书式路线图。但我要先说清楚：这条路，90%的自学新手走不到第三章就卡死在pip install torch报错上，剩下10%坚持到写完Kaggle Titanic项目，却连自己模型为什么在测试集上掉点2%都说不出所以然。这不是学习方法的问题，是整个入门路径的设计，从根上就忽略了人脑认知的真实节奏和工程落地的物理约束。

我做机器学习教学和项目交付十年，带过高校研究生、互联网转岗工程师、45岁想换赛道的财务主管，也陪过零编程基础的美术生从print("Hello World")开始搭第一个训练循环。我发现一个铁律：真正卡住人的从来不是算法公式，而是“看不见的中间层”——那些教程里默认你已掌握、但实际需要花3天反复调试才能跑通的环境配置；那些代码注释里轻描淡写的“数据已清洗”，背后是8小时用Pandas处理缺失值和异常时间戳的体力活；那些评估指标后面冷冰冰的0.87准确率，掩盖了你根本没搞懂混淆矩阵里F1-score为何比准确率更适合不平衡数据的真实判断逻辑。这份指南不讲“应该学什么”，只讲“你接下来5分钟、2小时、3天、2周内，必须亲手敲下哪一行代码、看到哪个输出、解决哪个报错”。它把“Step by Step”拆解成可触摸的物理动作：比如，当你执行conda create -n ml-env python=3.9时，你的终端必须显示“Preparing transaction: done”，而不是卡在“Solving environment”十分钟不动——后者意味着你该立刻关掉终端，删掉~/.conda/pkgs/里最近生成的缓存文件夹，再重试。这种颗粒度，才是真实世界里的“Step by Step”。

它适合三类人：第一类，刚下载完Anaconda，双击图标后面对空白的Navigator界面发呆超过10分钟；第二类，已经能跑通MNIST手写数字识别，但被老板问“这个模型上线后怎么监控它每天的预测漂移？”时哑口无言；第三类，刷了5个在线课程，笔记记了200页，却连自己电脑上GPU显存是否被正确调用都搞不清楚。如果你属于其中任何一类，这份指南里没有一句废话，每一行字都对应一个你马上要面对的具体操作、一个你即将看到的具体报错、一个你必须亲手验证的具体结果。它不承诺“30天成为AI专家”，但保证你用30天，能独立完成一个从数据获取、清洗、建模到部署监控的最小闭环，并且清楚知道每个环节里，哪些是必须死磕的硬骨头，哪些是可以暂时绕开的软柿子。

2. 学习路径设计：为什么跳过“理论先行”，先让你在终端里敲出第一行训练日志

2.1 拒绝“知识金字塔”幻觉：从“能跑通”到“能诊断”的认知跃迁

传统学习路径总假设：先学数学（微积分、线性代数、概率论）→ 再学算法原理（梯度下降推导、损失函数定义）→ 最后学代码实现（sklearn API调用）。这就像教人开车，先要求背熟发动机曲轴连杆机构图、燃油喷射压力计算公式，再允许你坐进驾驶座。问题在于，当你的车根本没启动成功（环境配不起来），或者刚起步就熄火（数据加载报错），那些精妙的燃烧室设计图对你毫无意义。我的路径反其道而行之：第一天的目标不是理解反向传播，而是让你的终端里打印出Epoch 1/10, Loss: 0.6234。这个看似简单的日志，背后强制你完成了至少5个关键认知锚点：① 你确认了Python解释器版本和路径；② 你验证了PyTorch是否真的链接到了本机GPU（torch.cuda.is_available()返回True）；③ 你亲手构造了DataLoader，理解了batch_size如何影响内存占用；④ 你手动写了loss.backward()和optimizer.step()，看清了梯度更新的物理过程；⑤ 你观察到Loss数值随Epoch下降，建立了“训练有效”的最原始直觉。

提示：很多教程把model.train()和model.eval()当作魔法开关。实测发现，83%的初学者第一次遇到验证集Loss暴涨，是因为在验证循环里忘了调用model.eval()，导致BatchNorm层仍在用训练时的统计量。这不是理论漏洞，是操作惯性——你必须亲手敲两遍，一次漏写，一次补上，才能刻进肌肉记忆。

2.2 “最小可行闭环”原则：用72小时构建你的第一个端到端流水线

我把整个学习过程压缩为三个递进的“最小可行闭环”（MVC），每个闭环都在72小时内必须完成，且产出可验证结果：

MVC-1（第1-3天）：本地CPU上的“Hello ML”
目标：用sklearn在Iris数据集上完成完整流程，不依赖GPU，不碰深度学习框架。关键动作：① 用pandas.read_csv()读取本地CSV（哪怕你手动创建一个3行5列的假数据）；② 用train_test_split划分数据，必须手动打印X_train.shape和y_train.value_counts()，确认划分比例和标签分布；③ 用StandardScaler做标准化，必须对比标准化前后X_train.mean(axis=0)的数值变化；④ 训练LogisticRegression，必须用classification_report(y_true, y_pred)输出精确率、召回率、F1，而非只看accuracy_score；⑤ 保存模型为.pkl文件，再用新数据加载预测。这个闭环的价值，在于剥离所有技术噪音，让你100%聚焦在“数据→特征→模型→评估→保存”这条主干逻辑上。我见过太多人卡在第一步——他们试图直接爬取网页数据，结果被反爬机制拦住3天，却连本地CSV都读不利索。
MVC-2（第4-6天）：GPU加速的“视觉初体验”
目标：在CIFAR-10上用PyTorch训练一个CNN，Loss能稳定下降。关键动作：① 用torchvision.datasets.CIFAR10自动下载，但必须检查root参数指向的文件夹，确认cifar-10-batches-py/子目录存在且非空；② 自定义transforms.Compose，必须包含ToTensor()（将PIL图像转为[0,1]张量）和Normalize()（用CIFAR均值标准差归一化），缺一不可，否则Loss爆炸；③ 手写nn.Sequential定义网络，第一层卷积核大小必须是3×3（非1×1或5×5），因为CIFAR图像仅32×32，大卷积核会直接吃掉全部空间维度；④optimizer必须用Adam（非SGD），因为初学者调lr太难，Adam自带自适应学习率；⑤scheduler暂不启用，避免增加复杂度。这个闭环逼你直面硬件——当你看到nvidia-smi里GPU利用率跳到85%，而watch -n 1 nvidia-smi显示显存占用从200MB涨到3.2GB时，你才真正理解“GPU加速”不是概念，是物理资源的实时调度。
MVC-3（第7-10天）：“可解释”的端到端部署
目标：将MVC-2训练好的模型，封装成Flask API，用curl发送一张猫狗图片，返回JSON格式的预测结果和置信度。关键动作：① 用torch.jit.trace将模型转为TorchScript，必须验证traced_model(torch.randn(1,3,32,32))输出与原模型一致；② Flask路由中，必须用PIL.Image.open(io.BytesIO(image_bytes)).convert('RGB')处理上传图片，convert('RGB')防止灰度图报错；③ 返回JSON时，必须用json.dumps({'class': pred_class, 'confidence': float(confidence)})，float()强制转换，否则JSON序列化失败；④ 用curl -X POST http://localhost:5000/predict -F "file=@cat.jpg"测试，必须看到HTTP 200响应和正确JSON，而非500 Internal Server Error。这个闭环终结了“模型只活在Jupyter里”的幻觉，让你第一次触摸到生产环境的毛边——比如，当curl命令卡住，你要立刻想到是Flask默认单线程阻塞，需加threaded=True参数。

2.3 工具链选型：为什么放弃Jupyter，拥抱VS Code + Terminal的“原始手感”

几乎所有入门教程都推荐Jupyter Notebook，理由是“交互式、可视化好”。但我的经验是：Jupyter是学习的加速器，也是debug的坟墓。它隐藏了模块导入的实际路径（sys.path混乱）、模糊了变量作用域（Cell间变量污染）、让错误堆栈变得支离破碎（报错信息跨多个Cell）。我强制所有学员第一天就卸载Jupyter，改用VS Code + Python扩展 + 终端。原因有三：

错误即真相：在终端运行python train.py，报错信息从头到尾一条直线，File "train.py", line 47, in <module>清晰指向具体行。而Jupyter里，你可能看到<ipython-input-12-abc123>，还得翻半天哪个Cell是12号。
环境即契约：VS Code右下角明确显示当前Python解释器路径（如~/miniconda3/envs/ml-env/bin/python），你一眼就知道代码跑在哪个沙盒里。Jupyter常偷偷用base环境，导致pip install的包在Notebook里找不到。
调试即手术：VS Code的断点调试功能，能让你在loss.backward()那行暂停，鼠标悬停看loss.grad是否为None，model.conv1.weight.grad是否非零——这是理解梯度流动的唯一途径。Jupyter的%debug命令只能回溯，无法实时观测张量状态。

注意：VS Code配置关键三步——① 安装Python扩展；②Ctrl+Shift+P打开命令面板，输入Python: Select Interpreter，选择你创建的ml-env环境；③ 在settings.json中添加"python.defaultInterpreterPath": "./venv/bin/python"（Linux/Mac）或"python.defaultInterpreterPath": ".\\venv\\Scripts\\python.exe"（Windows），确保终端集成Shell自动激活正确环境。这三步少一步，你就会在import torch时报ModuleNotFoundError，然后浪费2小时查PATH。

3. 核心细节解析：从环境配置到模型评估，每一个“理所当然”背后的硬核逻辑

3.1 环境配置：Conda vs Pip，为什么我坚持用Conda管理核心依赖

新手常问：“pip install torch不行吗？为什么还要学Conda？”答案藏在CUDA版本的物理限制里。PyTorch官方预编译的torch包，是针对特定CUDA Toolkit版本（如11.3、11.7、12.1）编译的。你的NVIDIA驱动（nvidia-smi显示的版本）决定了你能安装的最高CUDA Toolkit版本。例如，驱动版本515.65.01最高支持CUDA 11.7，若你pip install torch==2.0.1+cu121（对应CUDA 12.1），安装虽成功，但运行时torch.cuda.is_available()必返回False——因为驱动不兼容。Conda的优势在于：conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia这条命令，Conda会自动解析并安装与CUDA 11.7完全匹配的PyTorch二进制包，同时确保cudatoolkit=11.7被正确安装到环境里，且LD_LIBRARY_PATH（Linux）或PATH（Windows）被自动注入。而pip只会装Python包，CUDA运行时库得你手动下载安装，极易出错。

实操步骤（以Ubuntu 22.04 + RTX 3090为例）：

先查驱动：nvidia-smi→ 显示Driver Version: 525.85.12→ 查 NVIDIA官方文档，确认此驱动最高支持CUDA 12.0。
创建环境：conda create -n ml-env python=3.9→conda activate ml-env
装PyTorch：conda install pytorch torchvision torchaudio pytorch-cuda=12.0 -c pytorch -c nvidia（注意：pytorch-cuda=12.0是channel名，非版本号）
验证：python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.device_count())"

实操心得：如果torch.cuda.is_available()为False，90%概率是CUDA Toolkit未正确链接。此时不要重装，先运行conda list | grep cuda，确认cudatoolkit和pytorch版本匹配；再运行ls $CONDA_PREFIX/lib/ | grep cuda，确认libcudart.so.12存在。若不存在，说明Conda未正确安装CUDA Toolkit，需conda install cudatoolkit=12.0 -c conda-forge。

3.2 数据加载：为什么`DataLoader`的`num_workers`设为0是新手的救命稻草

DataLoader的num_workers参数常被教程一笔带过，说“设为4或8加速”。但新手的真实场景是：设为4后，训练突然卡死，终端无报错，nvidia-smi显示GPU空闲，CPU占用100%。这是因为num_workers>0会启动子进程加载数据，而子进程继承父进程的CUDA上下文，在某些Linux发行版（如Ubuntu 22.04）和PyTorch版本（如2.0.1）组合下，会导致CUDA上下文初始化冲突。解决方案极其简单：新手期一律设num_workers=0。这意味着数据加载在主线程同步进行，虽然慢一点，但100%稳定。等你跑通10个epoch，Loss曲线平滑下降后，再尝试num_workers=1，观察是否卡死；若稳定，再逐步加到2。永远记住：稳定性优先于速度，尤其在验证核心逻辑时。

另一个致命细节是pin_memory=True。它要求数据张量在GPU显存中“钉住”（pinned memory），使CPU到GPU的数据传输更快。但它的前提是：你的数据必须是torch.Tensor类型，且dtype为float32或long。如果Dataset.__getitem__返回的是PIL.Image或numpy.ndarray，pin_memory=True会直接报错。因此，新手务必确保transforms.ToTensor()在DataLoader之前完成，且ToTensor()会自动将uint8图像转为float32张量。

3.3 模型训练：`loss.backward()`之后，梯度清零的“必要之恶”

几乎所有教程都写optimizer.zero_grad()，但很少解释：为什么必须在每次loss.backward()之后、optimizer.step()之前调用？答案关乎PyTorch的梯度累加机制。loss.backward()计算的梯度，默认是累加（accumulate）到model.parameters().grad上，而非覆盖（overwrite）。如果不zero_grad()，第二次backward()的梯度会加到第一次的梯度上，导致权重更新方向错误。你可以用一个实验验证：在训练循环里，注释掉optimizer.zero_grad()，运行2个batch，然后打印model.conv1.weight.grad.sum().item()，你会发现数值是正常情况下的2倍，且Loss不降反升。

更隐蔽的坑是model.eval()模式下的梯度。当你在验证循环里忘记调用model.eval()，BatchNorm层会继续用训练时的统计量，且model.train()状态下requires_grad=True，导致验证时也计算梯度。这不仅浪费GPU资源，更严重的是，若你在验证后意外调用了optimizer.step()，模型权重会被错误更新。因此，我的代码模板强制要求：

# 训练循环 model.train() for batch in train_loader: optimizer.zero_grad() # 必须在此处！ loss = compute_loss(model, batch) loss.backward() # 梯度累加到.grad上 optimizer.step() # 权重更新 # 验证循环 model.eval() # 关键！关闭Dropout，冻结BN统计量 with torch.no_grad(): # 关键！禁用梯度计算，省显存 for batch in val_loader: loss = compute_loss(model, batch) # 此处无 .backward()，无 .step()

实操心得：torch.no_grad()不是可选的“优化技巧”，而是验证阶段的强制安全带。没有它，val_loader里1000张图的梯度计算会瞬间吃光8GB显存，导致OOM（Out of Memory）错误。我曾见学员因漏写这行，反复重启GPU，耗时4小时。

3.4 模型评估：为什么`accuracy_score`在医疗影像里可能是“有毒指标”

新手最爱看accuracy_score(y_true, y_pred)，一个95%的数字让人安心。但在真实场景中，这常是危险的幻觉。以皮肤癌分类为例：数据集含990张良性痣（class 0）和10张恶性黑色素瘤（class 1）。一个永远预测“良性”的傻瓜模型，accuracy_score高达99%。但它对真正的患者，召回率（Recall）是0%——所有恶性病例都被漏诊。此时，classification_report输出的precision（查准率）、recall（查全率）、f1-score（F1值）才揭示真相。

计算逻辑必须亲手推一遍：

Precision = TP / (TP + FP)：预测为阳性的样本中，真阳性的比例。高Precision意味着“少误报”。
Recall = TP / (TP + FN)：所有真阳性样本中，被正确找出的比例。高Recall意味着“少漏报”。
F1-score = 2 * (Precision * Recall) / (Precision + Recall)：Precision和Recall的调和平均，平衡二者。

在不平衡数据中，F1-score比accuracy更有意义。实操中，我要求学员必须用sklearn.metrics.confusion_matrix(y_true, y_pred)生成混淆矩阵，再手动计算：

cm = confusion_matrix(y_true, y_pred) tn, fp, fn, tp = cm.ravel() # 展开为四元组 precision = tp / (tp + fp) if (tp + fp) > 0 else 0 recall = tp / (tp + fn) if (tp + fn) > 0 else 0 f1 = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0

亲手算一遍，你才真正理解f1=0.87背后，是模型在“不漏掉病人”和“不吓唬健康人”之间做的艰难权衡。

4. 实操过程：从创建环境到部署API，一份可逐字复制的完整流水线

4.1 第1天：搭建“Hello ML”本地环境（全程终端操作，无GUI）

目标：在终端里运行python iris_demo.py，输出Classification Report:后跟精确率、召回率、F1值。

步骤详解（Linux/Mac，Windows用户将source替换为call）：

下载并安装Miniconda（轻量版Conda）：
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3
source $HOME/miniconda3/etc/profile.d/conda.sh
conda init bash→ 重启终端
创建专用环境：
conda create -n ml-env python=3.9
conda activate ml-env
conda install numpy pandas scikit-learn matplotlib jupyter -c conda-forge
验证：conda list | grep scikit-learn应显示scikit-learn 1.3.0（或最新稳定版）
创建项目目录并写代码：
mkdir ~/ml-first && cd ~/ml-first
touch iris_demo.py
用VS Code打开iris_demo.py，粘贴以下代码（逐字复制，勿修改）：

# iris_demo.py import numpy as np import pandas as pd from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_report, confusion_matrix import matplotlib.pyplot as plt # 1. 加载数据 iris = datasets.load_iris() X, y = iris.data, iris.target print(f"数据形状: {X.shape}, 标签形状: {y.shape}") print(f"类别名称: {iris.target_names}") # 2. 划分训练/测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=42, stratify=y ) print(f"训练集大小: {X_train.shape[0]}, 测试集大小: {X_test.shape[0]}") # 3. 标准化（关键步骤！） scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 注意：用fit_transform后的scaler.transform！ # 4. 训练模型 model = LogisticRegression(max_iter=200, random_state=42) model.fit(X_train_scaled, y_train) # 5. 预测与评估 y_pred = model.predict(X_test_scaled) print("\nClassification Report:") print(classification_report(y_test, y_pred, target_names=iris.target_names)) # 6. 保存模型（可选） import joblib joblib.dump(model, 'iris_model.pkl') joblib.dump(scaler, 'iris_scaler.pkl') print("\n模型已保存为 iris_model.pkl 和 iris_scaler.pkl")

运行并验证：
python iris_demo.py
预期输出：
- 第一行显示数据形状: (150, 4), 标签形状: (150,)
- 训练集大小: 105, 测试集大小: 45
- Classification Report:下方有三行（setosa/versicolor/virginica），每行含precision、recall、f1-score，最后一行weighted avg的f1-score应≥0.95

常见问题排查：
若报错ModuleNotFoundError: No module named 'sklearn'：确认conda activate ml-env已执行，且which python指向~/miniconda3/envs/ml-env/bin/python。
若classification_report输出全是0.00：检查y_pred是否全为0，很可能是X_test_scaled未正确标准化，确认scaler.transform(X_test)而非scaler.fit_transform(X_test)。
若f1-score低于0.90：检查random_state=42是否遗漏，随机种子不同会导致划分差异。

4.2 第5天：GPU加速的CIFAR-10 CNN训练（PyTorch原生代码）

目标：运行python cifar_cnn.py，终端输出Epoch 1/10, Loss: 1.8234，且nvidia-smi显示GPU利用率>70%。

步骤详解：

激活环境并安装PyTorch：
conda activate ml-env
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
python -c "import torch; print(torch.cuda.is_available())"→ 必须输出True

创建cifar_cnn.py：

# cifar_cnn.py import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms from torch.utils.data import DataLoader import time # 1. 数据预处理（关键！） transform_train = transforms.Compose([ transforms.ToTensor(), # PIL -> [0,1] Tensor transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)) # CIFAR均值/标准差 ]) transform_test = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)) ]) # 2. 加载数据集 trainset = torchvision.datasets.CIFAR10( root='./data', train=True, download=True, transform=transform_train ) trainloader = DataLoader( trainset, batch_size=128, shuffle=True, num_workers=0 # 新手设0！ ) # 3. 定义CNN模型（简化版LeNet） class SimpleCNN(nn.Module): def __init__(self): super().__init__() self.conv1 = nn.Conv2d(3, 32, 3) # 输入3通道，输出32通道，卷积核3x3 self.pool = nn.MaxPool2d(2, 2) # 2x2池化 self.conv2 = nn.Conv2d(32, 64, 3) # 第二层卷积 self.fc1 = nn.Linear(64 * 6 * 6, 128) # CIFAR 32x32 -> 经过2次池化变16x16->8x8? 等等，计算一下！ # 32x32 -> conv1(3x3) -> 30x30 -> pool(2x2) -> 15x15 -> conv2(3x3) -> 13x13 -> pool(2x2) -> 6x6！ self.fc2 = nn.Linear(128, 10) def forward(self, x): x = self.pool(torch.relu(self.conv1(x))) x = self.pool(torch.relu(self.conv2(x))) x = torch.flatten(x, 1) # 展平除batch外所有维度 x = torch.relu(self.fc1(x)) x = self.fc2(x) return x net = SimpleCNN().to('cuda') # 强制移到GPU # 4. 训练设置 criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(net.parameters(), lr=0.001) # Adam比SGD友好 # 5. 训练循环 start_time = time.time() for epoch in range(1): # 先跑1个epoch验证 running_loss = 0.0 for i, data in enumerate(trainloader, 0): inputs, labels = data inputs, labels = inputs.to('cuda'), labels.to('cuda') # 数据也移GPU optimizer.zero_grad() # 清零梯度！ outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() # 反向传播 optimizer.step() # 更新权重 running_loss += loss.item() if i % 100 == 99: # 每100个batch打印一次 print(f'Epoch {epoch+1}, Batch {i+1}, Loss: {running_loss/100:.4f}') running_loss = 0.0 print(f"训练完成，耗时: {time.time()-start_time:.2f}秒")

运行并监控：
python cifar_cnn.py
同时新开终端，运行watch -n 1 nvidia-smi，观察GPU内存占用是否从200MB升至3.2GB，python进程是否在GPU-Util列显示>70%。
预期输出：Epoch 1, Batch 100, Loss: 1.8234（数值可能浮动，但应在1.5-2.0区间）。

实操心得：若Loss为nan，大概率是Normalize参数错误。CIFAR均值(0.4914, 0.4822, 0.4465)必须与标准差(0.2023, 0.1994, 0.2010)配对，顺序不能颠倒，数值不能近似为(0.5, 0.5, 0.5)。这是PyTorch社区公认的“血泪教训”。

4.3 第10天：Flask API部署（让模型接受真实图片请求）

目标：运行python app.py，用curl发送一张32x32的猫图，返回{"class": "cat", "confidence": 0.92}。

步骤详解：

安装Flask：
conda install flask -c conda-forge

创建app.py：

# app.py from flask import Flask, request, jsonify import torch import torch.nn as nn import torchvision.transforms as transforms from PIL import Image import io import json app = Flask(__name__) # 1. 加载训练好的模型（此处用占位模型，你需替换为自己的.pth） class SimpleCNN(nn.Module): def __init__(self): super().__init__() self.conv1 = nn.Conv2d(3, 32, 3) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(32, 64, 3) self.fc1 = nn.Linear(64 * 6 * 6, 128) self.fc2 = nn.Linear(128, 2) # 二分类：cat/dog def forward(self, x): x = self.pool(torch.relu(self.conv1(x))) x = self.pool(torch.relu(self.conv2(x))) x = torch.flatten(x, 1) x = torch.relu(self.fc1(x)) x = self.fc2(x) return x # 加载模型权重（替换成你训练好的模型路径） model = SimpleCNN() model.load_state_dict(torch.load('./best_model.pth')) # 替换路径！ model.eval() # 关键！ model.to('cuda') # 2. 图像预处理（必须与训练时完全一致） transform = transforms.Compose([ transforms.Resize((32, 32)), # 确保尺寸 transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)) ]) # 3. 定义预测路由 @app.route('/predict', methods=['POST']) def predict(): try: if 'file' not in request.files: return jsonify({'error': 'No file provided'}), 400 file = request.files['file'] image_bytes = file.read() image = Image.open(io.BytesIO(image_bytes)).convert('RGB') # 强制RGB！ image_tensor = transform(image).unsqueeze(0).to('cuda') # 添加batch维并移GPU with torch.no_grad(): output = model(image_tensor) probabilities = torch.nn.functional.softmax(output, dim=1) confidence, predicted_class = torch.max(probabilities, 1) class_names = ['cat', 'dog'] # 替换为你自己的类别 result = { 'class': class_names[predicted_class.item()], 'confidence': float(confidence.item()) # 必须float()！ } return jsonify(result) except Exception as e: return jsonify({'error': str(e)}), 500 if __name__ == '__main__': app.run(host='0.0.0.0', port=5000, debug=False, threaded=True) # threaded=True！

准备测试图片并发送请求：
- 下载一张32x32的猫图，保存为cat.jpg
- 运行python app.py
- 新终端执行：curl -X POST http://localhost:5000/predict -F "file=@cat.jpg"
  预期输出：{"class": "cat", "confidence": 0.9234}