当前位置：首页 > news >正文

scikit-learn机器学习速查表：按工作流组织的函数与参数实战指南

news 2026/6/15 22:07:45

1. 这张速查表不是“抄近路”，而是你和scikit-learn之间最实在的对话桥梁

刚接触scikit-learn时，我翻过官方文档，也啃过几本厚书，但真正让我在项目里跑通第一个模型的，是一张手写在A4纸上的函数清单：train_test_split、StandardScaler().fit_transform()、LogisticRegression().fit()——就这三行，配上旁边潦草写的“先分数据，再标准化，最后训模型”，成了我那周的救命稻草。这张纸后来被咖啡渍浸染、被胶带反复粘贴，最终演变成现在你看到的这张scikit-learn速查表（Cheat Sheet）。它不是给初学者“跳过学习”的捷径，而是一个有经验的工程师，在真实项目节奏下，把庞大API压缩成可快速调取、不易出错、能立刻验证的“肌肉记忆”模板。核心关键词就三个：scikit-learn、机器学习、函数速查。它解决的是你在调试模型时突然卡壳——“等等，分类报告怎么调？交叉验证的参数名是cv还是n_splits？”——这种具体到字母级别的即时需求。适合三类人：刚学完理论、正要动手写第一行代码的学生；业务压力大、需要快速复用成熟流程的数据分析师；还有像我这样，每隔半年重拾一次sklearn、总得重新翻文档的“间歇性使用者”。它不讲算法原理，不画数学推导，只回答一个问题：“我现在要干这件事，该敲哪几行代码，参数怎么填才不会报错，填完之后结果长什么样？”下面所有内容，都来自我在电商用户流失预测、金融风控评分卡、IoT设备故障预警等十多个真实项目中，反复验证、踩坑、优化后沉淀下来的实操逻辑。

2. 整体设计思路：为什么这张表必须按“工作流”而非“模块”组织？

2.1 拒绝“字典式罗列”，拥抱“任务驱动型结构”

早期我试过按官方模块分类整理：sklearn.preprocessing、sklearn.model_selection、sklearn.ensemble……结果呢？写代码时根本用不上。你不会说“我要用preprocessing模块”，而是说“我得把日期字段变成数值”或“我的特征量纲差太大，得缩放”。所以这张表彻底抛弃了模块树状结构，改用机器学习项目的真实工作流作为骨架：数据准备 → 特征工程 → 模型训练 → 模型评估 → 模型调优 → 模型部署。这个顺序不是教科书里的理想流程，而是我在Jupyter Notebook里实际滚动的单元格顺序。比如，train_test_split永远出现在StandardScaler之前，因为没分好训练集测试集就做标准化，是新手最容易犯、后果最隐蔽的错误——它会让测试集信息泄露进训练过程，导致评估结果虚高。这张表的每一行，都是我在真实Notebook里复制粘贴过的、带上下文注释的代码块。

2.2 参数设计：只保留“必填项”与“高频可选项”，砍掉90%的干扰项

scikit-learn的RandomForestClassifier有23个参数，但日常项目中，我95%的时间只动4个：n_estimators（树的数量）、max_depth（树的最大深度）、random_state（保证结果可复现）、n_jobs（并行线程数）。其他如ccp_alpha（代价复杂度剪枝）、class_weight（类别权重）虽然重要，但属于特定场景的“特种装备”，不该塞进通用速查表里制造认知噪音。因此，这张表对每个函数的参数处理原则是：

必填项：用加粗标出，如X, y；
高频可选项：用斜体标出，并附上典型值和选择逻辑，如*random_state=42（固定随机种子，确保实验可复现）；
低频/场景化参数：直接省略，但在对应章节的“注意事项”里点明存在性和适用场景。
这个设计源于一个血泪教训：某次在客户现场演示，我照着一张堆满参数的“全功能表”配置SVM，结果因漏设gamma参数导致模型完全不收敛，当场尴尬到想钻桌子。后来我悟了：速查表的核心价值是降低决策成本，不是展示知识广度。

2.3 输出即所见：所有示例代码均基于真实数据结构，拒绝虚构

很多教程用make_classification(n_samples=100, n_features=2)生成玩具数据，代码能跑通，但一换真实业务数据就报错。这张表所有示例，全部基于我处理过的典型业务数据形态：

X是pandas.DataFrame，列名为['user_age', 'last_login_days', 'total_order_amount']；
y是pandas.Series，索引与X对齐，值为0（未流失）或1（已流失）；
所有fit()、predict()、score()调用，都明确写出输入输出的数据类型和形状，比如predict_proba()返回(n_samples, n_classes)的numpy.ndarray。
这样做，是为了让你在粘贴代码时，一眼就能判断“我的数据长这样，这段能不能直接用”。比如，当你看到cross_val_score(clf, X, y, cv=5)，你会立刻意识到：X和y的行数必须严格相等，且cv=5意味着数据会被切成5份轮流当验证集——如果业务数据只有200条样本，强行用5折交叉验证，每份才40条，结果波动会大得毫无参考价值。这种细节，只有基于真实数据结构才能自然带出来。

3. 核心函数详解与实操要点：从数据加载到模型保存，一行代码一个坑

3.1 数据准备：`pandas`与`sklearn`的边界在哪里？

很多人混淆pandas的read_csv()和sklearn的load_iris()，以为后者是“更高级”的数据加载方式。其实恰恰相反：load_iris()只是内置的玩具数据集，真实项目中，所有原始数据加载必须由pandas完成，sklearn只负责后续的数值化处理。这是第一条铁律。

# ✅ 正确：用pandas读取真实CSV，保留原始列名和数据类型 import pandas as pd df = pd.read_csv('user_behavior.csv') # 列含：'user_id', 'login_time', 'order_amount', 'is_churn' # 注意：login_time是字符串，order_amount可能是字符串（含逗号），is_churn可能是字符串（'Yes'/'No'） # ❌ 错误：试图用sklearn加载原始业务数据 # from sklearn.datasets import load_csv # 不存在！sklearn没有这个函数

关键操作：分离特征与标签
真实业务中，“标签”（target）往往混在原始数据里，需手动剥离。常见陷阱是直接用df['is_churn']，但若该列含空值或非二值，sklearn会直接报错。正确做法是显式清洗：

# 步骤1：确认标签列无缺失、类型正确 print(df['is_churn'].value_counts(dropna=False)) # 查看是否有NaN、'Unknown'等异常值 # 步骤2：安全转换为数值标签（0/1） y = df['is_churn'].map({'No': 0, 'Yes': 1}).fillna(-1).astype(int) # -1标记异常，后续可过滤 # 步骤3：构造特征矩阵X（排除ID、时间戳等非特征列） feature_cols = ['user_age', 'last_login_days', 'total_order_amount', 'avg_session_duration'] X = df[feature_cols].copy() # .copy()避免SettingWithCopyWarning

提示：X必须是二维结构（n_samples x n_features），y必须是一维结构（n_samples,）。sklearn对维度极其敏感，X.reshape(-1, 1)常用于单特征场景，但切记y不能reshape——它必须是向量，不是矩阵。

3.2 特征工程：标准化、编码、缺失值，三座大山怎么搬？

3.2.1 数值型特征缩放：`StandardScaler`vs`MinMaxScaler`，选哪个？

缩放不是“可选项”，而是绝大多数模型的刚需。LinearRegression、SVM、KMeans对特征量纲极度敏感：若user_age范围是18-80，total_order_amount是0-1000000，模型会天然认为金额更重要，扭曲真实关系。但选哪种缩放器，取决于你的模型和数据分布。

from sklearn.preprocessing import StandardScaler, MinMaxScaler # StandardScaler：均值为0，方差为1（Z-score标准化） # 适用场景：数据近似正态分布，或使用SVM、逻辑回归、神经网络等 scaler_z = StandardScaler() X_scaled_z = scaler_z.fit_transform(X[['user_age', 'total_order_amount']]) # 结果：user_age均值≈0，std≈1；total_order_amount均值≈0，std≈1 # MinMaxScaler：缩放到[0, 1]区间 # 适用场景：数据有明确边界（如百分比0-100），或使用树模型（虽不强制，但有时提升稳定性） scaler_mm = MinMaxScaler() X_scaled_mm = scaler_mm.fit_transform(X[['user_age', 'total_order_amount']]) # 结果：user_age最小值=0，最大值=1；同理金额

实操心得：我通常默认用StandardScaler，除非业务明确要求解释性（如“这个分数代表什么百分位”）。但有一个致命细节：必须用训练集的统计量去变换测试集！错误示范：

# ❌ 危险！分别对训练集和测试集独立fit X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) # ✅ 在训练集上fit X_test_scaled = scaler.fit_transform(X_test) # ❌ 错！应该用训练集的mean/std # 正确做法： X_test_scaled = scaler.transform(X_test) # ✅ 仅transform，不fit

3.2.2 类别型特征编码：`LabelEncoder`已过时，`OneHotEncoder`是主力

LabelEncoder曾被广泛用于将['Male', 'Female']转为[0, 1]，但它隐含了“Male < Female”的序数关系，对树模型尚可，对线性模型就是灾难。sklearn 1.0+后，官方推荐统一使用OneHotEncoder（独热编码）或OrdinalEncoder（序数编码，仅当类别本身有天然顺序时用，如['Low', 'Medium', 'High']）。

from sklearn.preprocessing import OneHotEncoder import numpy as np # 假设X包含类别列'gender'和'city' X_cat = X[['gender', 'city']].copy() # 方案1：OneHotEncoder（推荐，无序类别） ohe = OneHotEncoder(sparse_output=False, drop='first') # drop='first'避免共线性 X_cat_ohe = ohe.fit_transform(X_cat) # 输出：(n_samples, n_categories-1) 数组，列名可通过ohe.get_feature_names_out()获取 # 方案2：处理混合类型（数值+类别）——用ColumnTransformer（现代标准做法） from sklearn.compose import ColumnTransformer numeric_features = ['user_age', 'total_order_amount'] categorical_features = ['gender', 'city'] preprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), numeric_features), ('cat', OneHotEncoder(drop='first'), categorical_features) ], remainder='passthrough' # 其他列原样保留 ) X_processed = preprocessor.fit_transform(X) # 一行代码搞定全部预处理

注意：OneHotEncoder的drop='first'参数至关重要。它自动删除每组类别中的第一列，防止多重共线性（如gender_Male=1时gender_Female必为0）。不加此参数，线性模型系数可能无法求解。

3.2.3 缺失值处理：`SimpleImputer`不是万能膏药

SimpleImputer能填均值、中位数、众数，但填完就跑模型，是另一个高频坑。缺失值本身可能携带业务信号！例如，last_login_days为空，很可能意味着用户从未登录过，这比填“0天”更有区分度。

from sklearn.impute import SimpleImputer # 策略1：创建“是否缺失”指示列（Indicator） X['login_days_missing'] = X['last_login_days'].isnull().astype(int) # 策略2：用特殊值填充（如-1），而非均值 imputer_special = SimpleImputer(strategy='constant', fill_value=-1) X['last_login_days_filled'] = imputer_special.fit_transform(X[['last_login_days']]) # 策略3：仅对数值型用中位数，对类别型用众数（需ColumnTransformer） imputer_num = SimpleImputer(strategy='median') imputer_cat = SimpleImputer(strategy='most_frequent')

实操心得：我从不在预处理阶段盲目填充。先用X.isnull().sum()看缺失模式，再结合业务判断。若某列缺失率>30%，我会优先考虑剔除该特征，或用更复杂的插补（如KNNImputer），而不是简单均值填充。

3.3 模型训练：从`fit()`到`predict()`，中间藏着什么？

3.3.1 模型选择：不是越复杂越好，而是“够用就好”

速查表不列100个模型，只聚焦6个高频主力，按易用性→鲁棒性→可解释性排序：

模型	适用场景	关键参数	我的使用频率
`LogisticRegression`	二分类基线，特征线性可分	`C`(正则强度),`penalty`	⭐⭐⭐⭐⭐ (必跑基线)
`RandomForestClassifier`	通用强模型，抗噪好	`n_estimators`,`max_depth`	⭐⭐⭐⭐⭐ (首选)
`XGBClassifier`	结构化数据SOTA，需调参	`n_estimators`,`learning_rate`	⭐⭐⭐⭐ (效果好但稍重)
`SVC`	小数据集高精度	`C`,`kernel`,`gamma`	⭐⭐ (数据<1w时用)
`KNeighborsClassifier`	无假设，纯距离	`n_neighbors`,`weights`	⭐⭐ (探索性分析)
`LinearSVC`	大数据线性SVM	`C`,`loss`	⭐⭐ (替代LR，更快)

为什么RandomForest是我的首选？

它几乎不需要特征缩放（树模型基于分割点，不受量纲影响）；
对异常值、缺失值（少量）鲁棒；
内置特征重要性，方便业务解读；
n_estimators=100基本不欠拟合，max_depth=10足够防过拟合。
对比XGBoost，它启动快、调试简单，适合快速验证业务假设。

3.3.2`fit()`的隐藏契约：数据必须满足什么条件？

clf.fit(X, y)表面简单，实则暗藏三重校验：

维度匹配：X.shape[0] == len(y)，否则报ValueError: Found array with dim 3. Expected <= 2；
数据类型：X必须是数值型（float/int），含str或object列会直接报错；
标签格式：y必须是1D数组，y.reshape(-1, 1)会触发ValueError: Unknown label type。

实操避坑：每次fit前，我必加两行检查：

assert X.shape[0] == len(y), f"X行数{X.shape[0]} ≠ y长度{len(y)}" assert np.issubdtype(X.dtype, np.number), f"X含非数值列：{X.dtypes[X.dtypes!='float64'].index.tolist()}"

3.4 模型评估：`score()`只是冰山一角，`classification_report`才是真相

clf.score(X_test, y_test)返回准确率（Accuracy），但对不平衡数据（如流失率5%）毫无意义——全猜“未流失”，准确率也有95%。必须用多维指标。

from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score y_pred = clf.predict(X_test) # 硬分类 y_pred_proba = clf.predict_proba(X_test)[:, 1] # 概率（二分类取第1列） # ✅ 核心报告：精确率、召回率、F1值，按类别分开 print(classification_report(y_test, y_pred)) # 输出示例： # precision recall f1-score support # 0 0.92 0.98 0.95 1800 # 1 0.75 0.45 0.56 200 # accuracy 0.90 2000 # macro avg 0.84 0.72 0.75 2000 # weighted avg 0.90 0.90 0.90 2000 # ✅ 混淆矩阵：看清错在哪 cm = confusion_matrix(y_test, y_pred) # [[TN, FP], # TN=真阴性（预测未流失，实际未流失） # [FN, TP]] # TP=真阳性（预测流失，实际流失） # ✅ AUC：衡量排序能力，不依赖阈值 auc = roc_auc_score(y_test, y_pred_proba)

关键参数解析：

precision（精确率）=TP/(TP+FP)：预测为流失的人里，真流失的比例。业务关注“减少误杀”（FP少）；
recall（召回率）=TP/(TP+FN)：所有真流失用户里，被找出来的比例。业务关注“减少漏网”（FN少）；
f1-score：精确率和召回率的调和平均，平衡二者。

提示：classification_report默认按y中标签的数值大小排序（0,1）。若你的标签是['No','Yes']，需先用LabelEncoder转为[0,1]，否则报告会乱序。

3.5 模型调优：`GridSearchCV`不是银弹，`RandomizedSearchCV`才是生产力

GridSearchCV穷举所有参数组合，对RandomForest（n_estimators、max_depth、min_samples_split三参数各取5值）就是125次训练，耗时且未必最优。RandomizedSearchCV在参数空间随机采样，用20次训练就能找到80%的最优解。

from sklearn.model_selection import RandomizedSearchCV from scipy.stats import randint, uniform # 定义参数分布（非固定值列表） param_dist = { 'n_estimators': randint(50, 300), # 随机整数50-300 'max_depth': randint(3, 20), # 随机整数3-20 'min_samples_split': randint(2, 20), 'learning_rate': uniform(0.01, 0.3) # 随机浮点0.01-0.3 } # 随机搜索20次，5折交叉验证 search = RandomizedSearchCV( estimator=XGBClassifier(), param_distributions=param_dist, n_iter=20, cv=5, scoring='f1', # 优化F1值 random_state=42, n_jobs=-1 # 用满所有CPU ) search.fit(X_train, y_train) print("Best params:", search.best_params_) print("Best CV score:", search.best_score_)

实操心得：我从不用GridSearchCV做首轮调优。先用RandomizedSearchCV快速定位优质区域，再在该区域用GridSearchCV精细搜索。另外，scoring参数必须与业务目标一致：若更看重召回率（如反欺诈），用scoring='recall'；若要平衡，用'f1'或'roc_auc'。

3.6 模型部署：`joblib`保存不是终点，`Pipeline`才是起点

保存单个模型（joblib.dump(clf, 'model.pkl')）是危险的。下次加载时，你得手动重做所有预处理步骤，极易出错。正确姿势是保存整个流水线（Pipeline）。

from sklearn.pipeline import Pipeline from sklearn.ensemble import RandomForestClassifier # 构建端到端Pipeline pipeline = Pipeline([ ('preprocessor', preprocessor), # 上面定义的ColumnTransformer ('classifier', RandomForestClassifier(n_estimators=100, random_state=42)) ]) # 一次性训练整个Pipeline pipeline.fit(X_train, y_train) # 一次性保存整个Pipeline import joblib joblib.dump(pipeline, 'churn_pipeline_v1.joblib') # 部署时，一行代码完成预处理+预测 loaded_pipeline = joblib.load('churn_pipeline_v1.joblib') new_user = pd.DataFrame([{'user_age': 35, 'last_login_days': 10, 'total_order_amount': 5000, 'gender': 'Female', 'city': 'Beijing'}]) prediction = loaded_pipeline.predict(new_user) # 自动执行preprocessor + classifier

为什么Pipeline是刚需？

一致性：训练和预测用同一套预处理逻辑，杜绝“训练时标准化，预测时忘了”；
可维护性：更新预处理逻辑（如新增特征），只需改Pipeline一处；
可解释性：pipeline.named_steps['preprocessor'].get_feature_names_out()能清晰看到最终输入模型的特征名。

注意：joblib是sklearn官方推荐的序列化工具，比pickle更快更小。但不要用它存pandas对象——用pd.to_pickle()。

4. 实操全流程：从零开始，用20行代码跑通一个完整项目

4.1 场景设定：电商用户流失预测（真实业务简化版）

我们有一份user_behavior.csv，含10000条用户记录，目标是预测未来30天是否会流失（is_churn=1）。特征包括：user_age（数值）、last_login_days（数值，距上次登录天数）、total_order_amount（数值，历史总消费）、gender（类别）、city（类别）。数据已清洗，无缺失值。

4.2 完整代码实现（含注释与关键说明）

# 1. 数据加载与探索（5行） import pandas as pd import numpy as np from sklearn.model_selection import train_test_split df = pd.read_csv('user_behavior.csv') print(f"数据形状: {df.shape}, 流失率: {df['is_churn'].mean():.2%}") # 输出：数据形状: (10000, 6), 流失率: 8.23% （不平衡，需关注召回率） # 2. 特征与标签分离（3行） feature_cols = ['user_age', 'last_login_days', 'total_order_amount', 'gender', 'city'] X = df[feature_cols] y = df['is_churn'] # 3. 数据集划分（2行）——注意：stratify=y 保持训练/测试集流失率一致 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) # 4. 构建预处理器（8行）——ColumnTransformer是核心 from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer numeric_features = ['user_age', 'last_login_days', 'total_order_amount'] categorical_features = ['gender', 'city'] preprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), numeric_features), ('cat', OneHotEncoder(drop='first'), categorical_features) ], remainder='passthrough' # 此处无其他列，可省略 ) # 5. 构建Pipeline并训练（4行） from sklearn.ensemble import RandomForestClassifier from sklearn.pipeline import Pipeline pipeline = Pipeline([ ('preprocessor', preprocessor), ('classifier', RandomForestClassifier(n_estimators=100, random_state=42)) ]) pipeline.fit(X_train, y_train) # ✅ 一行完成预处理+训练 # 6. 模型评估（5行） from sklearn.metrics import classification_report y_pred = pipeline.predict(X_test) print("=== 测试集分类报告 ===") print(classification_report(y_test, y_pred)) # 输出关键指标：流失类（1）的召回率=0.62，精确率=0.58，F1=0.60 # 7. 保存模型（2行） import joblib joblib.dump(pipeline, 'ecommerce_churn_pipeline_v1.joblib') print("模型已保存！")

运行结果解读：

流失类召回率0.62，意味着100个真流失用户，模型找出了62个；
精确率0.58，意味着模型预测的100个流失用户中，58个是真的；
F1值0.60是综合得分。业务可接受——若要提升召回率，需在classification_report后加threshold调整预测阈值（pipeline.predict_proba(X_test)[:,1] > 0.3），但这会牺牲精确率。

实操心得：这20行代码，是我给新同事的“入职第一课”。它不追求SOTA，但保证：

可复现（random_state=42）；
可部署（Pipeline+joblib）；
可解释（classification_report按类别输出）；
可迭代（后续可轻松替换classifier为XGBClassifier或加SMOTE处理不平衡）。

4.3 关键参数选择背后的计算逻辑

为什么n_estimators=100？为什么test_size=0.2？这些数字不是拍脑袋：

n_estimators=100：RandomForest的误差随树数量增加而下降，但到100后趋于平缓。我实测过：50棵树时OOB误差=0.21，100棵=0.19，200棵=0.185。提升微乎其微，但训练时间翻倍。100是性价比拐点。
test_size=0.2：测试集需足够大以评估泛化性，但又不能太小导致统计不可靠。10000条数据，20%即2000条。根据二项分布，对流失率8.23%的样本，2000条中流失用户期望值=165人，标准差≈12人。这意味着召回率估计的95%置信区间宽度约±1.5%，足够支撑业务决策。
stratify=y：若不加此参数，随机划分可能导致测试集流失率偏离8.23%（如变成5%或12%），评估结果失真。stratify强制按y的比例分层，确保测试集“像”整体。

5. 常见问题与排查技巧实录：那些文档里不会写的“血泪经验”

5.1 “ValueError: Input contains NaN, infinity or a value too large for dtype('float64')”

这是fit()时报的最多错误。表面是数据含NaN，但根源常是：

pandas读取时未处理空字符串：pd.read_csv()默认将空字符串''读为NaN，但若列是object类型，NaN不会被StandardScaler识别。
解法：df = df.replace('', np.nan)，再用SimpleImputer处理。
log()或sqrt()运算产生inf：如np.log(0)得-inf。
解法：预处理时加保护X['col'] = np.log1p(X['col'])（log1p(x)=log(1+x)，x≥0时安全）。

提示：用np.isfinite(X).all()一键检测所有数值是否有限。

5.2 “ValueError: Unknown label type: 'continuous'”

当你用RandomForestClassifier却传入连续型y（如[1.2, 3.5, 2.1]）时触发。原因常是：

从数据库读取时，is_churn列被误读为float（如含NULL，pandas自动转float64）；
或业务逻辑错误，把概率当标签。
解法：y = y.astype(int)或y = (y > 0.5).astype(int)。

5.3 “ConvergenceWarning: Liblinear failed to converge”

LogisticRegression或LinearSVC报此警告，本质是迭代次数不够。默认max_iter=100对高维稀疏数据常不足。
解法：显式增大LogisticRegression(max_iter=1000)。但更应检查：是否特征未缩放？是否数据量远大于特征数（此时用solver='saga'更稳）？

5.4 “FutureWarning: The default value of n_estimators will change from 10 to 100”

sklearn版本升级时的典型警告。RandomForest旧版默认10棵树，新版升为100。这不是错误，但提醒你：显式指定参数是专业习惯。所有模型初始化，我都写全关键参数，不依赖默认值。

5.5 “UserWarning: X does not have valid feature names”

pandasDataFrame传入Pipeline时，若列名含空格或特殊字符（如'user age'），ColumnTransformer可能丢失名称。
解法：预处理时标准化列名X.columns = X.columns.str.replace(' ', '_').str.lower()。

5.6 速查表使用自查清单（我每天开工前默念）

检查项	是否完成	说明
✅`X`和`y`行数一致？	`assert X.shape[0] == len(y)`
✅`X`全为数值型？	`X.select_dtypes(include=['number']).shape == X.shape`
✅`y`为1D向量？	`y.ndim == 1 and y.shape[0] == len(y)`
✅ 训练/测试集用同一`preprocessor`？	`X_test_scaled = preprocessor.transform(X_test)`，非`fit_transform`
✅`Pipeline`保存而非单模型？	`joblib.dump(pipeline, ...)`，非`joblib.dump(clf, ...)`
✅ 评估用`classification_report`而非仅`score()`？	尤其对不平衡数据

最后分享一个小技巧：我把这张速查表打印出来，贴在显示器边框上。每当遇到函数名模糊时，扫一眼就能定位。但真正的价值不在“查”，而在“用”——当你能不假思索地敲出preprocessor = ColumnTransformer(...)，并理解每个参数的业务含义时，scikit-learn才真正成了你手里的工具，而不是需要膜拜的神龛。

查看全文

http://www.gsyq.cn/news/1531183.html