当前位置：首页 > news >正文

8种距离度量Python实战：从欧式到马氏，5行代码对比KNN分类准确率

news 2026/7/5 11:20:17

8种距离度量Python实战：从欧式到马氏，5行代码对比KNN分类准确率

在机器学习的世界里，距离度量就像一把无形的尺子，决定了算法如何"看待"数据点之间的关系。想象一下，如果你用错误的尺子测量世界，会得出多么荒谬的结论——这正是许多机器学习项目失败的原因。本文将带你用Python实战8种核心距离度量方法，揭示它们在KNN分类中的表现差异，让你掌握选择合适"尺子"的艺术。

1. 距离度量：机器学习的隐形裁判

距离度量是机器学习中衡量样本相似性的数学工具，直接影响聚类、分类和异常检测等算法的表现。在KNN（K-最近邻）算法中，距离度量的选择尤为关键——它直接决定了哪些样本会被视为"邻居"。

为什么距离度量如此重要？考虑一个简单的例子：在电商推荐系统中，如果用欧式距离计算用户偏好，可能会忽略用户对不同品类关注度的差异；而用余弦相似度，则能更好地捕捉兴趣方向上的相似性。

以下是8种我们将重点探讨的距离度量：

distance_metrics = [ 'euclidean', # 欧式距离 'manhattan', # 曼哈顿距离 'chebyshev', # 切比雪夫距离 'cosine', # 余弦距离 'hamming', # 汉明距离 'jaccard', # 杰卡德距离 'minkowski', # 闵可夫斯基距离 'mahalanobis' # 马氏距离 ]

每种距离都有其独特的数学特性和适用场景。欧式距离是我们最熟悉的"直线距离"，而曼哈顿距离则像在城市街区中行走的路径距离。余弦相似度关注向量间的角度而非大小，马氏距离则考虑了数据分布的特性。

提示：距离度量的选择应基于数据特性和问题需求。没有放之四海而皆准的最佳选择，只有最适合特定场景的选择。

2. Python实现：8种距离的代码封装

让我们构建一个Python类来封装这8种距离计算。我们将使用NumPy进行高效数值运算，并利用scipy.spatial.distance中的优化实现作为基准。

import numpy as np from scipy.spatial.distance import cdist class DistanceMetrics: def __init__(self, data=None): """初始化时可选择传入数据计算协方差矩阵（用于马氏距离）""" self.data = data if data is not None: self.cov_inv = np.linalg.inv(np.cov(data.T)) def euclidean(self, x1, x2): """欧式距离：平方差之和的平方根""" return np.sqrt(np.sum((x1 - x2)**2, axis=-1)) def manhattan(self, x1, x2): """曼哈顿距离：绝对差之和""" return np.sum(np.abs(x1 - x2), axis=-1) def chebyshev(self, x1, x2): """切比雪夫距离：各维度最大绝对差""" return np.max(np.abs(x1 - x2), axis=-1) def cosine(self, x1, x2): """余弦距离：1减余弦相似度""" dot_product = np.sum(x1 * x2, axis=-1) norm_product = np.linalg.norm(x1, axis=-1) * np.linalg.norm(x2, axis=-1) return 1 - (dot_product / norm_product) def hamming(self, x1, x2): """汉明距离：不同元素的比例（要求输入已二值化）""" return np.mean(x1 != x2, axis=-1) def jaccard(self, x1, x2): """杰卡德距离：1减杰卡德相似度""" intersection = np.sum(x1 * x2, axis=-1) union = np.sum((x1 + x2) > 0, axis=-1) return 1 - (intersection / union) def minkowski(self, x1, x2, p=3): """闵可夫斯基距离：欧式和曼哈顿的推广""" return np.sum(np.abs(x1 - x2)**p, axis=-1)**(1/p) def mahalanobis(self, x1, x2): """马氏距离：考虑数据协方差结构的距离""" diff = x1 - x2 return np.sqrt(np.sum(diff @ self.cov_inv * diff, axis=-1)) def calculate_all(self, x1, x2): """一次性计算所有距离度量""" return { 'euclidean': self.euclidean(x1, x2), 'manhattan': self.manhattan(x1, x2), 'chebyshev': self.chebyshev(x1, x2), 'cosine': self.cosine(x1, x2), 'hamming': self.hamming(x1, x2), 'jaccard': self.jaccard(x1, x2), 'minkowski': self.minkowski(x1, x2), 'mahalanobis': self.mahalanobis(x1, x2) if hasattr(self, 'cov_inv') else None }

这个类不仅实现了各种距离的计算，还提供了批量计算的方法。注意到马氏距离需要数据的协方差矩阵，因此我们在初始化时可以传入参考数据集。

使用示例：

# 创建距离计算器（为马氏距离准备数据） dm = DistanceMetrics(data=X_train) # 计算两个样本点间的各种距离 point1 = X_test[0] point2 = X_test[1] distances = dm.calculate_all(point1, point2) # 打印结果 for name, value in distances.items(): print(f"{name:>10}: {value:.4f}")

3. KNN分类准确率对比实验

现在，让我们在经典的Iris数据集上测试这些距离度量对KNN分类准确率的影响。我们将使用scikit-learn的KNeighborsClassifier，通过改变metric参数来比较不同距离的效果。

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score # 加载数据 iris = load_iris() X, y = iris.data, iris.target # 数据标准化（对距离度量很重要） scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 划分训练测试集 X_train, X_test, y_train, y_test = train_test_split( X_scaled, y, test_size=0.3, random_state=42 ) # 定义要测试的距离度量 metrics = [ 'euclidean', 'manhattan', 'chebyshev', 'cosine', 'minkowski' ] # 存储结果 results = {} # 测试每种距离 for metric in metrics: knn = KNeighborsClassifier(n_neighbors=5, metric=metric) knn.fit(X_train, y_train) y_pred = knn.predict(X_test) acc = accuracy_score(y_test, y_pred) results[metric] = acc print(f"{metric:>10}: {acc:.4f}") # 自定义马氏距离（scikit-learn不直接支持） from sklearn.neighbors import DistanceMetric mahalanobis_dist = DistanceMetric.get_metric('mahalanobis', VI=np.linalg.inv(np.cov(X_train.T))) knn = KNeighborsClassifier(n_neighbors=5, metric=mahalanobis_dist) knn.fit(X_train, y_train) y_pred = knn.predict(X_test) results['mahalanobis'] = accuracy_score(y_test, y_pred) print(f"{'mahalanobis':>10}: {results['mahalanobis']:.4f}")

实验结果可能如下表所示（具体数值会随随机种子变化）：

距离度量	准确率	特点描述
euclidean	0.9778	默认选择，适合各向同性数据
manhattan	0.9556	对异常值更鲁棒
chebyshev	0.9333	只考虑最大差异维度
cosine	0.9778	适合文本等稀疏数据
minkowski	0.9778	p=3时的表现
mahalanobis	0.9889	考虑数据分布，表现最佳

从结果可以看出，马氏距离在这个数据集上表现最好，因为它考虑了特征间的相关性。欧式距离和余弦距离表现相当，而切比雪夫距离表现相对较差。

注意：马氏距离计算需要满足样本数大于特征数，且协方差矩阵可逆。在高维小样本情况下可能不适用。

4. 距离度量的选择策略

面对多种距离度量，如何做出明智选择？以下是基于数据特性和问题类型的决策指南：

数据尺度敏感性

欧式距离、曼哈顿距离等对特征尺度敏感
解决方案：标准化或归一化数据
余弦距离、相关距离对幅度不敏感

数据分布特性

当特征高度相关时，马氏距离是理想选择
对于稀疏数据（如文本），余弦距离或杰卡德距离更合适
二进制数据常用汉明距离或杰卡德距离

计算效率考虑

欧式距离计算量最小
马氏距离需要计算协方差矩阵的逆，代价较高
汉明距离在二进制数据上效率极高

鲁棒性需求

曼哈顿距离对异常值比欧式距离更鲁棒
当数据含有大量零值（如推荐系统），余弦距离更稳定

实际选择时，可以遵循以下流程：

分析数据特性（尺度、分布、稀疏性等）
根据问题类型筛选候选距离（分类、聚类、推荐等）
进行交叉验证比较不同距离的效果
考虑计算成本和可解释性的平衡

# 距离度量选择流程图代码示例 def select_distance_metric(data, target): """自动化距离度量选择的简化示例""" from sklearn.model_selection import cross_val_score candidates = ['euclidean', 'manhattan', 'cosine'] if data.shape[0] > data.shape[1]: # 满足马氏距离条件 candidates.append('mahalanobis') best_metric, best_score = None, 0 for metric in candidates: if metric == 'mahalanobis': dist = DistanceMetric.get_metric('mahalanobis', VI=np.linalg.inv(np.cov(data.T))) knn = KNeighborsClassifier(metric=dist) else: knn = KNeighborsClassifier(metric=metric) scores = cross_val_score(knn, data, target, cv=5) mean_score = np.mean(scores) if mean_score > best_score: best_score = mean_score best_metric = metric return best_metric, best_score

在真实项目中，距离度量的选择往往需要结合领域知识。例如，在基因序列分析中，汉明距离可能比欧式距离更有生物学意义；在时间序列分析中，动态时间规整（DTW）距离可能比传统距离更合适。

查看全文

http://www.gsyq.cn/news/1639827.html