当前位置：首页 > news >正文

别再只懂Apriori了！用Python手搓一个超市购物篮分析器（附Numpy数据处理实战）

news 2026/6/13 12:49:02

从零构建超市购物篮分析引擎：Python与Numpy的算法实战

走进任何一家便利店，收银台旁的货架上总摆放着口香糖和电池——这并非偶然，而是购物篮分析的经典案例。当我们在电商平台看到"买了这本书的用户也买了..."的推荐，背后同样是关联规则算法在发挥作用。本文将带你用纯Python和Numpy，从交易数据加载到规则可视化，完整实现一个轻量级购物篮分析引擎。

1. 关联规则挖掘的基础原理

购物篮分析的核心是关联规则学习，它通过发现"如果购买了A则很可能购买B"的规律来优化商品摆放和推荐策略。要理解这个过程，我们需要掌握三个关键指标：

支持度(Support): 规则A→B在所有交易中出现的频率
- 计算方式: Support(A→B) = P(A∩B) = 同时包含A和B的交易数 / 总交易数
置信度(Confidence): 在包含A的交易中，同时包含B的比例
- 计算方式: Confidence(A→B) = P(B|A) = Support(A→B) / Support(A)
提升度(Lift): 规则的有效性指标，大于1表示正相关
- 计算方式: Lift(A→B) = Confidence(A→B) / Support(B)

传统Apriori算法通过逐层搜索和剪枝来发现频繁项集，但其计算复杂度随商品数量指数级增长。我们采用更直接的方法，通过Numpy矩阵运算一次性计算所有可能的规则。

import numpy as np from itertools import combinations def calculate_metrics(transactions): n_items = transactions.shape[1] item_counts = np.zeros(n_items) pair_counts = np.zeros((n_items, n_items)) # 统计单项和双项出现次数 for t in transactions: items = np.where(t == 1)[0] for i in items: item_counts[i] += 1 for i, j in combinations(items, 2): pair_counts[i,j] += 1 pair_counts[j,i] += 1 # 计算支持度、置信度和提升度 total = len(transactions) support_matrix = pair_counts / total confidence_matrix = pair_counts / item_counts[:, None] lift_matrix = confidence_matrix / (item_counts[None, :] / total) return support_matrix, confidence_matrix, lift_matrix

2. 交易数据的预处理与特征工程

实际业务中的交易数据往往存在噪声和缺失值。我们首先构建一个数据预处理管道：

def preprocess_data(raw_data, min_support=0.01): # 转换交易记录为one-hot编码 unique_items = sorted(list(set(item for t in raw_data for item in t))) item_to_idx = {item:i for i, item in enumerate(unique_items)} # 初始化交易矩阵 transactions = np.zeros((len(raw_data), len(unique_items)), dtype=int) # 填充矩阵 for i, t in enumerate(raw_data): for item in t: transactions[i, item_to_idx[item]] = 1 # 过滤低频商品 item_freq = transactions.sum(axis=0) mask = item_freq >= min_support * len(transactions) filtered_transactions = transactions[:, mask] kept_items = [item for item, m in zip(unique_items, mask) if m] return filtered_transactions, kept_items

典型的数据问题及处理方法：

问题类型	表现特征	解决方案
稀疏数据	大部分商品购买频率极低	设置最小支持度阈值过滤
数据倾斜	少数商品占据大部分交易	对数变换或分箱处理
时序效应	季节性商品影响规则	按时间窗口分割数据集

提示：实际应用中，建议保留商品原始ID映射关系，便于结果的可解释性转换。

3. 高效规则生成与评估框架

为避免暴力计算所有可能的规则组合，我们实现一个基于矩阵运算的优化方案：

def generate_rules(support, confidence, lift, items, min_confidence=0.5): rules = [] n = len(items) for i in range(n): for j in range(n): if i == j: continue supp = support[i,j] conf = confidence[i,j] lft = lift[i,j] if conf >= min_confidence: rules.append({ 'antecedent': items[i], 'consequent': items[j], 'support': supp, 'confidence': conf, 'lift': lft }) # 按提升度降序排列 return sorted(rules, key=lambda x: -x['lift'])

评估规则质量的指标对比：

指标	计算方式	优点	局限性
支持度	P(A∩B)	反映规则普遍性	可能忽略有价值的稀有组合
置信度	P(B\|A)	衡量规则可靠性	对热门商品有偏差
提升度	P(B\|A)/P(B)	消除商品流行度影响	对低频组合敏感

4. 实战：便利店交易分析案例

假设我们有一个月的便利店交易数据，包含以下商品：牛奶、面包、啤酒、尿布、鸡蛋、咖啡。加载并分析数据：

# 模拟交易数据 raw_data = [ ['牛奶', '面包'], ['牛奶', '尿布', '啤酒', '鸡蛋'], ['牛奶', '尿布', '啤酒', '咖啡'], ['面包', '咖啡', '鸡蛋'], ['面包', '尿布', '啤酒'], ['尿布', '啤酒'], ['面包', '牛奶'], ['面包', '尿布', '鸡蛋'] ] # 预处理 transactions, items = preprocess_data(raw_data, min_support=0.1) # 计算指标 support, confidence, lift = calculate_metrics(transactions) # 生成规则 rules = generate_rules(support, confidence, lift, items, min_confidence=0.6) # 输出Top5规则 for i, rule in enumerate(rules[:5]): print(f"规则{i+1}: 如果购买 {rule['antecedent']} 则会购买 {rule['consequent']}") print(f" 支持度: {rule['support']:.2f}, 置信度: {rule['confidence']:.2f}, 提升度: {rule['lift']:.2f}")

典型输出结果示例：

规则1: 如果购买 尿布 则会购买 啤酒 支持度: 0.38, 置信度: 0.75, 提升度: 1.50 规则2: 如果购买 啤酒 则会购买 尿布 支持度: 0.38, 置信度: 0.67, 提升度: 1.50 规则3: 如果购买 牛奶 则会购买 面包 支持度: 0.25, 置信度: 0.67, 提升度: 1.33

5. 结果可视化与业务应用

将分析结果转化为直观的可视化呈现：

import matplotlib.pyplot as plt import networkx as nx def visualize_rules(rules, top_n=10): G = nx.DiGraph() for rule in rules[:top_n]: G.add_edge(rule['antecedent'], rule['consequent'], weight=rule['confidence'], support=rule['support']) pos = nx.spring_layout(G) plt.figure(figsize=(12, 8)) # 绘制节点和边 nx.draw_networkx_nodes(G, pos, node_size=2000, alpha=0.8) nx.draw_networkx_edges(G, pos, width=1, alpha=0.5, edge_color='gray', arrowsize=20) # 添加标签 edge_labels = {(u, v): f"{d['weight']:.2f}" for u, v, d in G.edges(data=True)} nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels) nx.draw_networkx_labels(G, pos, font_size=12) plt.title("商品关联规则网络", fontsize=15) plt.axis('off') plt.show()

实际业务中的应用策略：