当前位置：首页 > news >正文

数据埋点与用户留存分析：转化率特征拆解

news 2026/6/4 10:50:25

数据埋点与用户留存分析：转化率特征拆解

数据埋点与用户留存分析的转化率特征分析

一、前言

两年前，我负责的一款B端数据分析产品上线了企业版，前三个月注册量涨得不错，但次周留存始终卡在22%上不去。

运营团队做了各种动作——发推送、搞活动、建社群——留存纹丝不动。产品经理问我："要不我们加个新手引导？"

我说等等。在加功能之前，先搞清楚一件事：那些留下来的人，到底做了什么？那些走掉的人，又是在哪里离开的？

这不是靠感觉能回答的问题。我们需要用数据埋点+用户分群+行为序列分析，把转化率特征真正"看见"。今天分享完整的分析链路和代码实现。

二、埋点数据的采集规范

要做用户留存分析，埋点不能只停留在"页面浏览"层面。我定义了一套面向行为序列的埋点体系：

事件类型	事件名	触发时机	附带属性
关键行为	`feature_used`	用户使用核心功能	功能名称、操作时长
里程碑	`milestone_reached`	完成首次关键任务	里程碑名、用时
失效点	`drop_off`	用户离开流程	离开页面、停留时长
辅助行为	`help_viewed`	查看帮助文档	文档ID、是否解决

核心原则：埋点要覆盖"决策时刻"。用户从"进来"到"转化"的链条中，每个可能放弃的节点都需要被记录。

# 行为事件数据模型 from dataclasses import dataclass, field from typing import Optional, List from datetime import datetime @dataclass class BehaviorEvent: event_id: str user_id: str session_id: str event_type: str # page_view / feature_used / drop_off / milestone event_name: str timestamp: int # ms page: str duration_ms: int # 在页面的停留时长 properties: dict = field(default_factory=dict) def to_dict(self): return { "event_id": self.event_id, "user_id": self.user_id, "session_id": self.session_id, "event_type": self.event_type, "event_name": self.event_name, "timestamp": self.timestamp, "page": self.page, "duration_ms": self.duration_ms, **self.properties }

三、用户分群：RFM模型

把所有用户混在一起看留存率是不明智的。我基于RFM模型做了用户分群：

import pandas as pd import numpy as np from datetime import datetime, timedelta class UserSegmentation: """ 基于RFM模型的用户分群 R: 最近一次使用距今天数 F: 过去7天的使用频次 M: 过去7天的功能使用广度(使用过多少种功能) """ def __init__(self, events: List[BehaviorEvent]): self.events = events self.df = self._build_dataframe() def _build_dataframe(self) -> pd.DataFrame: """将事件数据转为DataFrame""" records = [e.to_dict() for e in self.events] df = pd.DataFrame(records) df['event_time'] = pd.to_datetime(df['timestamp'], unit='ms') return df def compute_rfm(self) -> pd.DataFrame: """计算每个用户的RFM分值""" now = datetime.now() rfm = self.df.groupby('user_id').agg({ 'event_time': lambda x: (now - x.max()).days, # Recency 'event_id': 'count', # Frequency 'event_name': lambda x: x.nunique() # 功能使用广度 -> Monetary }).rename(columns={ 'event_time': 'recency', 'event_id': 'frequency', 'event_name': 'breadth' }).reset_index() # R分箱：天数越少分越高 rfm['R_score'] = pd.qcut(rfm['recency'], q=4, labels=[1, 2, 3, 4]) # F分箱：频次越高分越高 rfm['F_score'] = pd.qcut(rfm['frequency'].clip(lower=1), q=4, labels=[1, 2, 3, 4]) # M分箱：功能广度越高分越高 rfm['M_score'] = pd.qcut(rfm['breadth'].clip(lower=1), q=4, labels=[1, 2, 3, 4]) # 综合RFM得分 rfm['rfm_score'] = ( rfm['R_score'].astype(int) * 100 + rfm['F_score'].astype(int) * 10 + rfm['M_score'].astype(int) ) return rfm def segment_users(self, rfm: pd.DataFrame) -> pd.DataFrame: """将用户分为不同群体""" conditions = [ (rfm['R_score'].astype(int) >= 3) & (rfm['F_score'].astype(int) >= 3), (rfm['R_score'].astype(int) >= 3) & (rfm['F_score'].astype(int) < 3), (rfm['R_score'].astype(int) < 3) & (rfm['F_score'].astype(int) >= 2), (rfm['R_score'].astype(int) < 3) & (rfm['F_score'].astype(int) < 2), ] labels = ['高价值活跃用户', '新用户/探索中', '需要召回', '即将流失'] rfm['segment'] = np.select(conditions, labels, default='待分类') return rfm

分群结果示例：

用户群体	占比	次周留存率	核心特征
高价值活跃用户	18%	87%	每周使用5+功能，深度用户
新用户/探索中	35%	41%	注册1-3天，仅用了1-2个功能
需要召回	28%	12%	7+天未访问，曾用过核心功能
即将流失	19%	3%	注册后使用不超过3次

四、行为序列分析

分群只是第一步。关键问题是：高价值用户的行为路径是什么样的？流失用户又是在哪一步放弃的？

我用行为序列分析来回答这个问题：

from collections import defaultdict, Counter from itertools import product class BehaviorSequenceAnalyzer: """行为序列分析器：找出高转化路径与流失节点""" def __init__(self, events_df: pd.DataFrame): self.df = events_df.sort_values(['user_id', 'session_id', 'timestamp']) def build_user_paths(self) -> dict: """构建每个用户的行为路径链""" paths = defaultdict(list) for (user_id, session_id), group in self.df.groupby(['user_id', 'session_id']): # 按时间排序，提取事件序列 events = group.sort_values('timestamp')['event_name'].tolist() session_path = ' → '.join(events) paths[user_id].append(session_path) return dict(paths) def find_conversion_patterns(self, retained_users: set, churned_users: set): """对比留存用户与流失用户的行为模式差异""" # 提取每个用户首次会话的行为序列 first_session_patterns = defaultdict(lambda: {'retained': 0, 'churned': 0}) for user_id, sessions in self.build_user_paths().items(): first_session = sessions[0] if sessions else "" if user_id in retained_users: first_session_patterns[first_session]['retained'] += 1 elif user_id in churned_users: first_session_patterns[first_session]['churned'] += 1 return first_session_patterns def identify_drop_off_nodes(self) -> dict: """识别流失节点：用户在哪些页面/功能后流失""" drop_offs = Counter() for (user_id, session_id), group in self.df.groupby(['user_id', 'session_id']): events = group.sort_values('timestamp') # 如果会话只有一个事件，说明用户来了就离开 if len(events) == 1: event = events.iloc[0] drop_offs[f"进入即离开:{event['event_name']}"] += 1 else: # 离开前的最后一个事件 last_event = events.iloc[-1] second_last = events.iloc[-2] if len(events) > 1 else None if second_last is not None: key = f"{second_last['event_name']}→离开" drop_offs[key] += 1 return drop_offs.most_common(20)

五、转化率特征提取

有了用户分群和行为序列，我再做一个转化率特征的交叉分析：

def compute_conversion_features( events: List[BehaviorEvent], retention_day: int = 7 ) -> dict: """ 计算影响留存的关键转化特征 返回每个特征对留存的相关系数 """ df = pd.DataFrame([e.to_dict() for e in events]) features = {} now = datetime.now() for user_id, group in df.groupby('user_id'): # 1. 激活时间：注册到首次使用核心功能的间隔 first_core_use = group[group['event_type'] == 'feature_used']['timestamp'].min() first_event = group['timestamp'].min() activation_time = (first_core_use - first_event) / 1000 if first_core_use else None # 2. Aha时刻：首次使用某个功能后留存的概率 core_features = group[group['event_type'] == 'feature_used']['event_name'].unique() # 3. 次日是否回访 has_next_day = len(group[pd.to_datetime(group['timestamp'], unit='ms').dt.date == (now - timedelta(days=1)).date()]) > 0 features[user_id] = { 'activation_time_s': activation_time, 'core_feature_count': len(core_features), 'has_next_day': has_next_day, 'avg_session_depth': len(group) / group['session_id'].nunique(), 'has_drop_off': any(group['event_type'] == 'drop_off') } feature_df = pd.DataFrame.from_dict(features, orient='index') # 计算各特征与"次日回访"的相关性 correlations = feature_df.corr()['has_next_day'].drop('has_next_day') return correlations.sort_values(ascending=False).to_dict() # 实际运行结果示例： # { # 'core_feature_count': 0.72, # 使用功能数越多，留存越高 # 'avg_session_depth': 0.65, # 会话深度越深，留存越高 # 'activation_time_s': -0.53, # 激活越慢，留存越低 # 'has_drop_off': -0.41 # 出现过流失行为，留存低 # }

从分析结果中，我们得到了一个关键结论：用户在首次会话中使用超过2个核心功能，次周留存率从22%跃升到63%。这个"激活阈值"就是Aha时刻的信号。