当前位置: 首页 > news >正文

助睿实验平台-浏览器用户行为分析与流失预测-数据加工

浏览器用户行为分析与流失预测-数据加工

1 实验目的

  • 熟悉数据集构成与半结构化日志数据特点,掌握文本日志解析、字段拆分的实操方法

  • 完成数据规整,将零散原始日志转化为标准结构化数据表

  • 实现多维度数据聚合、字段衍生与跨表关联,搭建适配分析场景的指标体系

  • 完成机器学习特征工程处理,产出可直接使用的预测建模数据集

2 实验环境

  • 实验平台:助睿在线实验平台 https://lab.guilian.cn/

本次实验使用助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,适用于数据分析教学与企业数据加工场景。助睿数智官网为:https://www.uniplore.com/

  • 数据处理:助睿 ETL 数据集成平台

  • 数据规模:1000 用户,800 万 + 条行为记录,约 825MB

3 实验数据

本实验基于首届中国互联网数据挖掘竞赛公开数据集开展,是非常典型的计算机用户行为半结构化日志数据,专门用于用户行为分析、习惯挖掘、活跃度预测与用户画像研究。

3.1 数据集整体构成

数据集包含三大核心部分:

  1. 用户基本信息表:demographic.csv 存储用户 ID、性别、年龄、职业、教育程度、收入等人口属性信息。

  2. 浏览器上网记录:日志中包含 URL、域名、访问时间等。

  3. 软件使用记录:日志中包含进程名、程序名、使用时长、窗口切换等。

数据总大小解压后约 825MB,原始行为记录 800 多万条,覆盖 1000 名用户连续 4 周的电脑使用行为(横跨 4 个月,每月抽取 1 周数据)。

  • 第 1 周:2012-05-07 至 2012-05-13

  • 第 2 周:2012-06-04 至 2012-06-10

  • 第 3 周:2012-07-02 至 2012-07-08

  • 第 4 周:2012-08-06 至 2012-08-12

3.2 数据文件结构

所有数据分为两部分:

  1. behavior/ 文件夹:按日期归档,存放数万条 TXT 行为日志

  2. demographic.csv:用户属性表

两个数据通过用户 ID(user_id)唯一关联。

3.3 日志文件命名规则

每个 TXT 文件 = 一个用户一次开机产生的行为日志

文件名格式:用户ID_日期_开机时间.txt

示例:0AB6BBBEDFF24EC8BAAC905F45AE314C_2012-05-07_21-22-38.txt

从文件名可直接解析出:

  • user_id:用户唯一标识

  • file_date:日志日期

  • file_start_time:开机时间

4 实验步骤

步骤解说 1:在“数据集成”模块中新建项目,弹出的“项目属性”窗口中填写项目名称“互联网用户行为日志数据加口”,为后续的数据清洗、抽取和分析建立独立的项目空间。

步骤解说 2:进入项目列表后,在“我的项目”中找到刚创建的项目入口,确认当前操作对象是互联网用户行为日志相关项目,后续所有数据资源和转换流程都将在该项目中完成。

步骤解说 3:切换到项目内的“数据资源”页面,查看系统中可用的数据集卡片。红框标出目标日志数据集,说明本次任务需要从该互联网用户行为日志数据集中读取原始数据。

步骤解说 4:继续在数据资源列表中定位日志数据集,红框强调右侧具体数据集卡片。该步骤用于确认数据集名称、所属项目以及可用状态,避免后续流程引用错误数据。

步骤解说 5:左侧目录树中展开互联网用户行为日志数据集,页面展示多份同类日志资源。这里需要根据实验要求选择目标数据,或理解该项目中包含多个待清洗的日志文件。

步骤解说 6:进入“转换流”区域,红框指向左侧流程目录或流程入口。该步骤表示从数据资源查看转入数据加工环节,准备搭建完整的数据清洗流程。

步骤解说 7:画布底部显示转换流的运行日志,日志会记录流程启动、步骤执行、数据读取和异常信息。通过该区域可以判断流程是否运行成功。

步骤解说 8:弹出组件或步骤选择窗口,红框标出确认按钮。选择需要添加到画布中的处理组件后,点击确认即可把该组件加入转换流程。

步骤解说 9:继续配置所选步骤,红框标出底部保存或确认区域。该步骤说明组件参数设置完成后,需要点击确认使配置生效。

步骤解说 10:画布中出现两个已经连接的流程节点,红框标出节点之间的数据传递关系。说明清洗流程开始由单个步骤扩展为可执行的数据处理链路。

步骤解说 11:打开“Java 代码”步骤配置窗口,代码区用于编写自定义解析逻辑,底部红框标出输出字段 user_id 和 session_id,说明该步骤会从日志文本中提取用户与会话信息。

步骤解说 12:画布上红框标出相连的处理节点,表示 Java 代码解析步骤已经接入主流程,原始日志数据会经过该节点生成新的结构化字段。

步骤解说 13:在步骤配置窗口中设置处理参数,红框覆盖主要配置区域。该步骤通常用于指定字段来源、处理方式或输出结构,是保证节点正确运行的关键配置。

步骤解说 14:画布中红框标出连续节点,说明数据从输入节点进入处理节点,再继续流向后续步骤。该画面用于确认流程连接方向和执行顺序。

步骤解说 15:配置窗口中红框标出字段或参数设置区域,说明正在为当前步骤指定参与处理的字段、字段类型或输出规则。

步骤解说 16:底部红框标出运行日志内容,展示流程执行过程中的提示信息。若流程配置有误,可通过日志定位失败步骤和错误原因。

步骤解说 17:进入“元数据”的数据探查页面,左侧选中 behavior_events 表,右侧预览表中原始行为日志字段和样例数据,用于了解数据结构和字段含义。

步骤解说 18:返回转换流程画布,红框指向左侧的流程或组件目录。该步骤表示继续添加新的清洗组件,完善日志数据处理链路。

步骤解说 19:打开包含代码编辑器的步骤配置窗口,红框标出 Java 代码区域。这里通过代码实现对复杂日志字段的解析、拆分或过滤。

步骤解说 20:配置弹窗中红框标出关键参数输入区域,说明需要填写步骤名称、字段名称、条件表达式或其他运行参数,完成后保存。

步骤解说 21:底部红框标出执行日志,显示流程运行时每个步骤的处理状态。通过日志可以检查数据是否被成功读取、转换和传递。

步骤解说 22:弹窗中红框标出字段选择区域,说明正在选择当前步骤要读取或输出的字段,保证后续处理只使用需要的日志信息。

步骤解说 23:画布中红框标出多个节点之间的连接关系,表示当前流程已经形成由输入、解析、清洗和输出组成的初步链路。

步骤解说 24:配置窗口中红框标出字段设置和确认按钮,说明当前步骤需要完成字段映射、筛选或规则配置后,再点击确认保存。

步骤解说 25:弹出简短确认窗口,红框标出确认按钮。该类窗口通常用于确认保存、删除、覆盖或执行操作,防止误操作影响流程。

步骤解说 26:配置窗口中红框标出字段表格,说明正在设置输出字段名称、类型、长度或精度,为后续写入目标表做好字段准备。

步骤解说 27:红框标出字段映射表格,表示输入字段需要与目标字段一一对应。字段映射正确后,处理结果才能准确写入后续节点。

步骤解说 28:配置窗口上下两个红框分别对应输入字段和输出字段设置,说明当前步骤同时涉及字段读取和字段生成,常用于字段选择、重命名或格式整理。

步骤解说 29:弹窗中红框标出多个配置项,说明正在选择数据库、目标表、字段或连接参数,为后续数据落库做准备。

步骤解说 30:画布下方红框标出流程运行日志,日志中的处理数量和完成状态用于验证当前转换流是否已经成功执行。

步骤解说 31:进入元数据查询页面查看处理后的数据表,红框标出数据预览区。通过查看样例记录,可以确认字段拆分和数据清洗结果是否符合预期。

步骤解说 32:进入可视化分析界面,红框标出字段和图表配置区域。该步骤开始基于清洗后的结果表进行图表分析与展示。

步骤解说 33:创建“进程用户数量分析”图表,将 user_count 放入 X 轴,将 program_name 放入 Y 轴,并选择水平条图,用于比较不同程序对应的用户数量。

步骤解说 34:回到数据集成流程画布,红框指向左侧流程入口,说明继续对转换流程进行补充、调整或复查。

步骤解说 35:画布底部红框标出日志输出内容,说明流程执行后会生成详细运行记录,可用于检查每个步骤是否正常完成。

步骤解说 36:红框指向画布或目录中的某个处理步骤,表示需要选中该步骤进行配置查看、参数修改或流程定位。

步骤解说 37:配置窗口中红框标出步骤名称或关键参数,说明正在设置清洗步骤的基础信息,使其在流程中便于识别和管理。

步骤解说 38:配置窗口中红框标出字段列表或下拉选项,说明需要从已有字段中选择用于清洗、统计或输出的字段。

步骤解说 39:画布中红框标出分支或汇总相关节点,说明流程开始进入统计分析阶段,对清洗后的日志数据进行分组或汇总。

步骤解说 40:配置窗口中红框标出条件或字段配置区域,说明正在为分组、筛选或判断步骤设置处理规则。

步骤解说 41:红框标出分组统计配置表格,说明需要指定分组字段、统计字段和统计方式,为生成汇总结果表做准备。

步骤解说 42:配置窗口中两个红框分别标出分组依据和聚合结果设置,说明可按程序名称、浏览器名称等维度统计用户数量或活跃情况。

步骤解说 43:红框标出一整行字段配置,说明当前步骤正在定义输出列,例如程序名、用户数、总时长等统计结果字段。

步骤解说 44:配置窗口中红框标出单个关键字段选择区,说明该字段将作为分组、排序、过滤或输出的重要依据。

步骤解说 45:红框标出表格中的配置行,说明某条字段处理规则已经建立,例如保留字段、重命名字段或输出统计字段。

步骤解说 46:弹窗中红框标出保存或确认区域,说明配置完成后需要提交保存,使当前节点设置写入转换流程。

步骤解说 47:红框标出字段列表或输出字段设置区,说明正在最终确认结果表包含哪些字段,以及字段顺序是否符合分析需要。

步骤解说 48:画面以表格形式展示字段配置结果,红框标出字段列,说明输出表结构已经形成,可用于后续写入数据库或生成分析结果。

步骤解说 49:配置窗口中红框标出较长的字段映射表,说明正在配置表输出步骤,把处理后的结果字段写入目标数据库表。

步骤解说 50:红框同时标出中部参数区和下方字段区,说明表输出步骤不仅要选择目标表,还要建立输入字段与目标字段的对应关系。

步骤解说 51:红框标出目标表字段映射区域,说明数据写入前需要检查字段名、字段类型和字段顺序,确保清洗结果可以正确落库。

步骤解说 52:配置窗口中红框标出数据库或表选择位置,说明正在选择清洗结果要写入的数据库表。

步骤解说 53:红框标出大块字段映射区域,说明最终输出表字段基本确定,这是清洗结果写入数据库前的重要核对步骤。

步骤解说 54:弹窗中红框标出数据库连接、表名或写入方式配置,说明需要指定结果数据保存位置以及插入、覆盖等写入策略。

步骤解说 55:配置窗口中红框标出确认按钮和部分参数,说明表输出步骤配置完成后点击确认,保存写入设置。

步骤解说 56:展示完整的数据清洗抽取流程画布,包含字段选择、过滤记录、排序记录、分析查询、计算器、剪切字符串、分组和表输出等节点。底部日志显示流程已运行,说明整个清洗链路已经打通。

步骤解说 57:展示统计结果表,字段包括 browser_coverage、browser_hourly,说明已经按浏览器名称统计用户数量和总使用时长,可用于分析不同浏览器的使用情况。

步骤解说 58:展示另一张统计结果表,字段包括 browser_coverage、browser_hourly,说明已经按浏览器和小时维度统计活跃用户数量,可用于分析不同时段的用户活跃变化。

http://www.gsyq.cn/news/1437501.html

相关文章:

  • 【极域脱机指南】脱离机房老师控制--教程
  • linux 6 定时任务指令
  • 山东大学软件学院创新实训——个人博客(七)
  • AE510 Smart Kit:边缘 AI 视觉套件,让传统售货机迈入智能结算时代
  • 别再傻傻分不清了!用OpenCV+Python实战搞懂单应矩阵、本质矩阵和基础矩阵
  • 2026年南京五粮液回收服务商评测:四家机构实力对比 - 优质品牌商家
  • 云主机(华为)改密码的流水账
  • 基于PLC两电梯协同运力控制系统设计(设计源文件+万字报告+讲解)(支持资料、图片参考_降重降ai)_文章底部可以扫码
  • yolov26改进 | 添加注意力机制篇 | 添加DAttention (DAT)注意力机制二次创新C2PSA(附独家网络结构图)
  • 接收端电路
  • 给你的 Agent 上一场“砍价考试“:用 Cattle Trade 思路搭一个最小博弈测评
  • AI自进化的可能与形态:一种结构工程的推演
  • 剧本逻辑断层?角色扁平?对话生硬?,Gemini剧本辅助系统5大诊断模块+实时修复建议全披露
  • spice模型导入simulink时遇到标识符 n70ru未在 ‘definitions‘ 部分中定义
  • 2026年5月地热网片选购指南:实体厂家综合实力与选型要点解析 - 2026年企业资讯
  • 结构化编程:AI工业化编程的探索
  • 2026年q2四川聚氨酯地坪专业厂家技术能力解析:四川地坪翻新/四川室外地坪/四川无溶剂聚氨酯/优选指南 - 优质品牌商家
  • 【路径规划】基于人工势场法实现多机器人系统的群集编队控制附matlab代码
  • Go语言网络编程深度解析
  • 湖北能家校协同的播音艺考培训,武汉星干线艺术学校怎样? - myqiye
  • 江苏昱杨机械:近50年积淀的耐磨管道技术与服务解析 - 优质品牌商家
  • 2026年好用的熊猫烟花有哪些?品牌推荐与评价 - myqiye
  • 上海再生资源回收服务商评测:沪豫合与同行实力对比 - 优质品牌商家
  • 四川吊篮租赁企业实测评测:成都吊篮租赁公司/成都外墙吊篮租赁/成都工地吊篮租赁/成都建筑吊篮租赁/成都施工吊篮租赁/选择指南 - 优质品牌商家
  • C语言学习Day8
  • 时空协同原生感知·全域零断点跨镜续联 重构智慧安防空间智控底层范式技术解析方案
  • 想找支持车型匹配查询的汽配供应商,中星源商贸靠谱吗? - mypinpai
  • ESP32 + SimpleFOC + 三路AS5600实现三轴FOC电机控制
  • 分布式缓存设计:构建高性能缓存体系的实践指南
  • 独家首发:Gemini v2.3.1内部评估矩阵(含GDPR/《征信业务管理办法》双合规校验表)