学生用户画像-考勤主题扩展标签构建实验报告1 实验说明1.1 实验目的基于已完成的学生考勤主题标签表student_attendance_stats使用K-Means聚类算法对学生考勤行为进行自动分群。具体目标包括通过迟到、早退、请假、校服违规次数等核心指标识别不同类型的考勤群体生成可解释的考勤画像为校园学生管理、行为分析提供精准数据支撑掌握助睿AI平台零代码机器学习建模的全流程操作。1.2 实验环境工具平台助睿数智Uniplore在线实验平台访问地址https://lab.guilian.cn/本次实验使用以下功能子平台数据库MySQL团队私有数据库前置数据学生考勤主题标签表student_attendance_stats2 实验数据2.1 数据构成本次实验使用上一实验输出的学生考勤主题标签表数据包含学生基础信息与考勤次数统计结果为聚类建模提供干净、标准化的特征数据。2.2 字段说明2.3 建模思路通过对数据的观察以及考勤分群的业务需求分析确定本次建模思路如下2.3.1 变量选择聚焦考勤行为核心指标基于考勤业务理解将变量聚焦在四类行为维度每个维度直接反映一类考勤特征变量间业务含义独立、相关性低可直接用于K-Means聚类建模避免变量冗余导致模型解释困难。2.3.2 数据类型适配算法要求本次建模采用次数类连续变量均为非负整数满足K-Means对数据类型的要求无需进行哑变量编码或特殊转换可直接输入模型简化预处理流程。2.3.3 辅助变量不参与聚类学生基础离散属性性别、年级、住校状态等不参与聚类建模仅作为后续画像标签的辅助解释变量。3 实验步骤3.1 AI Studio聚类建模人工智能平台AI Studio是一站式大数据智能应用平台以零代码拖拽的方式简化机器学习全流程提供从数据加载、预处理、特征工程到模型训练与评估的完整解决方案。3.1.1 新建工作流进入人工智能平台AI Studio点击【】→【新建工作流】。AI Studio页面主要包含三个模块菜单栏、控件列表以及画布用于工作流构建。3.1.2 数据导入步骤1拖拽“数据库加载”控件搜索“数据库加载”控件拖拽至画布。步骤2配置数据库连接双击控件在右侧配置窗口中填写团队私有数据库连接信息点击【连接】。步骤3选择数据表在弹出的窗口中选择 student_attendance_stats 表。步骤4字段选择与属性配置选择后自动加载表信息。本实验主要分析各类异常考勤特征字段配置如下步骤5运行并查看结果右键点击“数据库加载”控件选择【运行该控件】。运行成功后右键【查看输出结果】。3.1.3 K-Means聚类建模步骤1添加K-Means组件拖拽“K-Means”组件到画布创建从数据库加载组件到K-Means组件的连线。步骤2配置K-Means参数双击K-Means组件在配置窗口中簇数量选择固定为3个其他参数保持默认步骤3运行并查看结果右键运行该控件查看输出结果可以看到每个学生分别被标记了对应的簇类C1/C2/C3。3.1.4 结果输出与保存步骤1添加数据入库组件拖拽“数据入库”组件到画布创建K-Means组件到数据入库组件的连线。步骤2配置入库参数双击数据入库组件填写团队私有数据库连接信息点击【获取表信息】。步骤3新建目标表在弹出的窗口中选择“新建数据表”表名称修改为 student_cluster点击【确定】。步骤4执行工作流点击运行各控件均运行成功则工作流执行完成。3.2 分析聚类簇编号对应的考勤群体分类上一步骤输出的聚类簇编号无法直接确定对应的考勤群体分类需要通过助睿BI可视化分析来解读。点击实验平台左边菜单【助睿BI】进入可视化分析平台。3.2.1 连接数据源步骤1新建数据源连接点击左边菜单【数据源】→ 左上角【】→【新建连接】→【MySQL】。步骤2配置连接信息输入团队私有数据库的连接信息点击【测试连接】显示“测试连接成功”后点击【确认】。步骤3验证数据表点击新建的数据库目录可以看到 student_cluster 表右键可预览数据。3.2.2 构建数据集步骤1新建数据集点击左边菜单【数据集】→ 左上角【】→【新建数据集】。输入数据集名称如“聚类簇编号数据集”、选择所属分组点击【确认】。步骤2选择数据源数据集创建成功后自动跳转到配置页面。选择数据源为刚才创建的MySQL连接目录选择 labs。步骤3拖拽数据表将 student_cluster 表拖拽至画布中。步骤4修改字段备注将字段备注修改为中文便于识别步骤5保存并发布点击画布左上角【保存】在提示中选择【保存并发布】。只有发布后的数据集才能在工作表中引用。3.2.3 制作工作表工作表是助睿BI平台中用于承载可视化图表、完成数据探索与分析的核心单元。3.2.3.1 创建分组点击左边菜单【工作表】→ 左上角【】→【新建分组】创建“聚类簇考勤画像分析”分组。3.2.3.2 制作迟到与早退次数组间分析步骤1新建工作表右键分组名称选择【新建工作表】命名为“迟到早退次数的聚类簇分析”。步骤2选择数据集在数据集选择框中选择刚刚创建的“聚类簇编号数据集”。步骤3配置图表图表类型选择“探索器”X轴late_count迟到次数Y轴early_leave_count早退次数步骤4设置颜色分组点击图形设置按钮在颜色区域点击【】选择“Cluster聚类簇编号”。步骤5设置信息标签点击信息区域【】选择“student_id学生ID”并将student_id设置为“维度”。步骤6调整显示限额系统默认限额2000条数据将限额设置为100%以确保显示全部数据。步骤7设置配色方案点击颜色区域的设置按钮选择对比强烈的主题。步骤8保存工作表点击保存按钮保存并发布工作表。3.2.3.3 制作其他组合分析工作表按照相同步骤依次制作以下工作表3.2.4 搭建仪表盘为了便于综合分析将制作的6个工作表集中展示在一个仪表盘中。步骤1新建仪表盘点击左边菜单【仪表盘】→ 左上角【】→【新建仪表盘】输入名称“聚类簇分析”。步骤2添加标题文本在右侧组件区域拖拽一个“文本”组件到画布输入“聚类簇分析”设置字体颜色、大小、加粗、居中。步骤3调整组件布局鼠标移至组件右下角可拖动调整大小点击右上角图钉图标可固定位置。步骤4添加工作表组件切换到【工作表】标签将3.2.3节制作的6个工作表拖拽至画布中。步骤5调整仪表盘布局按住图表顶部中间位置可拖动使用鼠标调整图表大小和布局达到预期效果。步骤6保存仪表盘点击保存按钮保存并发布仪表盘。3.2.5 聚类群体画像解读结合6组两两指标散点图的分布特征为C1、C2、C3三类聚类簇赋予清晰的业务含义各群体详细解读C1蓝色自律模范型在迟到、早退、请假、校服违规次数的所有组合中数据点高度集中在低频次区间无明显离群值。这类学生出勤稳定、纪律意识强是校园考勤行为的正面典型。C2青色轻微波动型整体数据点同样集中在低频次区间但相比C1分布略散少量记录存在轻微的校服违规或请假行为迟到、早退次数始终保持低位。这类学生整体纪律可控属于需要日常提醒的群体。C3黄色纪律高危型数据点呈现明显的“离群特征”在迟到次数与其他指标的组合图中出现了大量高频迟到记录且伴随不同程度的早退、请假或校服违规行为是唯一存在多维度叠加违纪的群体需要重点关注和干预。3.3 将映射结果加入学生考勤主题标签表需要将聚类群体分类数据回写到上一实验输出的 student_attendance_stats 表中。3.3.1 新增扩展字段student_attendance_stats 表中没有考勤群体分类字段需要先增加两个字段操作步骤进入数据集成平台在上一实验创建的项目中新建转换流“增加考勤主题扩展标签字段”拖拽“执行一个SQL脚本”组件。配置SQL脚本ALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT 聚类簇编号,ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT 考勤群体分类;执行转换流。3.3.2 聚类簇编号数据获取新建转换流“增加考勤群体分类标签”拖拽“表输入”组件从团队私有数据库获取 student_cluster 表的所有数据。3.3.3 字段选择添加“字段选择”组件只保留 student_id、Cluster 两个字段。为确保数据类型一致在【元数据】选项中将 student_id 类型修改为Integer。3.3.4 聚类簇编号映射添加“值映射”组件将聚类簇编号映射为中文群体分类3.3.5 更新学生考勤主题标签表添加“更新”组件配置如下数据库连接团队私有数据库目标模式labs目标表student_attendance_stats更新条件关键字使用 student_id 作为匹配字段更新字段映射3.3.6 运行转换流点击运行按钮执行转换流。3.3.7 查看结果切换至【元数据】选项右键“团队私有数据库”点击【加载元数据】点击【数据探查】进入数据探查页面点击 student_attendance_stats 表选择【查询】标签页可以看到 cluster、attendance_group 字段已成功更新。4 实验结果4.1 聚类模型结果4.2 最终学生考勤主题标签表student_attendance_stats 表现在包含完整的考勤统计与聚类画像字段5 核心组件说明5.1 AI Studio组件5.2 助睿BI组件5.3 数据集成组件6 常见问题与解决问题1K-Means聚类结果无法直接解读现象K-Means输出的聚类簇编号为C1、C2、C3无法直接对应具体的考勤群体类型。解决方法通过助睿BI制作6组两两指标散点图观察各聚类簇在不同指标组合下的分布特征结合业务经验为每个簇赋予明确的业务含义自律模范型、轻微波动型、纪律高危型。问题2数据类型不一致导致更新失败现象执行更新组件时student_id 字段类型不匹配导致更新操作失败。原因聚类结果表中的 student_id 为String类型而目标表中的 student_id 为Integer类型。解决方法在“字段选择”组件的【元数据】选项中将 student_id 的类型修改为Integer确保类型一致。问题3仪表盘图表数据显示不全现象仪表盘中部分图表只显示了部分数据点。原因系统默认限额为2000条数据当数据量超过2000时会被截断。解决方法在工作表设置中将显示限额设置为100%。7 实验总结本次实验完成了以下工作7.1 技术能力提升AI Studio建模能力掌握了从数据加载、K-Means聚类到结果入库的零代码机器学习全流程操作助睿BI可视化分析能力学会了数据源连接、数据集构建、工作表制作、仪表盘搭建的可视化分析全流程ETL数据回写能力掌握了通过字段选择、值映射、更新等组件完成聚类标签回写至原始表的操作。7.2 业务价值实现考勤群体自动划分基于迟到、早退、请假、校服违规四个核心指标利用K-Means算法完成学生考勤行为的自动分群可解释的画像构建通过多维度可视化分析为机器生成的聚类簇赋予明确的业务含义形成三类可解释的考勤画像自律模范型全维度异常次数极低轻微波动型偶发轻微违规整体可控纪律高危型多维度违纪叠加需重点关注数据资产沉淀将聚类结果回写至学生考勤主题标签表完成考勤主题扩展标签构建为后续精准管理、行为干预提供数据支撑。7.3 平台优势总结相比传统编写Python代码进行聚类分析的方式助睿平台提供了完整的零代码解决方案本实验为后续更复杂的机器学习场景如分类预测、时序分析、异常检测等奠定了良好的基础。附录K-Means聚类参数配置详情见3.1.3节值映射配置详情见3.3.4节更新组件配置详情见3.3.5节