当前位置: 首页 > news >正文

【无标题】学生用户画像—考勤主题扩建标签构建

一、实验说明

1.1实验目的

基于已完成的学生考勤主题标签表(student_attendance_stats),使用K-Means聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。

1.2实验环境

  • 工具:数据集成平台(助睿ETL)、人工智能平台(AI Studio)、助睿BI可视化探索平台
  • 数据库MySQL(团队私有数据库)
  • 前置数据:学生考勤主题标签表sudent_attendance_stats

二、实验数据与建模思路

2.1数据构成

使用上一实验输出的student_attendance_stats表,包含学生基础信息与考勤次数统计结果,为聚类建模提供干净、标准化的特征数据。

2.2核心字段

字段名

说明

类型

student_id

学生ID

连续(整数)

late_count

迟到次数

连续(整数)

early_leave_count

早退次数

连续(整数)

leave_count

请假次数

连续(整数)

uniform_violate_count

没穿校服次数

连续(整数)

2.3建模思路

聚焦迟到、早退、请假、校服违规四项核心指标,均为非负整数连续变量,无需哑变量编码;学生离散属性仅用于后续画像解读,不参与聚类,以保证模型稳定可解释。

三、实验步骤(聚类建模+可视化分析+标签回写)

3.1 AI Studio聚类建模

进入实验平台左侧菜单人工智能” → AI Studio

3.1.1新建工作流

点击“+” → “新建工作流,命名为学生考勤聚类分析

3.1.2数据导入

拖拽数据库加载组件,配置团队私有数据库连接,选择表student_attendance_stats。仅保留字段:student_id, class_id, late_count, early_leave_count, leave_count, uniform_violate_count,其余字段跳过(skip)[reference:0]

3.1.3 K-Means聚类建模

拖拽“K-Means”组件并与数据库加载组件连接。设置簇数量= 3,其他默认。运行后每个学生获得簇标签C1/C2/C3[reference:1]

3.1.4 结果输出与保存

拖拽数据入库组件,新建表student_cluster,将聚类结果写入数据库。[reference:2]

3.2 分析聚类簇编号对应的考勤群体分类(助睿BI可视化)

3.2.1连接数据源

点击助睿BI”进入平台,在数据源中新建MySQL连接,输入团队私有数据库信息,测试连接成功。

3.2.2构建数据集

新建数据集聚类簇编号数据集,基于student_cluster表,将字段备注改为中文(学生ID、迟到次数、聚类簇编号等)。[reference:4]

3.2.3 制作工作表(6组散点图)

共制作6张工作表,以迟到vs早退为例:Xlate_countYearly_leave_count,颜色依据Cluster分组,信息点显示student_id

3.2.4搭建仪表盘

新建仪表盘聚类簇分析,添加文本标题,并将6张工作表拖入画布,调整布局后保存发布。[reference:6]

3.2.5 聚类群体画像解读

基于散点图分布特征,得出业务含义:[reference:7]

簇编号

颜色

群体分类

核心特征

C1

蓝色

自律模范型

全维度异常次数极低,出勤稳定,纪律意识强

C2

青色

轻微波动型

偶发校服违规或请假,整体纪律可控

C3

黄色

纪律高危型

高频违纪行为叠加,存在极端离群记录

3.3将映射结果加入学生考勤主题标签表

3.3.1新增扩展字段

ETL项目中新建转换流增加考勤主题扩展标签字段,执行SQL添加clusterattendance_group字段。[reference:8]

3.3.2聚类簇编号数据获取

新建转换流增加考勤群体分类标签,用表输入读取student_cluster表(student_id, Cluster)。[reference:9]

3.3.3字段选择

使用字段选择组件仅保留student_idCluster,并将student_id类型转为Integer[reference:10]

3.3.4聚类簇编号映射(值映射)

添加值映射组件:源字段Cluster →目标字段attendance_group,映射:C1→轻微波动型, C2→自律模范型, C3→纪律高危型。[reference:11]

3.3.5更新学生考勤主题标签表

使用更新组件,目标表student_attendance_stats,查询关键字student_id,更新字段Cluster→cluster, attendance_group→attendance_group[reference:12]

3.3.6运行转换流

3.3.7查看结果

在元数据中预览student_attendance_stats表,确认clusterattendance_group字段已填充。[reference:13]

四、纪律高危型学生专题画像分析(可视化深入探索)

4.1实验目的

基于已完成K-Means聚类并标注考勤群体的学生考勤主题标签表,本实验聚焦纪律高危型群体,分析其行为特征。相比其他群体,该群体存在高频违纪、多维度异常叠加等行为特征,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,为精准干预和重点整治提供数据支撑,助力校园精细化管理。[reference:14]

4.2数据准备与数据集构建

基于student_attendance_stats表构建数据集学生考勤主题数据集(字段备注已在建表时配置,无需修改)。[reference:15]

4.3制作专题分析工作表

4.3.1整体概况指标卡

分别制作纪律高危型总人数”“纪律高危型男生人数”“纪律高危型女生人数”“高危型未知性别人数指标卡。[reference:16]从整体指标卡可以看到,纪律高危型学生总人数为421人,其中男生45人、女生38人、未知性别338人。高危群体整体规模清晰,其中男生人数多于女生,说明高危群体存在明显的性别分布特点,需要从性别角度进一步深入分析。[reference:17]

4.3.2 纪律高危型学生性别特征分析

制作饼图纪律高危型学生男女人数占比(过滤性别未知数据),并制作全校学生男女人数占比作为对比。[reference:18]

分析发现:全校性别分布中男生占比53.03%,女生占比46.97%;而在纪律高危型群体中,男生占比进一步上升至54.22%,女生占比则下降至45.78%。这表明纪律高危型学生中男生占比偏高,并非由全校性别基数差异导致,而是男生在考勤违纪行为上的真实风险更高。[reference:19]

4.3.3纪律高危型学生年级特征分析

制作柱状图纪律高危型学生年级特征分析[reference:20]从年级分布柱状图可以看出,纪律高危型学生在各年级的分布存在明显差异,其中高三年级的高危学生人数最多,高一和高二年级的高危学生人数相对较少。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关。[reference:21]

4.3.4 校区类型+年级交叉特征分析

制作堆叠柱状图纪律高危型学生校区类型与年级交叉特征分析,并制作不同校区类型各年级学生人数作为基数对比。[reference:22]

分析发现:老校区是高危学生的主要聚集地,各年级高危人数均明显高于新校区,其中高一80人、高二130人、高三261人,高三年级高危人数达到峰值。新校区的高危学生整体规模较小,仅高一10人、高二19人有少量分布,高三年级无高危学生记录。综合来看,老校区,尤其是高三年级,是纪律高危型学生的核心聚集区。[reference:23]

4.3.5纪律高危型学生班级特征分析

制作水平条图纪律高危型学生班级特征分析[reference:24]从班级水平条图可以清晰看到,纪律高危型学生高度集中在少数班级,其中高三09班高危人数最多(38人),其次为高三08班、高三02班等,多数班级高危人数极少,呈现明显的班级聚集性。高危行为与班级管理强度、班风氛围、同伴影响密切相关,少数薄弱班级需要重点整治。[reference:25]

4.4 搭建综合仪表盘

新建仪表盘纪律高危型学生用户画像分析,添加文本标题,并将以上制作的工作表全部拖拽至画布中,调整布局,添加分析结论文本组件,形成完整分析仪表盘。[reference:26]

五、实验总结与分析结论

整体概况

纪律高危型学生存在高频迟到、早退、请假及校服违规行为,多维度违纪叠加,是校园考勤管理中最需重点关注的群体。该群体人数占比虽可控,但行为影响大,易引发不良风气,需专项治理。[reference:27]

📌核心特征

  • 性别特征:男生为高危群体主体,占比显著高于女生,是高危行为的主要发生对象,与男生规则意识薄弱、时间观念不足相关。[reference:28]
  • 年级特征:高度集中于高年级,随年级升高高危学生占比明显上升,高年级学生学业压力大、自主空间广,对考勤纪律重视度下降。[reference:29]
  • 校区特征:高危学生高度集中在老校区,新校区风险较低,与校区通勤条件、管理模式、学风氛围密切相关。[reference:30]
  • 班级特征:存在明显班级聚集性,集中在少数管理薄弱、班风涣散的班级,与班级管理强度、同伴效应直接相关。[reference:31]

💡管理建议

  • 重点关注高年级男生群体:针对性开展考勤纪律教育与时间管理培训,强化规则意识,减少违纪行为发生。[reference:32]
  • 加强老校区高年级管理:针对老校区优化通勤管理、强化考勤监督,营造严谨学风氛围,降低学生违纪风险。[reference:33]
  • 整治高危学生集中班级:加强班主任监管力度,整顿班风,建立班级考勤责任制,阻断不良风气传染。[reference:34]
  • 建立高危学生台账:一对一建档,家校联动,制定个性化矫正方案,跟踪干预效果,防止违纪行为固化。[reference:35]

本次实验基于学生考勤次数数据,通过K-Means聚类算法完成学生考勤群体自动划分,利用次数特征建模保证了聚类结果的稳定性与可解释性。借助助睿BI平台实现可视化分析,为机器生成的聚类簇赋予明确的业务含义,精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表,完成考勤主题扩展标签构建,为校园学生精细化管理、行为干预和个性化教育提供了可靠的数据支撑。[reference:36]

实验人:助睿实验平台|报告日期:2026524
实验环境:Uniplore Data Science Platform (AI Studio + ETL +助睿BI)

http://www.gsyq.cn/news/1373198.html

相关文章:

  • 07-大模型智能体开发工程师:提示词工程(Prompt Engineering)
  • 2025-2026年国内全屋定制品牌推荐:五款口碑评测防变形开裂特点选择指南
  • MNE-Python 第10天学习笔记:结果报告与可视化
  • Windows Cleaner技术架构解析:开源磁盘清理工具的模块化设计与实现
  • 第一阶段:地基——Python 与 API 调用
  • 信号处理实战:SSA-ICA算法在Python中的完整应用,分离单通道EEG脑电信号
  • AI云计算时代:腾讯“搞钱”、阿里“撒币”、百度“登山”
  • 给Llama-3-8B-Instruct加个‘垫片’:手把手教你安全添加Pad Token并微调(附完整代码)
  • 新号别搞:字符+字符串+内存 函数
  • 千年盛世手游官网下载:千年盛世最新官方下载渠道
  • 小学期学习——第二周
  • Java国密SM2证书Unknown curve异常的三步绕过方案
  • SQL注入漏洞进阶篇
  • 医疗AI提示词设计与评估方法详解
  • C51中断服务中的寄存器保护机制与优化实践
  • PostgreSQL 15.7 CDC → Flink → Kafka 操作笔记
  • 机器学习周报四十六
  • 2026最新免费照片去水印App保姆级教程,这四款宝藏工具一看就会!
  • 数据库设计三大范式
  • 边缘存储优化:提升边缘节点的数据存储效率
  • GLM-5.1高速版:400 tokens/s,大模型速度革命
  • 【消息队列】Kafka深度解析:从原理到生产环境实战
  • 分布式Session管理完全指南
  • Spdlog 进阶:日志基本控制、日志格式控制、异步记录器
  • 从黑猩猩内战到人类关系:互动是系统的命脉,遗忘是文明的暗礁
  • Codex CLI高危漏洞CVE-2025-61260深度解析与工程化防御
  • 股市学习心得-技术指标学习(布林线+MACD)
  • 事业单位教育类考试人名考点速记笔记
  • 深度强化学习与控制 课程 第二周 课程总结
  • cann-learning-hub:昇腾CANN社区的学习中心