当前位置：首页 > news >正文

周总结报告6

news 2026/6/24 10:02:51

一、本周进展回顾
（一）时间投入
本周总学习时长 30 小时，分配如下：

大数据技术：14 小时（Spark、Flink）
Java Web：8 小时（WebSocket 模块优化、系统安全加固）
Python：6 小时（用户行为数据聚类、结果可视化）
问题解决：2 小时（Spark 任务资源分配、Flink 作业延迟）
（二）学习与实践内容
大数据技术
Spark：搭建 Spark 集群，学习 RDD 的概念、创建与转换操作，实践使用 Spark Core 进行数据处理；学习 Spark SQL，将 DataFrame 与 RDD 结合，进行结构化数据查询与分析；尝试编写 Spark Streaming 程序，处理实时数据流。
Flink：安装部署 Flink 集群，了解 Flink 的架构与核心组件；编写简单的 Flink 作业，实现数据的实时处理与计算；对比 Spark Streaming，体会 Flink 在低延迟、 Exactly-Once 语义等方面的优势。
Java Web
对 WebSocket 模块进行优化，实现消息按类型过滤，只有符合用户订阅条件的日志消息才会推送到前端；添加历史消息存储功能，将一定时间范围内的消息保存到数据库，方便用户回溯查看；进行系统安全加固，修复了几个 SQL 注入和 XSS 漏洞，增强了应用的安全性。
Python
使用 K-means 算法对清洗后的用户行为数据进行聚类分析，根据用户的访问频率、操作类型等特征将用户分为不同群体；利用 Matplotlib 和 Seaborn 对聚类结果进行可视化展示，生成直观的图表（如雷达图、柱状图），清晰呈现不同用户群体的行为特点。
二、下周计划安排
大数据方向：深入学习 Spark 和 Flink 的高级特性，如 Spark 的调优、Flink 的状态管理等；尝试将 Spark 和 Flink 应用到实际的大数据处理场景中，解决更复杂的数据处理问题。
Java Web 与 Python：对 Java Web 系统进行全面的测试与优化，确保系统稳定高效运行；结合聚类分析结果，用 Python 开发个性化推荐功能，集成到 Java Web 应用中。
三、本周遇到的问题
技术难题：Spark 任务在处理大规模数据时，资源分配不合理导致任务执行缓慢，通过调整 Executor 内存和 CPU 核心数解决；Flink 作业存在一定的延迟，优化作业的并行度和算子链后延迟降低。
学习反思：在应用 Spark 和 Flink 解决实际问题时，发现自己对技术的掌握还不够熟练，需要更多的实践来加深理解和运用能力。