当前位置: 首页 > news >正文

周总结报告6

一、本周进展回顾
(一)时间投入
本周总学习时长 30 小时,分配如下:

大数据技术:14 小时(Spark、Flink)
Java Web:8 小时(WebSocket 模块优化、系统安全加固)
Python:6 小时(用户行为数据聚类、结果可视化)
问题解决:2 小时(Spark 任务资源分配、Flink 作业延迟)
(二)学习与实践内容
大数据技术
Spark:搭建 Spark 集群,学习 RDD 的概念、创建与转换操作,实践使用 Spark Core 进行数据处理;学习 Spark SQL,将 DataFrame 与 RDD 结合,进行结构化数据查询与分析;尝试编写 Spark Streaming 程序,处理实时数据流。
Flink:安装部署 Flink 集群,了解 Flink 的架构与核心组件;编写简单的 Flink 作业,实现数据的实时处理与计算;对比 Spark Streaming,体会 Flink 在低延迟、 Exactly-Once 语义等方面的优势。
Java Web
对 WebSocket 模块进行优化,实现消息按类型过滤,只有符合用户订阅条件的日志消息才会推送到前端;添加历史消息存储功能,将一定时间范围内的消息保存到数据库,方便用户回溯查看;进行系统安全加固,修复了几个 SQL 注入和 XSS 漏洞,增强了应用的安全性。
Python
使用 K-means 算法对清洗后的用户行为数据进行聚类分析,根据用户的访问频率、操作类型等特征将用户分为不同群体;利用 Matplotlib 和 Seaborn 对聚类结果进行可视化展示,生成直观的图表(如雷达图、柱状图),清晰呈现不同用户群体的行为特点。
二、下周计划安排
大数据方向:深入学习 Spark 和 Flink 的高级特性,如 Spark 的调优、Flink 的状态管理等;尝试将 Spark 和 Flink 应用到实际的大数据处理场景中,解决更复杂的数据处理问题。
Java Web 与 Python:对 Java Web 系统进行全面的测试与优化,确保系统稳定高效运行;结合聚类分析结果,用 Python 开发个性化推荐功能,集成到 Java Web 应用中。
三、本周遇到的问题
技术难题:Spark 任务在处理大规模数据时,资源分配不合理导致任务执行缓慢,通过调整 Executor 内存和 CPU 核心数解决;Flink 作业存在一定的延迟,优化作业的并行度和算子链后延迟降低。
学习反思:在应用 Spark 和 Flink 解决实际问题时,发现自己对技术的掌握还不够熟练,需要更多的实践来加深理解和运用能力。

http://www.gsyq.cn/news/679.html

相关文章:

  • ubuntu22.04安装cuda11.8+python3.12+pytorch2.6.0
  • 自己改造的一个ES的Reindex开源工具
  • CF1379
  • 备战软考4
  • P11364 [NOIP2024] 树上查询
  • pb9新建“项目”选项卡中文说明
  • 场论笔记(一)哈密顿算子的总结
  • PDF处理控件Aspose.PDF教程:使用 Python 将 PDF 转换为 Base64
  • IronOCR 2025.9 重磅发布:内存优化突破,TIFF文档处理内存占用可降低98%!
  • 81、核对两个表格或者核对两个表格中的其中一例数据
  • Linux内核空间与用户空间详解
  • Stable Diffusion 入门:不用本地部署也能轻松上手体验
  • 我的linux之路
  • 前端-支付宝小游戏开发接入指南
  • 打折代码
  • pb9对象中文说明
  • AIGEO重塑商业新规则
  • MySQL常见存储引擎
  • 【URP】UnityHLSL顶点片元语义详解
  • 跨网文件交换系统案例分享:金融、半导体制造、医院统统都有!
  • 尚硅谷后台管理系统
  • 第二届人工智能与自然语言处理国际学术会议(AINLP 2025)
  • 80、颜色求和
  • 纷享销客重磅亮相SCEE2025西南渠道生态峰会
  • 供应商图纸协同怎么做?安全与效率并行的实践方案!
  • 综述-human parsing
  • rust适合写哪些程序 - ukyo-
  • leecode矩阵
  • MX WEEK3
  • GeoServer 远程代码执行漏洞 CVE-2024-36401