当前位置: 首页 > news >正文

2025.12.9总结

今天把大数据的作业写完。

  1. 基础层 (实验1-2): 环境与存储 技能获取: 熟练使用 Linux ShellHadoop HDFS Shell 进行系统与分布式文件管理。 核心认知: 理解分布式文件系统(HDFS)的核心思想——数据分块、多副本存储,并掌握其基础API操作。这是所有大数据计算的基石。
  2. 存储层 (实验3-4): 多样化数据库 HBase: 掌握了 NoSQL列式数据库 的核心理念(面向列、稀疏、多版本)。学会了通过Shell和Java API进行表管理、数据CRUD和扫描操作。理解了其与HDFS的紧密集成(HBase数据最终存于HDFS)。 数据库比较: 通过对比MySQL(关系型)HBase(列式)Redis(键值/内存)MongoDB(文档),深刻理解了 CAP理论 在实际系统中的应用,以及根据场景(事务、缓存、灵活模式、海量存储)选择合适数据库的能力。
  3. 计算层 (实验5, 7): 批处理与内存计算 MapReduce (实验5): 掌握了经典的批处理编程范式。通过“合并去重”、“排序”、“关系挖掘”三个案例,深入理解了 MapReduce 两个阶段如何分工协作,处理大规模数据集。这是理解分布式计算思想的敲门砖。 Spark (实验7): 体验了基于内存的迭代计算和DAG执行引擎带来的性能飞跃。学会了使用RDD的转换/行动操作(如 distinct, groupByKey, mapValues)更优雅、高效地解决“数据去重”、“求平均值”等问题。理解了Spark相对于MapReduce在开发效率和运行速度上的优势。
  4. 分析层 (实验6): 数据仓库与SQL-on-Hadoop Hive: 掌握了如何将结构化数据映射到HDFS上,并使用熟悉的 HiveQL 进行数据分析。理解了内部表/外部表分区表 的概念与用途。学会了通过Hive将复杂的MapReduce程序(如实验5的关联查询)转化为简洁的SQL语句,极大提升了数据查询和统计分析的效率。

二、 关键技能提升

  1. 环境搭建与故障排查能力: 在Linux上成功部署Hadoop、HBase、Hive、Spark等复杂集群组件,并解决其中遇到的各类环境、配置、依赖问题,这是大数据工程师的必备生存技能。
  2. 多模式编程能力: 从Shell命令Java API 编程,再到 SQLScala/Java API,你实践了与大数据系统交互的多种方式,能够根据任务需求选择最高效的工具。
  3. 从问题到分布式解决方案的思维转换: 这是最重要的收获。你不再只考虑单机程序的逻辑,而是学会了如何将一个大任务(如排序、关联)分解成多个可以并行执行的子任务(Map),再合并结果(Reduce),并思考数据如何分布、移动。
http://www.gsyq.cn/news/80095.html

相关文章:

  • 2025 最新桥梁防腐涂料厂家 TOP5 评测!环保高性能 + 技术创新权威榜单发布,守护基础设施安全与耐久 - 全局中转站
  • 12/9
  • Nginx日志切割
  • 6502 算术逻辑单元(ALU)
  • make出错立即终止
  • Testing Reprised之关于基米
  • OTOFIX IM2 1-Year Update Subscription: Ensure Latest Vehicle Diagnostics for European/American Cars
  • 2025最新水洗石抗污剂厂家TOP5评测!环保性能与抗污效果品牌双权威榜单发布,技术赋能重构景观防护生态 - 全局中转站
  • 我的 OI 生涯(更新中)
  • 为AI时代蓄力:除了几大热门,还有哪些值得关注的少儿编程选择? - 品牌测评鉴赏家
  • diff的安装与使用
  • 【树莓派】搭建树莓派的交叉编译环境
  • 少儿编程:培养未来小极客,这些好处和机构家长必须知道! - 品牌测评鉴赏家
  • QT CMake项目中spdlog编译优化实战:从30秒到毫秒级的构建优化
  • 7-16岁少儿编程课精选推荐:从启蒙到竞赛的系统路径 - 品牌测评鉴赏家
  • 权威盘点:2025年中国智能舆情监控系统市场深度解析
  • ABC352D 题解
  • 12月9号
  • CF1407D 题解
  • MySQL 筛选条件放 ON 后 vs 放 WHERE 后
  • 明天不干是小狗
  • 2025 年面膜消费指南:告别盲目囤货,10款补水保湿抗老修护爆款适配干油敏肌,精准解决护肤痛点 - 资讯焦点
  • P4064 [JXOI2017] 加法 题解
  • 北京SAT辅导机构选课指南:高分攻略与机构测评(2025最新) - 品牌测评鉴赏家
  • 第四次作业-何玮鑫
  • 【树莓派】【v4l2】在树莓派环境下取流-编码-存储
  • P4105 [HEOI2014] 南园满地堆轻絮 题解
  • [ABC241D] Sequence Query 题解
  • Prometheus + Grafana 原理和用法
  • 2025年市场技术好的不锈钢热轧板生产厂家怎么选择,304不锈钢冷热轧板材/316L不锈钢冷热轧板材定制加工有哪些 - 品牌推荐师