当前位置: 首页 > news >正文

MapReduce并行计算框架

MapReduce是一种编程模型,采用主从集群结构,与Hdfs类似,也是由主节点(JobTracker,在hadoop2.0中,由Yarn代替JobTracker的工作)进行任务的调度与分配,从节点(TaskTracker,在hadoop2.0中,由ApplicationMaster代替TaskTracker的工作)进行具体任务的执行,需要注意的一点是,MapReduce和hdfs一样,默认情况下并没有配置高可用,这个可以根据业务情况,基于zookeeper进行配置,另外它本身也具备一定的容错性,这个主要体现在主节点对从节点状态的监控上,当发现某个节点失效了,会进行重启,从而提高了系统的健壮性。

MapReduce主要用来进行大规模数据集的并行运算,它将计算过程抽象为Map和Reduce两个函数,

map函数用于将数据解析为key/value结构,并存于本地目录,reduce函数会将key相同的数据进行业务计算处理,并最终将结果写到hdfs上。

MapTask执行过程:先将输入的数据进行切片,即切成大小相等的数据块,每一个分片会作为单个MapWorker(由开发者自定义业务处理逻辑)的输入被处理,以便于并行工作,在进行对外输出之前,mapReduce框架会按照key值排序,使得key相同的数据彼此相邻,同样也可以调用combiner函数使其聚合

ReduceWorker执行过程:reduce函数接到map函数的输出,会先进行混洗(shuffle)和分组(sort),之后会进入reduce自定义业务逻辑阶段,处理完成后,将数据存储进hdfs。

http://www.gsyq.cn/news/30753.html

相关文章:

  • Wyn 商业智能软件:3D 可视化大屏搭建与设备利用全指南
  • 什么是Java Lambda
  • Java 代理
  • 《算法与数据结构》第七章[算法2]:广度优先搜索(BFS) - 指南
  • 中转API为什么比官方更便宜?AI中转站成本揭秘
  • Java 混合编程
  • Java 语法糖
  • 纸笔群群友命题乱做
  • 本人对KMP如何匹配到所有结果的算法存在一些疑惑...
  • 完整教程:京东100道GO面试题及参考答案(上)
  • Ubuntu 系统 /dev/sdb2(RAID 关联磁盘)挂载操作手册
  • 解决 Windows 下 Claude 通过 cmd/powershell 运行出错失去响应的问题
  • 25.10.25随笔NOIP模拟赛总结
  • 师生健康信息管理高效的系统|基于SpringBoot和Vue的师生健康信息管理系统(源码+数据库+文档)
  • 手势检测(充满科技感) - 实践
  • 2025 年 10 月商用厨房设备,酒店厨房设备,大型厨房设备厂家最新推荐,聚焦高端定制需求与全案交付能力
  • 251026
  • sometime some time sometimes
  • 关于容斥原理
  • 可变字符串
  • 2025 年 10 月展示柜厂家最新推荐,精准检测与稳定性能深度解析!
  • 一些疑问
  • 2025 年 10 月外墙涂料厂家最新推荐,高性能与可靠性兼具的优质品牌
  • 2025 年 10 月外墙涂料厂家最新推荐,聚焦高端定制需求与全案交付能力
  • 深度神经网络 —— 使用RNN循环神经网络进行手写数字识别分类
  • 2025 年 10 月外墙涂料厂家最新推荐,精准检测与稳定性能深度解析
  • 2025年10月遗产继承律师对比榜:五强排名与实测解析
  • 2025年10月中国短视频制作公司排行榜:五强实测推荐
  • php_md5特性
  • 「学习笔记」RCE基础