mapreduce中map阶段的主要流程是什么?
一、mapreduce中map阶段的主要流程

1.首先进行一系列的逻辑操作
map方法首先进行一系列的逻辑操作,执行完成后最后进行写操作。map方法如果直接写给reduce的话,相当于直接操作磁盘,太多的IO操作,使得效率太低,所以在map和reduce中间还有一个shuffle操作。
2. 通过outputCollector向环形缓冲区写入数据
map处理完成相关的逻辑操作之后,首先通过outputCollector向环形缓冲区写入数据,环形缓冲区主要两部分,一部分写入文件的元数据信息,另一部分写入文件的真实内容。
3. 进行反向溢写
环形缓冲区的默认大小是100M,当缓冲的容量达到默认大小的80%时,进行反向溢写。在溢写之前会将缓冲区的数据按照指定的分区规则进行分区和排序,之所以反向溢写是因为这样就可以边接收数据边往磁盘溢写数据。在分区和排序之后,溢写到磁盘,可能发生多次溢写,溢写到多个文件,对所有溢写到磁盘的文件进行归并排序,在9到10步之间还可以有一个Combine合并操作,意义是对每个MapTask的输出进行局部汇总,以减少网络传输量。
延伸阅读:
二、MapTask各阶段
整个MapTask分为Read阶段,Map阶段,Collect阶段,溢写(spill)阶段和combine阶段。
Read阶段
MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value
Map阶段
该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value
Collect收集阶段
在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中
Spill阶段
即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。
以上就是关于mapreduce中map阶段的内容希望对大家有帮助。
相关推荐HOT
更多>>
栈和队列是操作受限线性表,操作限制降低了操作灵活性,为什么要加入这些限制?
一、栈和队列加入操作限制的原因栈和队列是操作受限线性表,所谓”操作受限”是指只能按照某种固定的规律进行插入和删除操作,无法随意地对其中...详情>>
2023-10-11 22:33:31
ASPICE1级和2级到底具体的区别是什么?
一、ASPICE1级和2级到底具体的区别Level 1意思是实施的过程,仅仅是实施了相关的过程,即可以展示一些WP以说明相关的活动已进行并有了相关的输...详情>>
2023-10-11 21:25:45
主席树和可持久化线段树有什么区别?
一、主席树和可持久化线段树主席树和可持久化线段树没有区别。主席树学名为可持久化线段树,可以用来解决线段树存储历史状态的问题。我们在进行...详情>>
2023-10-11 20:19:10
什么是结构化数据非结构化数据半结构化数据?
一、结构化数据、非结构化数据、半结构化数据结构化数据结构化的数据一般是指可以使用关系型数据库表示和存储,可以用二维表来逻辑表达实现的数...详情>>
2023-10-11 19:24:17热门推荐
为什么给定节点个数的二叉树个数为卡特兰数?
沸栈和队列是操作受限线性表,操作限制降低了操作灵活性,为什么要加入这些限制?
热数据结构sqlist和seqlist有什么区别?
热ASPICE1级和2级到底具体的区别是什么?
新数据结构与算法有哪些内容?
主席树和可持久化线段树有什么区别?
链表(linkedlist)这一数据结构具体有哪些实际应用?
什么是结构化数据非结构化数据半结构化数据?
OracleJDK 和 OpenJDK有哪些区别?
linux和windows的区别?
ldo和dcdc的区别?
thymeleaf和jsp的区别是什么?
计算机算法和语言有哪些区别?
JAVA的io流和nio有什么区别?
技术干货
京公网安备 11010802030320号