我意识到的是,创建一个键排序列表发送到减速器是映射器的主要目标。然后,如果列表非常大,它需要在映射器中分区,以便它可以由减速器处理(我的意思是对于一个唯一的键,值列表是巨大的,那么它需要被分区),但是为什么hadoop需要在映射器中对键进行排序呢?有人问我这个问题,我不能完全说服他。我只是一个初学者,有点好奇。任何帮助都很感激。
排序发生在映射器阶段之后和执行还原器作业之前,您不需要显式执行。
请参考类似的问题