我有两个MapReduce作业,第一个Reduce er的输出是第二个Mapper的输入:
Map1 -> Reduce1 -> Map2 -> Reduce2
目前Map2
从Reduce1
输出的文件中读取。所以Map1-
它的工作原理,但它会更容易,我认为更优化,如果减少1的输出是直接的Map2的输入。
有办法做到这一点吗?在这种情况下Map2
只是一个身份映射器,所以如果我能做到这一点会更好:
Map1 -> Reduce1 -> Reduce2
Reduce1、Map2和Reduce e2具有相同的输入和输出类型。
谢谢!
根据我的理解,我可以告诉你(可能有帮助,也可能没有帮助,如果我错了,请纠正我):
1)地图1-
2)如果你想要像减速机1这样的东西-
3)在Hadoop中,协议只有这样:map——
希望这有助于:)