我正在排查如何对我的数据进行多次排序,而不必每次都通过映射器返回。
我想设置:映射器1--
我想让减速机1输出(键、数据),然后让它直接进入减速机2…这可能吗?
我从故障排除中了解到您可以链接作业,但这需要每个步骤的映射器?
每当我尝试在没有映射器的情况下运行时,它都会以错误结束。如果我可以根据需要从减速器1中输出它,那么为每个步骤运行映射器似乎会浪费时间/资源。
想法?
简而言之,如果您使用的是Java,那么ChainReducer和ChainMapper就是您所需要的。使用这些类,您可以以任何顺序在链中添加任意数量的还原器或映射器。
《Hadoop in Action》一书在第5章中描述了这个过程。