提问者:小点点

Hadoop Streaming和多个简化步骤,每个步骤之间没有映射器


我正在排查如何对我的数据进行多次排序,而不必每次都通过映射器返回。

我想设置:映射器1--

我想让减速机1输出(键、数据),然后让它直接进入减速机2…这可能吗?

我从故障排除中了解到您可以链接作业,但这需要每个步骤的映射器?

每当我尝试在没有映射器的情况下运行时,它都会以错误结束。如果我可以根据需要从减速器1中输出它,那么为每个步骤运行映射器似乎会浪费时间/资源。

想法?


共1个答案

匿名用户

简而言之,如果您使用的是Java,那么ChainReducer和ChainMapper就是您所需要的。使用这些类,您可以以任何顺序在链中添加任意数量的还原器或映射器。

《Hadoop in Action》一书在第5章中描述了这个过程。