正如我对Hadoop Map-Reduce作业的了解,映射器输出被写入本地存储而不是HDFS,因为它最终是一次性数据,因此没有必要存储在HDFS中。
但是正如我看到的Sqoop映射器输出文件part-00000
被写入HDFS。所以我的疑问是Hadoop中是否有一些设置来控制映射器输出被写入的位置?并且默认设置为本地存储?
如果没有还原器,则映射器输出被写入HDFS。即使在这种情况下,映射器输出也不直接写入HDFS而是写入单个节点磁盘,然后复制到HDFS。
Sqoop是一种场景,它通常是一个仅映射的作业,您希望从表中并行获取数据,但在任何情况下都不需要减少数据。
查看此链接:身份减速器vs零减速器