映射器何时将其输出存储到其本地硬盘？ - 一点教程

提问者：小点点

映射器何时将其输出存储到其本地硬盘？

这我知道

Mapper的输出（中间数据）存储在每个单独的mapper数据节点的本地文件系统（不是HDFS）中。这通常是一个临时目录，可以由Hadoop管理员在config中设置。一旦Mapper作业完成或将数据传输到Reducer，这些中间数据就会被清理，不再可访问。

但是，我想知道映射器何时将其输出存储到本地硬盘？是因为数据太大而无法保存在内存中吗？只有正在处理的数据保留在内存中？如果数据很小，整个数据可以放入内存，那么就没有磁盘参与？

我们不能直接移动数据，一旦它在映射器中处理，从映射器到减速器，而不涉及映射器m/c的硬盘。我的意思是，当数据在映射器中处理时，它在内存中，一旦计算出来，它就直接传输到减速器，映射器可以同样地传递下一个数据块，而不涉及磁盘。

在火花中，据说有内存计算，这和上面有什么不同？是什么让火花在内存中计算比地图减少更好？此外，在火花中，如果数据太大，就必须涉及磁盘？

请解释一下

共1个答案

匿名用户

这里有很多问题。我会试着解释每一个。

映射器何时将其输出存储到其本地硬盘？

映射器将数据存储在配置的内存中。当内存满80%时（再次可配置），它会对内存中存在的数据运行组合器以减少数据。但是当组合的数据也超过这个内存限制时，它会溢出到磁盘。这些文件称为溢出文件。在整个操作过程中，会写入多个溢出文件。在写入溢出文件时，映射器会根据还原器对数据进行排序和分区。在映射操作结束时，需要合并这些溢出文件。

我们能不能不直接移动数据，一旦它在映射器中被处理，从映射器到减速机，而不涉及映射器m/c的硬盘。

任何处理中最昂贵的操作是机器之间的“数据搬迁”。地图还原的整个范例是在数据附近进行处理，而不是移动数据。因此，如果按照您建议的方式进行，将会有大量数据移动。与在网络上写入相比，写入本地磁盘更快。可以通过合并溢出文件来减少这些数据。在溢出文件时进行排序，因为合并排序数据更容易（更快）。分区完成，因为您只需要合并相同的分区（数据进入相同的还原器）。在合并过程中，再次运行组合器来减少数据。然后将这些简化的数据发送到简化器。

在Spark中，据说有内存计算，这与上面有什么不同？

在火花和地图减少程序中，你只需从一些数据集中读取，执行一个地图函数和一个减少函数。它将在磁盘中执行与mapduce代码相同的读写。当您需要在同一数据集上运行少数操作时，就会出现差异。在地图减少中，它会为每个操作从磁盘读取，但在火花中，您可以选择使用内存来存储它，在这种情况下，它只会从磁盘读取一次，以后的操作将在内存中存储的数据上运行，这显然要快得多。或者当有操作链时，第一个操作的输出被输入到第二个操作。在MapReduce中，第一个操作的输出将被写入磁盘并在第二个操作中从磁盘读取，而在Spark中，您可以将第一个操作的输出持久化在内存中，以便第二个操作从内存中读取，并且应该更快。

相关问题

角-在可观察
上使用异步管道并将其绑定到html中的局部变量
Angular 2 Auth Gaurd使用ngrx存储选择。我退订吗？

为什么具有顺序一致性的std::atomic存储使用XCHG？

Selenium网络驱动程序在webelement列表中存储webelement

x86上加载和存储的原子性

为什么没有一个主要的编译器优化这个检查值是否已经设置的条件存储？

如何将终端输出转换为超文本标记语言文件格式

将私有Bitbucket存储库导入Github

Azure运营模式多存储库，多分支触发器，选择要从中构建的分支

如何在git存储库中的修订之间获取更改的文件列表？

如何列出添加到GIT存储库第一次提交的所有文件？

Java应用程序依赖于私钥，它们可以存储在GitHub中吗

我可以存储要intantiate的类型列表吗？

找不到AccessLog类型的编码器。需要隐式编码器[AccessLog]将AccessLog实例存储在数据集中

为什么使用案例类在DataFrame上的映射会因“无法找到存储在数据集中的类型的编码器”而失败？

无法找到存储在数据集中的类型的编码器。在火花结构化流中

为什么从Kafka读取流会因“无法找到存储在数据集中的类型的编码器”而失败？

为什么错误"找不到编码器的类型存储在数据集"时编码JSON使用案例类？

无法找到存储在数据集中的类型的编码器。错误，尽管提供了正确的含义[重复]

什么是存储缓冲区？

热门标签

Java JavaScript Python PHP C# Android Html jQuery C++ Css IOS MySQL NodeJS
常见技术问题
Android：在模块jefied-play-ser... HashMap如何跟踪entrySet等字段在Hashmap中查找匹配的键/值对如何迭代Hashmap并与同一Hashmap... HashCode-如果相等的对象碰巧在... Java哈希码和桶大小-关系

常用工具
编程笔记编程面试题 Java Jar包下载在线工具 LayUI镜像站点毕设文档下载

站点信息
关于我们免责声明网站标签

关注站长公众号：锋哥聊编程

锋哥聊编程

Copyright © 2017-2022 一点教程. All Rights Reserved.
备案号：粤ICP备17065202号-3
微信关注