提问者:小点点

检查点在Apache Spark上做什么?


检查点对Apache Spark有什么作用,它是否对RAM或CPU有任何影响?


共1个答案

匿名用户

来自Apache流文档——希望有所帮助:

流式应用程序必须全天候运行,因此必须能够抵御与应用程序逻辑无关的故障(例如,系统故障、JVM崩溃等)。为了实现这一点,Spark Streaming需要检查容错存储系统的足够信息,以便从故障中恢复。有两种类型的数据被检查点。

  • 元数据检查点-将定义流计算的信息保存到容错存储(如HDFS)。这用于从运行流应用程序驱动程序的节点的故障中恢复(稍后将详细讨论)。元数据包括:<ul>
  • 配置-用于创建流应用程序的配置
  • DStream操作-定义流应用程序的一组DStream
  • 不完整批次
  • 作业已排队但尚未完成的批次

总而言之,元数据检查点主要用于从驱动程序故障中恢复,而如果使用有状态转换,即使是基本功能也需要数据或RDD检查点。

相关问题