查看Spark 学习笔记的源代码

=== 持久化 ===

调用 `persist() or cache()` 来使得某个 RDD 『持久化』，第一次计算之后，将会保存在节点上，避免重复计算，并且还能容灾（高级？需要了解下），如果丢失了，还能从原来的结果重新 transform 达到。

持久化的级别，基本按照从内存到磁盘，从 Java 对象到其他序列化机制，从不复制到复制的顺序：MEMORY_ONLY、MEMORY_AND_DISK、MEMORY_ONLY_SER、MEMORY_AND_DISK_SER、DISK_ONLY etc

选择的原则是遵循空间和 CPU ，前者是内存大小，尽量避免磁盘 IO，后者是序列化的 CPU 消耗。

OFF_HEAP 模式提供JVM 堆外存储，保存在 http://tachyon-project.org/，目前还是 experimental，好处不用多说：允许 executors 共享，减少 GC 开销以及容灾。

Spark 会按照 LRU 原则淘汰老的持久数据，对于要重用的 RDD，都推荐你 persist。