查看Spark 学习笔记的源代码
←
Spark 学习笔记
跳转到:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您刚才请求的操作只有这个用户组中的用户才能使用:
用户
您可以查看并复制此页面的源代码:
=== 持久化 === 调用 `persist() or cache()` 来使得某个 RDD 『持久化』,第一次计算之后,将会保存在节点上,避免重复计算,并且还能容灾(高级?需要了解下),如果丢失了,还能从原来的结果重新 transform 达到。 持久化的级别,基本按照从内存到磁盘,从 Java 对象到其他序列化机制,从不复制到复制的顺序:MEMORY_ONLY、MEMORY_AND_DISK、MEMORY_ONLY_SER、MEMORY_AND_DISK_SER、DISK_ONLY etc 选择的原则是遵循空间和 CPU ,前者是内存大小,尽量避免磁盘 IO,后者是序列化的 CPU 消耗。 OFF_HEAP 模式提供JVM 堆外存储,保存在 http://tachyon-project.org/,目前还是 experimental,好处不用多说:允许 executors 共享,减少 GC 开销以及容灾。 Spark 会按照 LRU 原则淘汰老的持久数据,对于要重用的 RDD,都推荐你 persist。
返回到
Spark 学习笔记
。
个人工具
登录
名字空间
页面
讨论
变换
查看
阅读
查看源代码
查看历史
操作
搜索
导航
首页
社区专页
新闻动态
最近更改
随机页面
帮助
工具箱
链入页面
相关更改
特殊页面