查看Spark 学习笔记的源代码

=== 来源 ===

两源两类：

* 从内存里的集合

<pre>
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
</pre>

* 从外部存储，可以是本地文件， hdfs 任意格式的文件等：

<pre>
 distFile = sc.textFile("data.txt")
</pre>

无论是集合还是外部存储，都可以接收一个额外参数 partitions，表示分区，spark 为会为数据的每个分区创建一个 task ，因此合理地设置 task 对效率很重要。通常推荐的是每个 CPU 处理 2-4 个分区。

对于外部存储来说，spark 会为文件的每个block(hdfs 默认是 64m)创建一个分区，分区数目不能小于 block 数目。其次，如果是本地文件，要确保本地文件在所有的 worker 同样路径上都存在。

`SparkContext.wholeTextFiles` 可以让你读取某个目录下所有的小的 text 文件，并且按照  (filename, content)  配对返回结果。 

* 读写文件支持：

<pre>
>> rdd = sc.parallelize(range(1, 4)).map(lambda x: (x, "a" * x ))
>>> rdd.saveAsSequenceFile("path/to/file")
>>> sorted(sc.sequenceFile("path/to/file").collect())
[(1, u'a'), (2, u'aa'), (3, u'aaa')]
</pre>

类型转换规则使用这个库 https://github.com/irmen/Pyrolite/，要特别处理数组。