发表在 对数据的科学 ·固定 优化输出文件的大小在Apache火花 全面指导管理分区,重新分区和合并操作——图片自己掌舵的火花数据处理操作。一个经常被提及的经验法则在火花优化话语是最好的I / O性能和增强的并行性,每个数据文件应该徘徊在128 mb的大小,这是阅读时的默认分区大小… 火花 6分钟阅读 火花 6分钟阅读