标签:Spark
转自 https://www.iteblog.com/archives/1907.html 在使用 Spark […]
Livy 是一个基于 Spark 的开源 REST 服务,能够通过 REST 的方式将代码片段或是序列化的二进 […]
通用调优策略 对一些 SparkSQL 任务,可以通过缓存数据、调优参数、增加并行度提升性能。 缓存数据 sq […]
大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节,因为该环节包含了大量的磁盘IO、序列化、 […]
Spark 性能调优 – 数据倾斜 背景知识 绝大多数 task 执行得都非常快,但个别 task […]
在开发完 Spark 作业之后,就该为作业配置合适的资源了。Spark 的资源参数,基本都可以在 spark- […]
原则一:避免创建重复的 RDD 一个 Spark 作业,首先是基于某个数据源创建一个初始的 RDD,接着对这个 […]
Spark 批量计算任务一般从外部存储系统读取输入数据(如 HDFS 或 HBase),Spark 会优先选择 […]