Recent Performance Improvements in Apache Spark: SQL, Python, DataFrame, and More
在过去的一年(2014),spark的性能进行了大幅度的改进。spark创造了100TB排序的一个新的世界纪录,以三倍的速度打败了之前Hadoop MapReduce创造的记录,而且只用了十分之一的资源。然后还有spark拥有了一个新的SQL query engine,另外,很多build-in的算法都提速了五倍之多。
回到2010年,我们设计spark的初衷是为了解决MapReduce等批处理框架不擅长的交互式请求(interactive queries)和迭代算法(iterative algorithms)。现在,越来越多的用户因为spark的在这些方面的性能提升而开始使用spark。然而performance optimization is a never-ending processa。随着spark用户的增长,我们还会找更多可以提升性能的地方。以下就要讲一些已有的性能提升的点了。