spark中groupByKey 、aggregateByKey、reduceByKey 有什么区别?使用上需要注意什么?

(1)groupByKey()是对RDD中的所有数据做shuffle,根据不同的Key映射到不同的partition中再进行aggregate。

(2)aggregateByKey()是先对每个partition中的数据根据不同的Key进行aggregate,然后将结果进行shuffle,完成各个partition之间的aggregate。因此,和groupByKey()相比,运算量小了很多。

 (3)  distinct()也是对RDD中的所有数据做shuffle进行aggregate后再去重。

(4)reduceByKey()也是先在单台机器中计算,再将结果进行shuffle,减小运算量


Hi:
更多面试题==>点我 (很全哦)
精选文章==>点我(读读业界应用博客,面试能加分哦)
编程也能挣钱==>点我
标签: aggregate、shuffle、groupbykey、partition、aggregatebykey
欢迎观看一个全栈工程师的视频,全屏体验更好^_^
笔试题


刷题


简历模板


AI算法


大数据


内推


推荐阅读:
阿里巴巴笔试面试大全
腾讯笔试面试大全
百度笔试面试大全
今日头条笔试面试大全
网易笔试面试大全
Google笔试面试大全
更多笔试面试大全