什么是SparkSQL

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。

我们知hive将 SQL转换成MapReduce,然后提交到集群上执行的,大大简化了编写MapReduce程序的复杂性,类似hive, Spark SQL将SQL转换成RDD,然后提交到集群上执行,执行效率非常快。

标签: sql、转换成、spark、mapreduce、sparksql、面试
  • 回复
隐藏