Spark SQL有哪些功能?

(1)集成性好

无缝地将SQL查询与Spark程序混合。 Spark SQL允许您将结构化数据作为Spark中的分布式数据集(RDD)进行查询,在Python,Scala和Java中集成了API。这种紧密的集成使得可以轻松地运行SQL查询以及复杂的分析算法。

(2)统一数据访问

加载和查询来自各种来源的数据。 Schema-RDDs提供了一个有效处理结构化数据的单一接口,包括Apache Hive表、JSON文件等。

(3)与hive兼容性

在现有仓库上运行未修改的hive查询。Spark SQL重用了hive前端和MetaStore,只需将其与Hive一起安装即可。

(4)标准连接

通过JDBC或ODBC连接。 Spark SQL包括具有行业标准JDBC和ODBC连接的服务器模式。

(5)可扩展性

对于交互式查询和长查询使用相同的引擎。 Spark SQL利用RDD模型来支持中查询容错,使其能够扩展到大型作业。不要担心为历史数据使用不同的引擎。

标签: spark、hive、sql、odbc、查询、面试
  • 回复
隐藏