别再写一堆UNION ALL了！用Spark SQL的Grouping Sets一次搞定多维聚合分析-深圳市維司達科技有限公司

用Spark SQL的Grouping Sets重构多维聚合分析：告别UNION ALL的繁琐时代

在数据仓库和BI报表开发中，分析师们经常需要从不同维度对数据进行聚合统计。传统做法是编写多个UNION ALL连接的查询，这不仅使代码冗长难维护，还影响执行效率。今天，我将分享如何用Spark SQL的Grouping Sets功能优雅解决这个问题，并通过底层原理分析为什么它比UNION ALL更高效。

1. 多维聚合的痛点与解决方案

假设你正在分析汽车销售数据，需要同时生成以下四种维度的聚合报表：

按城市和车型统计销量
按城市统计总销量
按车型统计总销量
全局总销量

传统SQL写法是这样的：

(SELECT city, car_model, sum(quantity) AS sum FROM dealer GROUP BY city, car_model) UNION ALL (SELECT city, NULL as car_model, sum(quantity) AS sum FROM dealer GROUP BY city) UNION ALL (SELECT NULL as city, car_model, sum(quantity) AS sum FROM dealer GROUP BY car_model) UNION ALL (SELECT NULL as city, NULL as car_model, sum(quantity) AS sum FROM dealer) ORDER BY city, car_model;

这种写法存在三个明显问题：

代码重复：相同表名和聚合函数重复出现
可读性差：随着维度增加，UNION ALL链会越来越长
性能瓶颈：多次扫描同一张表，计算资源浪费

而用Grouping Sets只需一行：

SELECT city, car_model, sum(quantity) AS sum FROM dealer GROUP BY GROUPING SETS ((city, car_model), (city), (car_model), ()) ORDER BY city, car_model;

2. Grouping Sets核心原理解析

2.1 执行计划对比分析

通过EXPLAIN EXTENDED查看两种写法的执行计划差异：

UNION ALL版本：

== Optimized Logical Plan == Sort +- Union :- Aggregate [city, car_model] -- 第一次聚合 :- Aggregate [city] -- 第二次聚合 :- Aggregate [car_model] -- 第三次聚合 +- Aggregate [] -- 第四次聚合

Grouping Sets版本：

== Optimized Logical Plan == Sort +- Aggregate [city, car_model, spark_grouping_id] +- Expand [[city, car_model, 0], [city, null, 1], [null, car_model, 2], [null, null, 3]] +- TableScan

关键差异在于：

UNION ALL需要多次扫描表数据并分别聚合
Grouping Sets通过Expand算子一次性生成所有维度组合，然后单次聚合

2.2 Expand算子工作原理

Expand是Grouping Sets的核心，它通过以下步骤实现维度扩展：

为每行输入数据生成N个副本（N=GROUPING SETS数量）
每个副本对应一个grouping set，用null值填充未包含的维度
添加spark_grouping_id列标识维度组合类型

示例数据转换过程：

原始数据	Expand后数据
(Fremont, Honda, 10)	(Fremont, Honda, 10, 0) → (city,car_model)组
(Fremont, null, 10, 1) → (city)组
(null, Honda, 10, 2) → (car_model)组
(null, null, 10, 3) → 全局组

2.3 聚合阶段处理

经过Expand后，Spark执行聚合时会包含spark_grouping_id作为分组键：

-- 逻辑等价于 SELECT city, car_model, sum(quantity) AS sum FROM expanded_data GROUP BY city, car_model, spark_grouping_id

spark_grouping_id确保了不同维度组合的聚合结果不会混淆，这也是为什么最终结果与UNION ALL完全一致。

3. 性能优势实测对比

在相同数据集上测试两种写法的执行时间（10次平均值）：

执行方式	平均耗时	扫描次数	Shuffle数据量
UNION ALL	0.62s	4	4份聚合结果
Grouping Sets	0.28s	1	1份原始数据

性能优势主要来自：

单次表扫描：避免重复IO
更少的Shuffle：只需对原始数据做一次分发
优化器支持：Spark能对整体执行计划做更好的优化

提示：在维度组合超过3个时，Grouping Sets的性能优势会更加明显

4. 进阶应用：RollUp与Cube

Grouping Sets还有两个语法糖形式，进一步简化常见场景：

4.1 RollUp：层级聚合

-- 等价于 GROUPING SETS((city,car_model),(city),()) SELECT city, car_model, sum(quantity) FROM dealer GROUP BY ROLLUP(city, car_model)

适用于需要按层级上卷的统计分析，如：

省→市→区县销售汇总
年→月→日订单统计

4.2 Cube：全维度组合

-- 等价于 GROUPING SETS((city,car_model),(city),(car_model),()) SELECT city, car_model, sum(quantity) FROM dealer GROUP BY CUBE(city, car_model)

适合需要分析所有维度交叉影响的场景，如AB测试中的多维度效果对比。

5. 实际开发中的最佳实践

5.1 处理NULL值的技巧

当原始数据本身包含NULL时，可能与Grouping Sets生成的NULL混淆。解决方案：

SELECT CASE WHEN GROUPING(city)=1 THEN 'ALL' ELSE city END AS city, CASE WHEN GROUPING(car_model)=1 THEN 'ALL' ELSE car_model END AS car_model, sum(quantity) AS sum FROM dealer GROUP BY GROUPING SETS ((city, car_model), (city), (car_model), ())

GROUPING()函数返回1表示该列是聚合生成的NULL。

5.2 与窗口函数结合

Grouping Sets可以与窗口函数配合实现更复杂的分析：

SELECT city, car_model, sum(quantity) AS sum, sum(sum(quantity)) OVER (PARTITION BY city) AS city_total FROM dealer GROUP BY GROUPING SETS ((city, car_model), (city))

5.3 性能调优参数

对于大数据量场景，可以调整以下参数优化Grouping Sets性能：

-- 增加Expand阶段的并行度 SET spark.sql.shuffle.partitions=200; -- 启用聚合的map端预聚合 SET spark.sql.adaptive.enabled=true; SET spark.sql.adaptive.coalescePartitions.enabled=true;

6. 与其他技术的协同应用

6.1 物化视图加速

对于频繁使用的Grouping Sets查询，可以创建物化视图：

CREATE MATERIALIZED VIEW dealer_summary AS SELECT city, car_model, sum(quantity) AS sum FROM dealer GROUP BY GROUPING SETS ((city, car_model), (city), (car_model), ());

6.2 与DataFrame API集成

在PySpark中同样可以使用Grouping Sets：

from pyspark.sql import functions as F df.groupBy( F.expr("GROUPING SETS ((city, car_model), (city), (car_model), ())") ).agg(F.sum("quantity").alias("sum"))