我在 DuckDB 中的第一亿条数据（行）-深圳市維司達科技有限公司

2022-10-0209:35:17INFO67305985VOTA Voter was enabled2022-10-0209:43:55INFO67305985VOTA Vote confirmedfor[Federal Deputy]2022-10-0209:48:39INFO67305985VOTA Vote confirmedfor[State Deputy]2022-10-0209:49:10INFO67305985VOTA Vote confirmedfor[Senator]2022-10-0209:49:47INFO67305985VOTA Vote confirmedfor[Governor]2022-10-0209:50:08INFO67305985VOTA Vote confirmedfor[President]2022-10-0209:50:09INFO67305985VOTA The voter's vote was computed# Literal Translations to English# Events that represent a vote

我们的目标是将这些原始信息转化为有关投票时间的统计指标（每个选民投票所需的时间是多少？每分钟计算多少票？），并在不同的粒度层级（国家、州、城市）上实现这一目标，为此我们将创建一个OLAP 立方体，如图所示：

|State|City|Mean Voting Time(seconds)|Max Votes Computedin5Min||---------------|-------------------|----------------------------|-----------------------------||Null|Null|50|260||São Paulo|São Paulo|30|300||São Paulo|Campinas|35|260||São Paulo|Null|20|260||Rio de Janeiro|Rio de Janeiro|25|360||Minas Gerais|Belo Horizonte|40|180||Bahia|Salvador|28|320||Rio Grande...|Porto Alegre|30|300||...|...|...|...|

实现

设置环境

运行此项目所需的仅仅是一个安装了DuckDB 包的 Python 环境。

pip install duckdb

转换数据

在接下来的部分中，我将描述每个转换的目标、DuckDB 如何执行每个转换、优点、挑战、结果和结论。

处理过程分为 4 个步骤：将 TSV 文件转换为 Parquet；过滤和清理；隔离选票及其属性；并计算 OLAP 立方体的指标。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/441568ddc6e145b3636bcef42c853242.png

处理步骤。图片由作者提供。

不幸的是，为了避免使这篇文章过于庞大，我不会详细解释每个转换。但所有代码都可以在GitHub 仓库中找到。

将 TSV 文件转换为 Parquet

对于任何想要处理大量数据的人来说，这是一个简单而不可或缺的步骤。在 DuckDB 中进行此操作非常直接。

首先，创建一个 DuckDB 会话：

cursor=duckdb.connect("")

在这个例子中，我们用一个空字符串实例化数据库连接器。这样做是为了表明 DuckDB 不应该创建自己的数据库文件，而是仅与系统文件交互。正如之前所提到的，DuckDB 是一个数据库，因此它具有创建表、视图等功能，但我们在这里不会探讨这些功能。我们将专注于将其用作转换引擎。

并定义以下查询：

query=f""" COPY ( SELECT * FROM read_csv('/data/logs/2_{state}/*.csv', filename=True) ) TO '{state}.parquet' (FORMAT 'parquet'); """

cursor.execute(query)

就这样！

让我们详细看看这个查询：

内部表达式只是一个标准的SELECT * FROM table查询，唯一的区别是，DuckDB 可以直接引用文件，而不是引用表。

这个查询的结果可以导入到 pandas 数据框中进行进一步的表达，就像这样：

my_df=cursor.execute(query).df()

这使得 DuckDB 与 pandas 之间的无缝集成成为可能。

外部表达式是一个简单的COPY … TO …，它将内部查询的结果写入文件。

在这个第一次转换中，我们开始看到 DuckDB 的一个优势——能够使用纯 SQL 与文件进行交互，而无需配置任何其他内容。上述查询与我们在标准 SGBD（如 PostgreSQL 和 MySQL）中执行的日常操作完全相同，唯一的区别是，我们不再操作表格，而是与文件进行交互。

原本我们有450GB的 TSV 文件，约30 分钟后，我们剩下了97GB的 Parquet 文件。

过滤并清除

如前所述，日志存储了选票箱上发生的每个事件。第一步旨在过滤出仅与投票相关的事件，如“选民投票选举了总统”、“选民采集了指纹”以及“投票已计算”，这些事件发生在选举日（这很重要，因为日志还记录了培训部分和其他行政程序）。

一个简单的查询，但包含大量文本和日期处理：

VOTES_DESCRIPTIONS=[# VOTES"event_description = 'Aguardando digitação do título'",# Awaiting voter's title (Voter Registration ID) input"event_description = 'Título digitado pelo mesário'",# Voter's title entered by the poll worker"event_description = 'Eleitor foi habilitado'",# Voter has been enabled"event_description ILIKE 'Voto confirmado par%'",# Vote confirmed for ... could be [PRESIDENT, SENATOR, DEPUTY, ...]"event_description = 'O voto do eleitor foi computado'",# Voter's vote has been computed]ACCEPTED_DATES=['2022-10-02','2022-10-30',# Constitutional date of the election filter'2022-10-03','2022-10-31',]query=F""" SELECT * FROM ( SELECT event_timestamp, event_timestamp::date AS event_date, event_type, some_id, event_system, event_description, event_id, REPLACE(SPLIT_PART(filename, '/', 5), '_new.csv', '') AS filename, -- Metadata from filename SUBSTRING( SPLIT_PART(SPLIT_PART(filename, '/', 5), '-', 2), 1, 5 ) AS city_code, SUBSTRING( SPLIT_PART(SPLIT_PART(filename, '/', 5), '-', 2), 6, 4 ) AS zone_code, SUBSTRING( SPLIT_PART(SPLIT_PART(filename, '/', 5), '-', 2), 10, 4 ) AS section_code, REPLACE(SPLIT_PART(filename, '/', 4), '2_', '') AS uf FROM{DATASET}WHERE 1=1 AND ({' OR '.join(VOTES_DESCRIPTIONS)}) ) _ WHERE 1=1 AND event_date IN ({', '.join([F"'{date}'"fordateinACCEPTED_DATES])}) """

在这个查询中，突出了 DuckDB 的另一个优势：能够读取和写入分区数据。表分区在大数据的背景下非常重要，但在单机架构中尤为关键，因为我们在进行输入和输出操作时使用的是同一磁盘，即它要承受两次负担，每一个优化都非常欢迎。

原本我们有 97GB，但约 30 分钟后，我们剩下了 63GB 的 Parquet 文件。

隔离投票及其属性

由于每个投票由多行组成，我们需要将所有信息浓缩成一个唯一的记录，以便简化计算。这里情况变得复杂，因为查询变得复杂，而且不幸的是，DuckDB 无法一次性处理所有数据。

为了克服这个问题，我做了一个循环，以增量的方式处理数据切片：

forstateinstates:fordateinACCEPTED_DATES:forzone_groupinZONE_GROUPS:query=F""" COPY{complex_query_goes_here.replace('<uf>',state).replace('<event_date>',date).replace('<zone_id_min>',str(zone_group[0])).replace('<zone_id_max>',str(zone_group[1]))}TO 'VOTES.parquet' (FORMAT 'parquet', PARTITION_BY (event_date, uf, zone_group), OVERWRITE_OR_IGNORE 1); """

实现细节并不重要，关键是我们不需要对代码做太多改动，就能逐步构建这个最终表格。由于每个处理的“切片”代表一个分区，通过将参数 OVERWRITE_OR_IGNORE 设置为 1，DuckDB 会自动覆盖该分区的任何现有数据，或者如果数据已存在，则忽略它。

原本我们有 63GB，约 1 小时 20 分钟后，最终得到了 15GB 的 Parquet 文件。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/21c5aa0e745157d524083a297e1ab2c0.png

计算指标并构建 OLAP Cube

这是一个简单的步骤。现在，每个投票都由一个记录表示，所需的只是计算指标。

query_metrics=F""" SELECT turno, state, zone_code, section_code, COUNT(*) AS total_votes, COUNT( DISTINCT state || zone_code || section_code ) AS total_sections, SUM( vote_time ) AS voting_time_sum, AVG( vote_time ) AS average_voting_time, MAX( nr_of_votes ) AS total_ballot_items_voted, SUM( nr_of_keys_pressed ) AS total_keys_pressed FROM source GROUP BY ROLLUP(turno, state, zone_code, section_code) """

由于我们需要计算多个粒度级别的指标，理想的做法是使用 GROUP BY + ROLLUP。

在这个案例中，DuckDB 表现得尤为突出：我们从 15GB 开始，36 秒后，文件大小缩减到了 88MB！

这是一个惊人的性能，它在不到一分钟的时间里，将超过 2 亿行数据按 4 个不同的粒度级别进行了分组，其中最高级别的基数为 2，最低级别的基数约为 200,000！