doris初学部分总结-深圳市維司達科技有限公司

建表

字段定义

基础配置：（必填）

可选配置：[ KEY ]（维度字段标记）

可选配置：[ ]（聚合类型，仅聚合表用）

可选配置：[ [ GENERATED ALWAYS ] AS ( ) ]（生成列）

可选配置：[ [NOT] NULL ]（非空约束）

元数据应用介绍

一、核心特性解析

二、生产环境中的核心用途

1. 元数据查询与结构验证（开发 / 测试场景）

2. 权限审计与合规检查（运维 / 安全场景）

3. 集群运行状态监控（运维场景）

4. 数据治理与自动化脚本（DevOps 场景）

5. 跨 Catalog 元数据统一查询（多源数据场景）

三、关键系统表说明

元数据应用举例

一、开发场景：表 / 列 / 分区元数据查询

1. 查询指定数据库下的所有表信息

2. 查询表的列结构（替代 DESC，更详细）

3. 查询分区表的分区详情

4. 查询表的索引信息

5. 跨 Catalog 查询外部表（如 Hive Catalog）

二、权限审计场景：用户 / 角色权限查询

1. 查询所有用户的权限分配

2. 查询指定用户的所有权限

3. 查询角色的权限与用户关联

4. 审计超权限用户（如拥有 ALL PRIVILEGES 的用户）

三、运维监控场景：集群状态 / 负载查询

1. 查询 Workload Group（资源隔离）配置

2. 查询正在运行的任务

3. 查询表的存储与数据分布

4. 查询无效 / 过期分区

四、DevOps 自动化场景：批量操作脚本

1. 批量导出所有表结构（Shell 脚本）

2. 批量清理过期分区（Python 脚本）

脚本使用说明

内存管理解析及trouble shooting

一、Memory Tracker 核心机制

二、内存分配分为哪几部分

1. Jemalloc 内存分析（底层内存分配层）

核心分析目标

具体分析方法

（1）开启 Jemalloc 统计日志

（2）查看 Jemalloc 核心指标

（3）使用 Jemalloc 工具分析内存分配热点

生产常见问题与解决

2. Global 内存分析（全局系统层内存）

核心监控的 Global Tracker Label

具体分析方法

（1）通过 Web 接口获取 Global 内存明细

（2）定位 Global 内存异常的模块

（3）长期监控 Global 内存趋势

3. Query 内存分析（查询执行层内存）

核心分析目标

具体分析方法

（1）通过 Web 接口获取 Query 内存明细

（2）结合 Query Profile 分析内存热点

（3）监控 Query 内存的关键指标

（4）定位异常查询的 SQL

生产常见优化手段

4. Load 内存分析（数据导入层内存）

核心监控的 Load Tracker Label

具体分析方法

（1）通过 Web 接口获取 Load 内存明细

（2）结合导入日志分析内存异常

（3）监控 Load 内存的关键指标

（4）优化导入内存消耗

生产常见问题与解决

三、Memory Tracker 分析的通用流程（生产实战）

compaction文件合并机制

一、Doris 基于 LSM-Tree 的数据写入与 Compaction 核心机制

1. 类 LSM-Tree 的数据写入流程

2. Doris Compaction 的两种核心类型

二、Doris Compaction 调优策略（生产核心配置）

1. 全局 Compaction 策略调优（be.conf）

2. 表级别 Compaction 策略调优（ALTER TABLE）

3. 手动触发 Compaction（生产常用操作）

4. 生产调优的核心原则

三、Compaction 与 Load/Query 效率的关联

建表

字段定义

解析字段配置的顺序：

字段名+类型 → 是否为KEY → 聚合类型 → 生成列表达式 → 非空约束 → 自增配置 → 默认值 → 更新时自动刷新 → 注释

基础配置：`<col_name> <col_type>`（必填）

数值型：TINYINT（布尔 / 枚举）、INT（普通计数）、BIGINT（用户 ID / 订单 ID）、DECIMAL(16,2)（金额 / 比例）
字符串型：STRING（不限制长度，如订单号）、VARCHAR(n)（固定长度，如手机号 / 身份证）
时间型：DATE（日期，如 2025-11-10）、DATETIME（日期 + 时间，如 2025-11-10 18:30:00）

可选配置：`[ KEY ]`（维度字段标记）

作用：标记该字段是 “维度字段”（用于分组、过滤、关联），而非 “度量字段”（用于聚合计算）。
注意：

- 仅在 Doris 的AGGREGATE KEY表（聚合表）中生效；
- 排序键（UNIQUE KEY/AGGREGATE KEY/DUPLICATE KEY）中的字段，默认隐含KEY属性，无需手动加。

示例：merchant_id BIGINT KEY（商家 ID，作为维度字段，用于按商家分组统计）

可选配置：`[ <col_aggregate_type> ]`（聚合类型，仅聚合表用）

作用：定义度量字段的聚合规则，仅在AGGREGATE KEY表中生效（Doris 核心特性，用于预聚合加速查询）。
常用聚合类型（业务高频）：

- SUM：求和（如订单金额、商品件数）；
- COUNT/COUNT_DISTINCT：计数 / 去重计数（如用户数、订单数）；
- MAX/MIN：最大值 / 最小值（如最高消费、最低折扣）；
- REPLACE：替换（保留最新值，如用户最新手机号）；
- BITMAP_UNION：bitmap 聚合（用于快速去重计数，如活跃用户数）。

示例：total_pay_amount DECIMAL(16,2) SUM（累计支付金额，按维度聚合求和）、active_user_count BIGINT BITMAP_UNION（活跃用户数，bitmap 聚合去重）

可选配置：`[ [ GENERATED ALWAYS ] AS (<col_generate_expression>) ]`（生成列）

作用：字段值不手动插入，而是通过 “表达式计算” 自动生成（依赖其他字段），支持 “虚拟生成列”（不存储物理数据）和 “物化生成列”（存储数据，加速查询）。
核心规则：

- 生成列的表达式只能依赖 “同表中定义在它之前的字段”；
- 支持算术运算、字符串函数、日期函数等 Doris 内置函数。

适用场景：

- 从日期中提取年 / 月 / 日（如从order_time生成order_month）；
- 计算派生指标（如从order_amount和discount生成actual_pay = order_amount * discount）。

示例：

order_time DATETIME COMMENT '订单时间', order_month INT GENERATED ALWAYS AS (month(order_time)) COMMENT '订单月份（自动从order_time提取）', actual_pay DECIMAL(16,2) GENERATED ALWAYS AS (order_amount * discount) COMMENT '实付金额（订单金额×折扣）'

可选配置：`[ [NOT] NULL ]`（非空约束）

作用：限制字段值不能为NULL（空值），强制数据完整性。
注意：

- Doris 中NOT NULL是 “建议性约束”，而非 “强制性约束”—— 如果插入NULL值，不会直接报错，但查询时会按NULL处理；
- 排序键字段建议加NOT NULL，避免NULL值影响查询性能。

适用场景：必填字段（如用户 ID、订单 ID、订单时间，这些字段不可能为空）。
示例：order_id STRING NOT NULL COMMENT '订单ID（唯一，非空）'

元数据应用介绍

一、核心特性解析

虚拟表属性，无物理存储information_schema下的所有表都是虚拟表，不对应物理磁盘上的数据文件。其数据来源于 Doris 的元数据服务（FE 的 Catalog 模块），查询时实时从元数据中提取并返回结果，保证数据的实时性。
按 Catalog 隔离元数据Doris 支持多 Catalog（如内置 Catalog、Hive Catalog、Iceberg Catalog 等），每个 Catalog 下都有独立的information_schema，且仅存储当前 Catalog 内的元数据。

- 例如：查询hive_catalog.information_schema.tables，只会返回 Hive Catalog 中注册的表信息；查询默认default_catalog.information_schema.tables，返回 Doris 原生表的信息。

只读性与权限控制

- 只读限制：用户无法对information_schema执行CREATE/ALTER/DROP/INSERT等写操作，只能通过SELECT查询元数据。
- 权限过滤：查询结果会根据用户的实际权限自动过滤。例如，普通用户只能看到自己有权访问的数据库 / 表；管理员用户可查看全量元数据。

二、生产环境中的核心用途

information_schema是 Doris 运维、开发、权限管理的核心工具，典型场景包括：

1.元数据查询与结构验证（开发 / 测试场景）

开发人员可通过查询information_schema快速获取表、列、分区的结构信息，替代DESC命令，且支持更灵活的条件过滤。常用查询示例：

查询指定数据库下的所有表sql

-- 查看 db1 下的所有表名、表类型（OLAP/MySQL 等）、创建时间 SELECT table_name, table_type, create_time FROM information_schema.tables WHERE table_schema = 'db1';

查询表的列结构（替代 DESC）sql

-- 查看 db1.table1 的列名、数据类型、是否为主键、默认值 SELECT column_name, data_type, is_nullable, column_default FROM information_schema.columns WHERE table_schema = 'db1' AND table_name = 'table1';

查询分区表的分区信息sql

-- 查看 db1.table1 的分区名、分区范围、分区状态 SELECT partition_name, partition_value, status FROM information_schema.partitions WHERE table_schema = 'db1' AND table_name = 'table1';

2.权限审计与合规检查（运维 / 安全场景）

管理员可通过information_schema中的权限相关表，审计用户的权限分配情况，确保权限最小化原则。常用查询示例：

查询用户的权限列表sql

-- 查看用户 user1 拥有的所有权限 SELECT grantee, privilege_type, table_schema, table_name FROM information_schema.user_privileges WHERE grantee = 'user1';

查询角色的权限分配sql

-- 查看角色 role_dev 的权限 SELECT role_name, privilege_type, table_schema FROM information_schema.role_privileges WHERE role_name = 'role_dev';

3.集群运行状态监控（运维场景）

information_schema还包含负载管理、任务运行状态的表，用于监控 Doris 的资源使用和任务执行情况。常用查询示例：

查询 Workload Group 配置（资源隔离）sql

-- 查看所有 Workload Group 的资源限制（CPU/内存）、优先级 SELECT workload_group_name, cpu_core_limit, memory_limit, priority FROM information_schema.workload_groups;

查询正在运行的任务sql

-- 查看当前集群的任务 ID、类型、状态、提交用户 SELECT task_id, task_type, state, user FROM information_schema.tasks WHERE state = 'RUNNING';

4.数据治理与自动化脚本（DevOps 场景）

可基于information_schema编写自动化脚本，实现元数据的批量导出、表结构对比、分区生命周期管理等。典型场景：

编写 Shell/Python 脚本，定期查询information_schema.partitions，清理过期分区；
同步information_schema.tables数据到数据中台，实现 Doris 表的统一元数据管理。

5.跨 Catalog 元数据统一查询（多源数据场景）

在多 Catalog 场景下，可通过查询不同 Catalog 的information_schema，统一获取 Doris 原生表、Hive 外部表、Iceberg 外部表的元数据，方便数据集成和跨源分析。示例：

sql

-- 查询 Hive Catalog 下的所有外部表 SELECT table_name, table_type FROM hive_catalog.information_schema.tables;

三、关键系统表说明

information_schema包含数十个虚拟表，以下是生产中最常用的核心表：

表名	核心作用
`tables`	存储数据库、表的基本信息（表名、类型、创建时间）
`columns`	存储表的列结构信息（列名、数据类型、主键等）
`partitions`	存储分区表的分区信息（分区名、范围、状态）
`user_privileges`	存储用户的权限分配信息
`role_privileges`	存储角色的权限分配信息
`workload_groups`	存储 Workload Group 的资源配置信息
`tasks`	存储集群任务的运行状态信息

元数据应用举例

一、开发场景：表 / 列 / 分区元数据查询

1. 查询指定数据库下的所有表信息

-- 查看 db1 下的表名、表类型（OLAP/MySQL/Hive 外部表等）、创建时间、表注释 SELECT table_name, table_type, create_time, table_comment FROM information_schema.tables WHERE table_schema = 'db1' -- 替换为目标数据库名 ORDER BY create_time DESC;

2. 查询表的列结构（替代 DESC，更详细）

-- 查看 db1.table1 的列名、数据类型、是否可为空、主键、默认值、列注释 SELECT column_name, data_type, is_nullable, column_key, -- PRI 表示主键 column_default, column_comment FROM information_schema.columns WHERE table_schema = 'db1' -- 替换为目标数据库名 AND table_name = 'table1'; -- 替换为目标表名

3. 查询分区表的分区详情

-- 查看 db1.table1 的分区名、分区值、分区状态、数据量、创建时间 SELECT partition_name, partition_value, -- 分区范围（如 202501） status, -- NORMAL/DISABLED data_size, -- 分区数据大小（字节） create_time FROM information_schema.partitions WHERE table_schema = 'db1' AND table_name = 'table1';

4. 查询表的索引信息

-- 查看 db1.table1 的索引名、索引类型、索引列 SELECT index_name, index_type, column_name FROM information_schema.statistics WHERE table_schema = 'db1' AND table_name = 'table1';

5. 跨 Catalog 查询外部表（如 Hive Catalog）

-- 查看 Hive Catalog 下的所有外部表 SELECT table_name, table_type, table_schema FROM hive_catalog.information_schema.tables -- 替换为你的 Catalog 名 WHERE table_type = 'EXTERNAL TABLE';

二、权限审计场景：用户 / 角色权限查询

1. 查询所有用户的权限分配

-- 查看所有用户的权限类型、所属数据库/表 SELECT grantee, -- 用户名（如 'user1'@'%'） privilege_type, -- 权限类型（SELECT/INSERT/ALTER 等） table_schema, table_name FROM information_schema.user_privileges ORDER BY grantee;

2. 查询指定用户的所有权限

-- 查看 user1 的权限 SELECT privilege_type, table_schema, table_name FROM information_schema.user_privileges WHERE grantee = 'user1' -- 替换为目标用户名 OR grantee = 'user1@%'; -- 适配 Doris 的用户格式

3. 查询角色的权限与用户关联

-- 1. 查看所有角色的权限 SELECT role_name, privilege_type, table_schema FROM information_schema.role_privileges; -- 2. 查看用户与角色的绑定关系 SELECT grantee, role_name FROM information_schema.user_roles;

4. 审计超权限用户（如拥有 ALL PRIVILEGES 的用户）

-- 查找拥有全局/数据库级全部权限的用户 SELECT grantee, privilege_type, table_schema FROM information_schema.user_privileges WHERE privilege_type = 'ALL PRIVILEGES' AND table_schema IS NOT NULL;

三、运维监控场景：集群状态 / 负载查询

1. 查询 Workload Group（资源隔离）配置

-- 查看所有负载组的资源限制、优先级、关联用户 SELECT workload_group_name, cpu_core_limit, -- CPU 核心限制 memory_limit, -- 内存限制（如 10G） priority, -- 优先级（HIGH/MEDIUM/LOW） user_list -- 关联的用户列表 FROM information_schema.workload_groups;

2. 查询正在运行的任务

-- 查看当前集群的运行中任务、任务类型、提交用户、开始时间 SELECT task_id, task_type, -- LOAD/QUERY/COMPACTION 等 user, start_time, progress -- 任务进度 FROM information_schema.tasks WHERE state = 'RUNNING' -- 只看运行中的任务 ORDER BY start_time DESC;

3. 查询表的存储与数据分布

-- 查看 db1 下所有表的总数据量、分区数、副本数 SELECT t.table_name, p.partition_count, t.table_rows, -- 总行数 t.data_length / 1024 / 1024 AS data_size_mb -- 数据大小（MB） FROM ( SELECT table_name, COUNT(*) AS partition_count FROM information_schema.partitions WHERE table_schema = 'db1' GROUP BY table_name ) p JOIN information_schema.tables t ON p.table_name = t.table_name WHERE t.table_schema = 'db1';

4. 查询无效 / 过期分区

-- 查找 db1.table1 中 30 天前创建的分区（用于清理） SELECT partition_name, create_time, data_size FROM information_schema.partitions WHERE table_schema = 'db1' AND table_name = 'table1' AND create_time < DATE_SUB(NOW(), INTERVAL 30 DAY);

四、DevOps 自动化场景：批量操作脚本

1. 批量导出所有表结构（Shell 脚本）

#!/bin/bash # 导出 db1 下所有表的列结构到 CSV 文件 DORIS_HOST="127.0.0.1" DORIS_PORT="9030" DORIS_USER="root" DORIS_DB="db1" OUTPUT_FILE="table_structure.csv" # 写入 CSV 表头 echo "table_name,column_name,data_type,is_nullable,column_comment" > $OUTPUT_FILE # 查询表名列表 tables=$(mysql -h$DORIS_HOST -P$DORIS_PORT -u$DORIS_USER -e "SELECT table_name FROM information_schema.tables WHERE table_schema='$DORIS_DB';" -sN) # 遍历表名，查询列结构并追加到 CSV for table in $tables; do mysql -h$DORIS_HOST -P$DORIS_PORT -u$DORIS_USER -e "SELECT '$table', column_name, data_type, is_nullable, column_comment FROM information_schema.columns WHERE table_schema='$DORIS_DB' AND table_name='$table';" -sN | sed 's/\t/,/g' >> $OUTPUT_FILE done echo "表结构已导出到 $OUTPUT_FILE"

2. 批量清理过期分区（Python 脚本）

import pymysql from datetime import datetime, timedelta # 配置 Doris 连接 config = { "host": "127.0.0.1", "port": 9030, "user": "root", "db": "db1", "charset": "utf8" } # 连接 Doris conn = pymysql.connect(**config) cursor = conn.cursor() # 定义过期时间（30 天前） expire_time = (datetime.now() - timedelta(days=30)).strftime("%Y-%m-%d %H:%M:%S") # 查询过期分区 cursor.execute(""" SELECT table_name, partition_name FROM information_schema.partitions WHERE table_schema = 'db1' AND create_time < %s """, (expire_time,)) expired_partitions = cursor.fetchall() # 批量删除过期分区 for table, partition in expired_partitions: drop_sql = f"ALTER TABLE {table} DROP PARTITION {partition};" try: cursor.execute(drop_sql) conn.commit() print(f"成功删除 {table}.{partition}") except Exception as e: conn.rollback() print(f"删除 {table}.{partition} 失败：{e}") # 关闭连接 cursor.close() conn.close()

脚本使用说明

环境依赖：

- Shell 脚本需安装mysql-client（Doris 兼容 MySQL 协议）；
- Python 脚本需安装pymysql（pip install pymysql）。

内存管理解析及trouble shooting

一、Memory Tracker 核心机制

Memory Tracker 是 Doris BE 节点的内存追踪核心组件，采用分层标签化的树形结构（父 - 子 Tracker 关系）实现对内存消耗的精细化监控，其中type=overview是顶层概览 Tracker，除了进程驻留内存、虚拟内存、所有 Tracker 总和等基础指标外，其余细节可通过http://{be_host}:{be_web_server_port}/mem_tracker?type=Label接口查看

属性	核心价值	生产意义
`Label`	唯一标识 Tracker（如`Query_12345` 、`Load_67890` 、`Global:TabletMeta` ）	快速定位内存消耗的具体模块 / 任务
`Current Consumption`	实时内存使用量（字节 / 格式化单位）	监控当前内存负载，判断是否接近阈值
`Peak Consumption`	BE 启动后的峰值内存使用量	分析内存突增的历史峰值，定位内存泄漏或大任务的资源瓶颈
`Parent Label`	标识父子 Tracker 关系（子 Tracker 内存是父 Tracker 的子集）	实现内存消耗的层级溯源（如 Query 内存归属于 Global 下的 Query 总 Tracker）

注：子tracker存在内存共享的情况，因此子tracker的sum并不一定等于父tracker

二、内存分配分为哪几部分

1. Jemalloc 内存分析（底层内存分配层）

Doris BE 从 1.2.2 版本后默认使用Jemalloc作为内存分配器（替代 TCMalloc），它负责底层内存的申请、释放和缓存，Jemalloc 内存分析主要解决物理内存占用与 Tracker 统计内存不一致的问题（如 Tracker 显示使用 10G，但 OS 显示 BE 占用 15G）。

核心分析目标

定位 Jemalloc 的内存缓存（Arena/Cache）占用、内存碎片、分配热点；
区分 “Tracker 统计的应用层内存” 和 “Jemalloc 底层分配的物理内存”，避免误判内存泄漏。

具体分析方法

（1）开启 Jemalloc 统计日志

修改 BE 节点的启动脚本，添加 Jemalloc 统计参数（需重启 BE）：

# 在 BE 的 env.sh 中添加 export MALLOC_CONF="stats_print:true,stats_interval:60,lg_prof_interval:30,lg_prof_sample:17" export LD_PRELOAD=/path/to/jemalloc.so # 指向 Doris 内置的 jemalloc 库

stats_interval:60：每 60 秒打印一次 Jemalloc 统计信息；
lg_prof_sample:17：采样内存分配热点（每 2^17 字节分配采样一次）。

（2）查看 Jemalloc 核心指标

从 BE 日志（be.INFO）中提取 Jemalloc 统计信息，重点关注：

指标	含义	分析要点
`active`	Jemalloc 活跃内存（已分配给应用的内存）	应与 Tracker 的`sum of all trackers` 大致一致，差异过大需排查内存碎片
`allocated`	Jemalloc 实际从 OS 申请的内存	反映物理内存占用，若远大于`active` ，说明内存碎片严重
`cached`	Jemalloc 缓存的空闲内存（未归还给 OS）	缓存过高会导致物理内存占用高，可通过`mallctl` 手动释放：`echo 'malloc_conf:dirty_decay_ms:1000,muzzy_decay_ms:1000'	tee /proc/$(pidof be)/environ`
`arenas`	Jemalloc 的内存分配池数量	默认按 CPU 核心数分配，过多会增加内存碎片，可通过`lg_arenas_max` 限制

（3）使用 Jemalloc 工具分析内存分配热点

# 生成内存分配分析文件（jeprof） jeprof --heap /path/to/be /tmp/jemalloc.prof.xxx.heap # 查看内存分配的函数调用栈（定位热点） jeprof --show_bytes --text /path/to/be /tmp/jemalloc.prof.xxx.heap

重点关注HashJoinNode、AggregationNode、TabletReader等模块的内存分配占比，定位大内存分配的源头。

生产常见问题与解决

问题：Jemalloc 缓存过高导致 BE 物理内存占用飙升；解决：调小dirty_decay_ms和muzzy_decay_ms（如设为 1000ms），让 Jemalloc 更快释放空闲内存给 OS。
问题：内存碎片严重（allocated - active过大）；解决：减少大内存的频繁申请 / 释放，使用 Doris 的内存池（Arena）复用机制，或升级 Jemalloc 版本。

2. Global 内存分析（全局系统层内存）

Global 内存是 BE 节点的系统级内存消耗，属于type=overview中最高级别的 Tracker（Parent Label 为root），涵盖除 Query/Load 外的所有核心模块内存，是分析 BE 基础内存占用的关键。

核心监控的 Global Tracker Label

关键 Label	内存消耗场景	异常阈值
`Global:TabletMeta`	存储 Tablet 的元数据（如分区信息、索引、列结构）	单 BE 超过 1G 需排查是否有过多小 Tablet（建议 Tablet 数量控制在 10 万以内）
`Global:RowSet`	存储 Tablet 的数据行集（包括 MemTable 和 SSTable 元数据）	导入高峰期会临时上涨，若长期高位需排查 Compaction 是否滞后
`Global:PageCache`	存储数据的页缓存（类似 OS Page Cache）	默认占 BE 内存的 20%-30%，过高会挤占查询内存，可通过`storage_page_cache_limit` 限制
`Global:Schema`	存储数据库 / 表的元数据缓存	一般占用较小，若暴涨需排查元数据加载异常
`Global:Compaction`	Compaction 任务的内存消耗	单 BE 超过 2G 需调整`compaction_max_memory_limit`

具体分析方法

（1）通过 Web 接口获取 Global 内存明细

访问http://{be_host}:{be_web_server_port}/mem_tracker?type=Label，筛选Parent Label=Global的 Tracker，查看各子 Label 的Current Consumption和Peak Consumption。

（2）定位 Global 内存异常的模块

若Global:TabletMeta过高：执行SHOW PROC '/tablets'查看 BE 上的 Tablet 数量，若数量过多（如超过 20 万），需进行 Tablet 合并（ALTER TABLE ... MERGE TABLET）。
若Global:PageCache过高：临时调整storage_page_cache_limit降低缓存上限，或执行ADMIN CLEAR PAGE CACHE手动清理缓存。
若Global:Compaction过高：查看information_schema.compaction_runs表，排查是否有大表的 Compaction 任务堆积，可通过ALTER TABLE ... SET ("compaction_mem_limit" = "1G")限制单表 Compaction 内存。

（3）长期监控 Global 内存趋势

通过 Prometheus + Grafana 监控以下指标（Doris 暴露的 Prometheus 指标）：

# BE 全局内存使用量 doris_be_memory_usage_bytes{type="global"} # BE 各 Global 模块内存使用量 doris_be_memory_tracker_current_bytes{label=~"Global:*"}

若 Global 内存持续上涨且不回落，需排查内存泄漏（如元数据缓存未释放）。

3. Query 内存分析（查询执行层内存）

Query 内存是 Doris BE 中占比最高、波动最大的内存消耗，每个查询对应一个独立的 Tracker（Label 如Query_{query_id}），父 Tracker 为Global:Query，主要消耗在 Join、聚合、排序、Shuffle 等算子上。

核心分析目标

定位大内存查询的算子和 SQL；
优化查询内存消耗，避免触发 OOM 或内存溢出到磁盘（Spill）。

具体分析方法

（1）通过 Web 接口获取 Query 内存明细

访问http://{be_host}:{be_web_server_port}/mem_tracker?type=Label，筛选Parent Label=Global:Query的 Tracker，重点关注：

Current Consumption过高的查询（如超过exec_mem_limit）；
Peak Consumption远大于当前值的查询（说明查询执行过程中内存突增）。

（2）结合 Query Profile 分析内存热点

对慢查询或大内存查询，执行EXPLAIN ANALYZE获取 Query Profile，重点关注以下算子的内存消耗：

算子	内存消耗原因	优化方向
`HashJoinNode`	构建大哈希表（右表数据量大）	改用 Broadcast Join（小表广播）、开启分区 Join，或限制右表大小
`AggregationNode`	聚合结果集过大（如 GROUP BY 基数高）	开启分步聚合（`enable_two_phase_agg` ）、增加聚合内存限制
`SortNode`	排序数据量过大	改用分区排序，或增加排序内存限制
`ShuffleNode`	数据分片传输时的内存缓存	调整 Shuffle 块大小（`shuffle_block_size` ），复用数据块

（3）监控 Query 内存的关键指标

# 单查询最大内存使用量 doris_be_memory_tracker_peak_bytes{label=~"Query_*"} # 查询内存溢出到磁盘的次数 doris_be_query_spill_count_total # 执行内存限制触发次数 doris_be_query_mem_limit_exceeded_count_total

若doris_be_query_spill_count_total过高，说明大量查询触发了 Spill，会导致查询延迟增加，需优化查询或提高exec_mem_limit。

（4）定位异常查询的 SQL

通过information_schema.processlist表关联 Query ID 和 SQL：

SELECT query_id, user, sql, start_time FROM information_schema.processlist WHERE query_id = 'xxx'; -- 替换为 Tracker 中的 Query ID

生产常见优化手段

对大内存查询，设置exec_mem_limit上限（如SET exec_mem_limit = 4G;）；
开启 Spill 功能（enable_spill = true），避免查询 OOM；
优化 SQL：减少大表 Join、降低 GROUP BY 基数、使用物化视图预聚合。

4. Load 内存分析（数据导入层内存）

Load 内存是 Doris BE 处理数据导入的内存消耗，包括 Stream Load、Broker Load、Routine Load 等，每个导入任务对应一个独立的 Tracker（Label 如Load_{load_id}），父 Tracker 为Global:Load。

核心监控的 Load Tracker Label

关键 Label	内存消耗场景	异常阈值
`Load:MemTable`	导入时的内存表（未刷盘的临时数据）	单 Load 任务超过`load_process_max_memory_limit` 的 80% 需警惕
`Load:Parse`	数据解析（CSV/JSON 格式）的内存消耗	解析大文件时会临时上涨，若过高需拆分导入文件
`Load:Filter`	导入时的数据过滤 / 转换内存消耗	复杂过滤规则会增加内存占用，需简化过滤逻辑

具体分析方法

（1）通过 Web 接口获取 Load 内存明细

访问http://{be_host}:{be_web_server_port}/mem_tracker?type=Label，筛选Parent Label=Global:Load的 Tracker，查看各导入任务的内存使用情况。

（2）结合导入日志分析内存异常

从 BE 日志（be.INFO）中搜索 Load ID，查看导入过程中的内存变化：

# 搜索 Load 任务的内存日志 grep "Load_{load_id}" be.INFO | grep "memory"

若日志中出现MemTable memory exceed limit，说明导入内存超限，需调整导入参数。

（3）监控 Load 内存的关键指标

# 单导入任务最大内存使用量 doris_be_memory_tracker_peak_bytes{label=~"Load_*"} # 导入内存超限的次数 doris_be_load_mem_limit_exceeded_count_total # MemTable 刷盘的次数 doris_be_load_memtable_flush_count_total

若doris_be_load_memtable_flush_count_total过高，说明导入内存不足，频繁刷盘会降低导入速度。

（4）优化导入内存消耗

调整导入参数：降低load_batch_size（如从 100000 改为 50000）、提高load_process_max_memory_limit；
拆分大文件导入：将 GB 级的导入文件拆分为多个 MB 级文件，避免单任务内存过高；
对 Aggregate Key 表，开启预聚合（enable_unique_key_merge_on_write），减少 MemTable 内存占用。

生产常见问题与解决

问题：Stream Load 任务内存超限导致失败；解决：在导入请求头中设置max_filter_ratio和mem_limit，如curl -H "mem_limit: 2G" -T data.csv http://be_host:8040/api/db1/table1/_stream_load。
问题：Routine Load 长期运行导致内存上涨；解决：重启 Routine Load 任务，或调整batch_size和max_pending_rows限制内存。

三、Memory Tracker 分析的通用流程（生产实战）

先看概览：通过http://{be_host}:{be_web_server_port}/mem_tracker?type=overview查看 BE 总内存、进程内存、各顶层 Tracker 占比，定位内存消耗的主要模块（Global/Query/Load）。
再钻细节：通过type=Label接口查看具体 Tracker 的内存使用，找到异常 Label（如某 Query 内存过高）。
结合工具：对异常模块，分别使用 Jemalloc 工具（底层）、Query Profile（查询）、导入日志（Load）定位根因。
优化验证：调整参数或 SQL 后，监控 Tracker 内存变化和相关指标，验证优化效果。

compaction文件合并机制

一、Doris 基于 LSM-Tree 的数据写入与 Compaction 核心机制

Apache Doris 采用类 LSM-Tree（Log-Structured Merge-Tree）的存储架构实现高效写入，而Compaction是该架构的核心后台任务，用于解决 LSM-Tree 架构下 “小文件过多” 的问题，同时处理数据的更新、删除逻辑。

1. 类 LSM-Tree 的数据写入流程

LSM-Tree 的核心思想是“先写内存，再异步落盘，最后后台合并”，Doris 的实现流程如下：

内存写入（MemTable）数据导入时，首先写入 BE 节点的内存表（MemTable），这是一个有序的内存数据结构。

- 优点：写入速度极快（内存操作），支持高并发导入；
- 缺点：内存容量有限，且数据未持久化，节点故障会丢失数据。

刷盘生成小文件（Segment）当 MemTable 达到阈值（由memtable_max_size控制，默认 256MB），会异步刷盘生成一个不可变的有序小文件（Segment），存储在磁盘上。

- 每个 Segment 是 Doris 的最小存储单元，包含数据、索引和元数据；
- 刷盘后 MemTable 清空，继续接收新数据。

后台 Compaction 合并小文件随着导入进行，磁盘上会生成大量小 Segment 文件。过多小文件会导致：

- 查询效率下降：查询时需打开多个小文件，增加磁盘 IO 和文件句柄开销；
- 空间利用率低：更新 / 删除操作不会直接修改原文件，而是生成新的版本文件，旧版本需 Compaction 清理。

Compaction 的核心工作就是将多个有序小 Segment 合并为一个有序大 Segment，同时完成：

- 数据排序合并：保证大 Segment 内数据有序，提升查询时的范围扫描效率；
- 处理更新 / 删除：Doris 采用“写时复制（Copy-On-Write）”机制，更新 / 删除不会修改原 Segment，而是生成新的记录。Compaction 时会合并新旧版本，保留最新数据，清理无效旧数据；
- 减少文件数量：降低查询时的文件打开开销。

2. Doris Compaction 的两种核心类型

Doris 将 Compaction 分为Minor Compaction和Major Compaction，分工不同，互补协作：

类型

触发条件

核心作用

特点

Minor Compaction

1. 小 Segment 数量达到阈值（min_compaction_num

，默认 5）；2. 小 Segment 总大小达到阈值

合并同一层级的小 Segment，生成更大的 Segment，但不清理删除 / 过期数据

轻量级、高频执行、对系统资源消耗小

Major Compaction

1. 手动触发（ALTER TABLE ... COMPACT

）；2. 自动触发（由max_interval_since_last_major_compaction

控制，默认 7 天）；3. 累计删除 / 更新记录达到阈值

跨层级合并 Segment，彻底清理删除 / 过期数据、合并版本数据

重量级、低频执行、消耗 CPU/IO 资源多

二、Doris Compaction 调优策略（生产核心配置）

Compaction 策略的调整直接影响导入速度和查询效率：

若 Compaction 过慢，小文件堆积，查询效率下降；
若 Compaction 过于频繁，会抢占导入 / 查询的资源，导致集群负载升高。

Doris 提供了一系列参数用于调优 Compaction 策略，分为全局参数（作用于所有表）和表级别参数（作用于单表，优先级高于全局）。

1. 全局 Compaction 策略调优（`be.conf`）

全局参数控制整个 BE 节点的 Compaction 资源和触发规则，需在 BE 配置文件中修改，重启 BE 生效。

参数	作用	调优建议
`compaction_thread_pool_size`	Minor Compaction 的线程池大小	- 默认为`4` ，CPU 核心充足时可增大（如 8），加快小文件合并；- CPU 资源紧张时减小，避免抢占查询资源
`major_compaction_thread_pool_size`	Major Compaction 的线程池大小	- 默认为`2` ，Major Compaction 消耗资源大，建议保持较小值；- 仅在集群低峰期（如凌晨）调大，加速大文件合并
`compaction_max_memory_limit`	单个 Compaction 任务的内存上限	- 默认为`2GB` ，合并大表时可适当调大（如 4GB），避免内存不足导致 Compaction 失败；- 内存紧张时调小，防止 Compaction 挤占查询内存
`max_interval_since_last_major_compaction`	自动触发 Major Compaction 的最大间隔	- 默认为`604800` 秒（7 天），数据更新 / 删除频繁的表可缩短间隔（如 3 天），及时清理无效数据；- 静态表（无更新 / 删除）可延长间隔（如 30 天），减少资源消耗

2. 表级别 Compaction 策略调优（ALTER TABLE）

表级别参数可针对不同表的特性定制 Compaction 策略，优先级高于全局参数，通过ALTER TABLE命令设置，无需重启集群。

参数	作用	调优建议
`min_compaction_num`	触发 Minor Compaction 的最小 Segment 数量	- 默认为`5` ，导入频繁的表可调小（如 3），加快小文件合并，避免小文件堆积；导入低频的表可调大（如 10），减少 Compaction 次数，节省资源
`max_compaction_num`	Minor Compaction 单次合并的最大 Segment 数量	- 默认为`50` ，合并大表时调大（如 100），单次合并更多小文件，减少合并次数；小表调小（如 20），降低单次 Compaction 资源消耗
`compaction_mem_limit`	单表 Compaction 的内存上限	- 覆盖全局`compaction_max_memory_limit` ，大表可单独调大（如 8GB），确保合并顺利；小表调小（如 1GB），避免资源浪费
`storage_medium`	数据存储介质（HDD/SSD）	- SSD 性能好，可适当提高 Compaction 并发（增大线程池）；HDD 寻道慢，需降低 Compaction 并发，避免 IO 过载

3. 手动触发 Compaction（生产常用操作）

对于数据更新 / 删除频繁、查询效率下降的表，可在集群低峰期手动触发 Major Compaction，强制清理无效数据、合并小文件：

-- 手动触发单表 Major Compaction ALTER TABLE db1.table1 COMPACT 'MAJOR'; -- 查看 Compaction 任务状态 SELECT * FROM information_schema.compaction_runs WHERE table_name = 'table1' ORDER BY start_time DESC;

适用场景：

1. 批量导入大量数据后，小文件堆积；
2. 执行大量DELETE/UPDATE操作后，无效数据占比高；
3. 查询延迟突然升高，排查发现小文件数量过多。

4. 生产调优的核心原则

分表调优：不同表的导入频率、数据量、更新频率不同，需差异化配置（如导入高频表调小min_compaction_num，静态表调大）；
错峰执行：将 Major Compaction 安排在集群低峰期（如凌晨），避免与高峰导入 / 查询抢占资源；
监控先行：通过information_schema.compaction_runs和 BE 监控指标（doris_be_compaction_run_count、doris_be_compaction_duration_seconds）监控 Compaction 状态，避免 “Compaction 堆积”；
平衡导入与查询：

- 若导入优先级高：降低 Compaction 线程数，优先保障导入资源；
- 若查询优先级高：提高 Compaction 线程数，及时合并小文件，提升查询效率。

三、Compaction 与 Load/Query 效率的关联

Compaction 策略的调优本质是平衡 “写入速度” 和 “查询速度”：

对 Load（导入）的影响

- Compaction 线程过多 → 抢占导入的 CPU/IO 资源 → 导入速度下降；
- Compaction 线程过少 → 小文件堆积 → 后续导入的刷盘速度变慢（磁盘 inode 不足）。

对 Query（查询）的影响

- 小文件过多 → 查询需打开多个文件 → 磁盘 IO 开销大 → 查询延迟高；
- Major Compaction 不及时 → 无效数据未清理 → 查询需扫描更多数据 → 效率下降。

最佳实践：

导入高峰期：降低 Compaction 并发，优先保障导入；
查询高峰期：提高 Compaction 并发，及时合并小文件；

建表

字段定义

基础配置：<col_name> <col_type>（必填）

可选配置：[ KEY ]（维度字段标记）

可选配置：[ <col_aggregate_type> ]（聚合类型，仅聚合表用）

可选配置：[ [ GENERATED ALWAYS ] AS (<col_generate_expression>) ]（生成列）

可选配置：[ [NOT] NULL ]（非空约束）

元数据应用介绍

一、核心特性解析

二、生产环境中的核心用途

1.元数据查询与结构验证（开发 / 测试场景）

2.权限审计与合规检查（运维 / 安全场景）

3.集群运行状态监控（运维场景）

4.数据治理与自动化脚本（DevOps 场景）

5.跨 Catalog 元数据统一查询（多源数据场景）

三、关键系统表说明

元数据应用举例

一、开发场景：表 / 列 / 分区元数据查询

1. 查询指定数据库下的所有表信息

2. 查询表的列结构（替代 DESC，更详细）

3. 查询分区表的分区详情

4. 查询表的索引信息

5. 跨 Catalog 查询外部表（如 Hive Catalog）

二、权限审计场景：用户 / 角色权限查询

1. 查询所有用户的权限分配

2. 查询指定用户的所有权限

3. 查询角色的权限与用户关联

4. 审计超权限用户（如拥有 ALL PRIVILEGES 的用户）

三、运维监控场景：集群状态 / 负载查询

1. 查询 Workload Group（资源隔离）配置

2. 查询正在运行的任务

3. 查询表的存储与数据分布

4. 查询无效 / 过期分区

四、DevOps 自动化场景：批量操作脚本

1. 批量导出所有表结构（Shell 脚本）

2. 批量清理过期分区（Python 脚本）

脚本使用说明

内存管理解析及trouble shooting

一、Memory Tracker 核心机制

二、内存分配分为哪几部分

1. Jemalloc 内存分析（底层内存分配层）

核心分析目标

具体分析方法

（1）开启 Jemalloc 统计日志

（2）查看 Jemalloc 核心指标

（3）使用 Jemalloc 工具分析内存分配热点

生产常见问题与解决

2. Global 内存分析（全局系统层内存）

核心监控的 Global Tracker Label

具体分析方法

（1）通过 Web 接口获取 Global 内存明细

（2）定位 Global 内存异常的模块

（3）长期监控 Global 内存趋势

3. Query 内存分析（查询执行层内存）

核心分析目标

具体分析方法

（1）通过 Web 接口获取 Query 内存明细

（2）结合 Query Profile 分析内存热点

（3）监控 Query 内存的关键指标

（4）定位异常查询的 SQL

生产常见优化手段

4. Load 内存分析（数据导入层内存）

核心监控的 Load Tracker Label

具体分析方法

（1）通过 Web 接口获取 Load 内存明细

（2）结合导入日志分析内存异常

（3）监控 Load 内存的关键指标

（4）优化导入内存消耗

生产常见问题与解决

三、Memory Tracker 分析的通用流程（生产实战）

compaction文件合并机制

一、Doris 基于 LSM-Tree 的数据写入与 Compaction 核心机制

1. 类 LSM-Tree 的数据写入流程

2. Doris Compaction 的两种核心类型

二、Doris Compaction 调优策略（生产核心配置）

1. 全局 Compaction 策略调优（be.conf）

2. 表级别 Compaction 策略调优（ALTER TABLE）

3. 手动触发 Compaction（生产常用操作）

4. 生产调优的核心原则

三、Compaction 与 Load/Query 效率的关联

基础配置：`<col_name> <col_type>`（必填）

可选配置：`[ KEY ]`（维度字段标记）

可选配置：`[ <col_aggregate_type> ]`（聚合类型，仅聚合表用）

可选配置：`[ [ GENERATED ALWAYS ] AS (<col_generate_expression>) ]`（生成列）

可选配置：`[ [NOT] NULL ]`（非空约束）

1. 全局 Compaction 策略调优（`be.conf`）