ClickHouse表突然变只读？别慌，这份保姆级排查与修复指南帮你搞定-深圳市維司達科技有限公司

ClickHouse表突然变只读？别慌，这份保姆级排查与修复指南帮你搞定

当你正在享受ClickHouse带来的极速查询体验时，突然收到告警："Table is in readonly mode"，这感觉就像高速行驶时突然踩了急刹车。别担心，这份指南将带你像专业DBA一样冷静应对。

1. 紧急响应：快速定位问题表

收到告警后，第一要务是确认哪些表进入了只读状态。登录ClickHouse服务器，执行这个侦探式查询：

SELECT database, table, zookeeper_path, replica_path, is_readonly, replica_is_active FROM system.replicas WHERE is_readonly = 1

这个查询会返回所有处于只读状态的复制表信息。特别注意replica_is_active字段，它为0表示副本已失去活性。

常见现象组合分析：

单表只读：通常指向表级别的ZooKeeper元数据问题
多表只读：可能暗示ZooKeeper集群或网络分区问题
全节点表只读：检查磁盘空间或文件系统权限

提示：立即记录查询结果，包括zookeeper_path信息，后续修复会用到这些关键路径。

2. 深度诊断：揪出只读状态的元凶

2.1 ZooKeeper健康检查

ZooKeeper是复制表的核心协调者，先用四步检查法：

连接测试：
```
echo stat | nc zk1.clickhouse 2181
```
观察返回的Mode（应为follower或leader）和Latency（应<10ms）
磁盘IO监控：
```
iostat -x 1 5 | grep -E 'Device|sda'
```
关注%util和await，持续>70%就需要优化
内存压力检查：
```
free -h && cat /proc/sys/vm/swappiness
```
swappiness值>30可能导致ZK频繁swap
网络分区检测：
```
mtr -r -c 10 zk1.clickhouse
```
检查丢包率和延迟波动

2.2 ClickHouse节点自身排查

执行这套组合诊断命令：

-- 检查副本队列状态 SELECT table, absolute_delay, queue_size, inserts_in_queue, merges_in_queue FROM system.replicas WHERE is_readonly = 1; -- 磁盘空间检查 SELECT name, free_space, total_space, formatReadableSize(free_space) as free, formatReadableSize(total_space) as total FROM system.disks;

关键阈值参考：

指标	危险阈值	临界阈值
absolute_delay	>300	>1000
queue_size	>50	>200
disk_free_percent	<20%	<10%

3. 阶梯式修复方案

根据故障影响范围选择修复策略：

3.1 最小影响方案（单表修复）

当只有个别表出现问题时，采用元数据重建法：

# 1. 停止ClickHouse服务 sudo systemctl stop clickhouse-server # 2. 备份元数据（绝对必要步骤！） cp -r /var/lib/clickhouse/metadata/ /backup/ch_metadata_$(date +%s) # 3. 清理故障表残留 rm -rf /var/lib/clickhouse/data/db_name/table_name rm -f /var/lib/clickhouse/metadata/db_name/table_name.sql # 4. ZooKeeper清理（使用实际路径） /usr/bin/zkCli.sh rmr /clickhouse/tables/shard_name/table_name/replicas/replica_name # 5. 重启服务并重建表 sudo systemctl start clickhouse-server clickhouse-client --query "CREATE TABLE db_name.table_name [...] ENGINE = Replicated[...]"

注意：执行前确保有其他健康副本，重建后数据会自动从副本同步。

3.2 中等风险方案（表迁移法）

当需要保持服务连续性时：

-- 1. 创建新表（保持原结构） CREATE TABLE db_name.table_name_new AS db_name.table_name ENGINE = ReplicatedReplacingMergeTree(...) -- 2. 双写过渡（应用层修改） INSERT INTO db_name.table_name_new SELECT * FROM db_name.table_name; -- 3. 验证数据一致性 SELECT (SELECT count() FROM db_name.table_name) as old_count, (SELECT count() FROM db_name.table_name_new) as new_count, old_count - new_count as diff; -- 4. 切换应用指向（建议使用分布式表名或视图抽象） RENAME TABLE db_name.table_name TO db_name.table_name_old; RENAME TABLE db_name.table_name_new TO db_name.table_name;

3.3 高风险方案（节点级重建）

当整个节点出现不可恢复故障时：

完整备份节点数据：

rsync -avz /var/lib/clickhouse/ ch_backup_$(date +%Y%m%d)/

清理节点环境：

sudo systemctl stop clickhouse-server rm -rf /var/lib/clickhouse/{data,metadata,store}/*

在ZooKeeper中清理节点注册信息：

zkCli.sh rmr /clickhouse/tables/./replicas/node_name

重建核心目录结构：

mkdir -p /var/lib/clickhouse/{data,metadata,store}/db_name chown -R clickhouse:clickhouse /var/lib/clickhouse

初始化节点：

CREATE DATABASE db_name; ATTACH TABLE db_name.table_name [...];

4. 防御性编程：构建只读免疫系统

4.1 ZooKeeper集群优化配置

在zoo.cfg中添加这些关键参数：

# 增加快照和日志保留 autopurge.snapRetainCount=10 autopurge.purgeInterval=24 # 调整JVM堆大小（根据物理内存） jvm.heap.size=8G # 分离数据和日志磁盘 dataDir=/ssd/zk/data dataLogDir=/hdd/zk/logs

验证配置生效：

echo conf | nc localhost 2181 | grep -E 'heap|purge|data'

4.2 ClickHouse防御性配置

在config.xml中增加这些保险策略：

<zookeeper> <session_timeout_ms>60000</session_timeout_ms> <operation_timeout_ms>30000</operation_timeout_ms> <root>/clickhouse</root> <!-- 多ZK服务器配置 --> <node index="1"> <host>zk1</host> <port>2181</port> </node> <node index="2"> <host>zk2</host> <port>2181</port> </node> </zookeeper> <merge_tree> <replicated_deduplication_window>1000</replicated_deduplication_window> <replicated_deduplication_window_seconds>900</replicated_deduplication_window_seconds> </merge_tree>

4.3 监控体系搭建

使用这套PromQL监控规则：

groups: - name: clickhouse_replica rules: - alert: ReplicaReadonly expr: clickhouse_metrics_ReplicaReadonly > 0 for: 5m labels: severity: critical annotations: summary: "表进入只读状态 (instance {{ $labels.instance }})" description: "{{ $labels.database }}.{{ $labels.table }} 处于只读状态超过5分钟" - alert: ZooKeeperLatency expr: rate(clickhouse_events_ZooKeeperWaitMicroseconds[1m]) > 500000 labels: severity: warning annotations: summary: "ZK延迟过高 (instance {{ $labels.instance }})"

配套的Grafana面板应包含这些关键指标：

指标类型	推荐刷新频率	报警阈值
副本延迟(seconds)	10s	>300
ZK请求延迟(ms)	5s	>500
副本队列大小	15s	>50

5. 高级恢复技巧：当标准方案失效时

5.1 元数据手工修复

当ZooKeeper数据损坏但本地元数据完好时：

提取表结构：

grep -A 50 "CREATE TABLE" /var/lib/clickhouse/metadata/db_name/table_name.sql

重建ZooKeeper节点：

zkCli.sh create /clickhouse/tables/shard/table "" zkCli.sh create /clickhouse/tables/shard/table/replicas "" zkCli.sh create /clickhouse/tables/shard/table/replicas/replica_name ""

注入初始元数据：

echo "stat" | zkCli.sh | grep "Mode:" > zk_mode.txt

5.2 数据一致性校验

使用这个分布式校验SQL：

WITH local AS (SELECT * FROM db_name.table_name_local), remote AS (SELECT * FROM remote('replica2:9000', 'db_name', 'table_name')) SELECT count() AS total_rows, countIf(local.hash = remote.hash) AS matching_rows, countIf(local.hash != remote.hash) AS diff_rows, countIf(isNull(local.hash)) AS local_null, countIf(isNull(remote.hash)) AS remote_null FROM local FULL OUTER JOIN remote USING (primary_key)

5.3 紧急写入方案

当必须立即写入只读表时：

-- 创建临时MergeTree表接收写入 CREATE TABLE db_name.table_name_temp AS db_name.table_name ENGINE = MergeTree() ORDER BY primary_key; -- 配置物化视图自动转发 CREATE MATERIALIZED VIEW db_name.table_name_mv TO db_name.table_name AS SELECT * FROM db_name.table_name_temp; -- 恢复后执行数据合并 INSERT INTO db_name.table_name SELECT * FROM db_name.table_name_temp;

ClickHouse表突然变只读？别慌，这份保姆级排查与修复指南帮你搞定