人工智能实战:大模型线上压测怎么做?从前期发现 P99 抖动到真实负载、长稳压测与容量基线
一、问题场景:短压测没问题,真实上线一小时后开始超时
很多大模型系统上线前都会压测。
但不少压测只是:
并发10 跑5分钟 接口都返回200然后就认为系统没问题。
真实上线后却出现:
1. P99 抖动严重 2. 队列逐渐积压 3. 显存越来越紧张 4. 流式首 token 变慢 5. 长请求拖慢短请求 6. 运行一小时后超时率升高这说明:
大模型系统压测不能只看 QPS,也不能只做短时间压测。我之前遇到过一个系统:
5分钟压测:P95 3.2s 1小时长稳压测:P95 7.8s,P99 25s根因是:
长上下文请求逐渐增加,队列中长任务堆积,短任务被拖慢。本文解决的问题是:
如何设计大模型线上压测方案,覆盖真实请求长度、