训练一上大模型就 OOM，别先只会调 batch size：我在 RTX 3090 上把 activation checkpointing 的 3 条路都跑了一遍-深圳市維司達科技有限公司

训练一上大模型就 OOM，别先只会调 batch size：我在 RTX 3090 上把 activation checkpointing 的 3 条路都跑了一遍

很多人一遇到训练 OOM，第一反应就是把batch_size=8改成4，再改成2，最后把吞吐砍到自己都不想看。但我在 RTX 3090 上把同一个小型 Transformer 分别按不开 checkpoint、隔层 checkpoint、全量 checkpoint 跑完后发现：真正更值得先回答的，不是“要不要开”，而是你到底在用它换哪一层内存，又愿意多付出多少重算时间。

如果你最近在做 SFT、长序列训练、视觉 encoder 微调，或者面试里被问到“训练 OOM 怎么排查”，这篇文章最应该带走的不是一句“gradient checkpointing 能省显存”，而是这套更实用的判断顺序：先分清你卡的是权重、优化器状态还是激活；再决定 checkpoint 是默认起点、补救手段，还是根本不该先动的旋钮。

1. 先把名字讲清：activation checkpointing 和 gradient checkpointing 经常说的是同一件事

这两个词在社区里经常被混用，尤其是在 PyTorch 和 Hugging Fac

Local Deep Research 最近为什么这么火？如果你想把它当成本地版 Deep Research，先别只盯着模型，真正先决定效果的是这 3 层源码

Local Deep Research 最近为什么这么火？如果你想把它当成本地版 Deep Research，先别只盯着模型，真正先决定效果的是这 3 层源码很多人第一次看到 local-deep-research，都会把它理解成“把 Deep Research 搬到本地”的开源替代：接一个本地模型、跑个 Docker Compose、再配…

李华

为什么92%的企业大模型POC止步于演示厅？——2026奇点智能大会闭门报告首度流出

更多请点击： https://intelliparadigm.com 第一章：大模型落地案例集：2026奇点智能大会 2026奇点智能大会首次系统性展示了17个已规模化部署的大模型工业级应用，覆盖金融风控、生物医药研发、城市交通调度与多模态工业质检四大核心…

李华

Anthropic开发者大会放大招：Claude升级、算力扩容，多方向布局剑指大模型竞争！

Claude托管智能体升级，AI学会自我复盘进化Anthropic此次为Claude托管智能体升级多智能体编排、目标结果（Outcomes）、自主推演（Dreaming）三大能力。产品主管Angela Jiang、工程师Katelyn Lesse基于新功能自创Lumara创企…

李华

为Claude Code配置Taotoken作为稳定大模型供应商的详细步骤

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为Claude Code配置Taotoken作为稳定大模型供应商的详细步骤 Claude Code是一款广受开发者欢迎的AI编程助手工具，它支持…

李华

从‘鸡尾酒会问题’到智能音箱：聊聊AEC算法在远场语音交互里的那些坑

从‘鸡尾酒会问题’到智能音箱：AEC算法在远场语音交互中的技术深潜当你的智能音箱在播放音乐时突然被唤醒，或是电视背景音干扰了语音指令识别，背后是一场声学与算法的精密博弈。远场语音交互系统需要像人类听觉系统一样，在嘈杂环…

李华