RAG 系列（二十二）：长上下文 vs RAG——要不要 RAG-深圳市維司達科技有限公司

Gemini 1.5 Pro 支持 100 万 token 上下文，Claude 3.5 支持 20 万 token，GPT-4 Turbo 12.8 万 token。一部小说大约 15 万字，约 20 万 token，直接塞进去就能问。有人问：RAG 还有必要吗？

这个问题值得认真回答，因为它背后藏着一个真实的决策：给一个生产系统，我应该用 RAG 还是长上下文？

大语言模型的上下文窗口（2024–2025）：

看起来很多。但一个企业知识库有多少内容？

所有这些都超出了任何模型的上下文窗口。这是长上下文能力的物理上限。

“窗口大"不等于"免费”。每次请求都要处理所有 token，代价是真实的。

按 2024 年末的价格粗估（输入 token）：

对比 RAG 的成本：

同样的问题，RAG 的成本可以比长上下文低 20–200 倍。

如果一天有 1,000 个用户查询企业知识库：

处理更多 token = 更慢的响应。首 token 延迟（TTFT）随输入长度线性增长：

100K token 输入 → TTFT ~2–5 秒 1M token 输入 → TTFT ~15–30 秒（视模型和基础设施）

对话类应用 30 秒才开始输出，用户体验基本无法接受。

2023 年 Stanford 的研究 “Lost in the Middle”（Liu et al.）发现：当相关信息放在长上下文的中间时，LLM 的召回表现显著下降。信息在开头或结尾时表现最好，在中间时表现最差。

位置 vs 召回率（近似趋势）： 开头（0-10%） ████████████████ 高 中间（40-60%） ██████ 低 结尾（90-100%） ████████████ 较高

这意味着你把 100 篇文档全塞进去，模型不一定能找到放在 50 号位置的那篇。

RAG 不是没有代价的。

向量检索是近似匹配，会出错：

WinMerge对比日志和备份文件？用过滤器精准匹配，效率翻倍在日常运维和办公场景中，我们经常需要对比不同版本的日志文件或备份文件。比如app.log.1和app.log.2的差异分析，或者report_20240520.xlsx与report_20240521.xlsx的内容比对…

李华

嘉立创SMT文件导出：90%工程师忽略的AD元件编号永久绑定技巧在硬件工程领域，效率往往隐藏在那些容易被忽视的细节中。想象一下，当你第五次为不同项目手动查找相同的0402电容在嘉立创商城的编号时，是否会感到一丝疲惫？这…

李华

从Cornell原始数据到GGCNN输入：机器人视觉研究者的数据流水线实战指南在机器人抓取研究领域，数据预处理环节往往成为复现论文成果的第一道门槛。许多研究者都有过这样的经历：读完一篇像GGCNN这样思路清晰的论文后，满怀热情准备复…

李华

从专利到量产：手机塑料镜头设计的实战避坑指南在光学设计领域，专利数据往往像一张藏宝图——它标明了目的地，却不会告诉你沿途会遇到多少沼泽和陷阱。特别是对于手机塑料镜头这类高度集成化的光学系统，专利文件中的理想化参数与实…

李华

一、问题场景：矩阵运营为什么这么累？ 做过短视频矩阵的团队，几乎都踩过同一个坑： 痛点真实数据5个平台 10个账号每天手动发布50次耗时 3~4 小时/天视频素材分散在本地硬盘、网盘、微信群找一个素材平均 8 分钟私信/评论分散在…

李华

1. 冗余代码删减率提升62%？不是模型变强了，是它终于“看懂”你删哪行我第一次在团队内部推广 Codex CLI 时，信心满满地让三位后端同学用它重构一个老接口的参数校验逻辑。结果第二天晨会，三个人交上来的 PR 差异巨大：有人生成了 87 行带完整单元测试的校验器；有人只写了…

李华