news 2026/6/25 11:13:56

RAG 系列(二十二):长上下文 vs RAG——要不要 RAG

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RAG 系列(二十二):长上下文 vs RAG——要不要 RAG

一个看似合理的问题

Gemini 1.5 Pro 支持 100 万 token 上下文,Claude 3.5 支持 20 万 token,GPT-4 Turbo 12.8 万 token。一部小说大约 15 万字,约 20 万 token,直接塞进去就能问。有人问:RAG 还有必要吗?

这个问题值得认真回答,因为它背后藏着一个真实的决策:给一个生产系统,我应该用 RAG 还是长上下文?


先把数字摆出来

大语言模型的上下文窗口(2024–2025):

模型上下文窗口约合文本量
Gemini 1.5 Pro1,000,000 tokens~750,000 词,约 1500 页
Claude 3.5 Sonnet200,000 tokens~150,000 词,约 300 页
GPT-4 Turbo128,000 tokens~96,000 词,约 190 页
GPT-4o128,000 tokens~96,000 词,约 190 页

看起来很多。但一个企业知识库有多少内容?

  • 中等规模公司的内部文档:数千篇,数百万字
  • 大型代码库:数万个文件,十亿 token+
  • 新闻/研究数据库:数百万篇文章

所有这些都超出了任何模型的上下文窗口。这是长上下文能力的物理上限。


长上下文的实际代价

“窗口大"不等于"免费”。每次请求都要处理所有 token,代价是真实的。

代价一:钱

按 2024 年末的价格粗估(输入 token):

模型每百万 token 价格100 万 token 一次请求
Gemini 1.5 Pro$1.25$1.25
Claude 3.5 Sonnet$3.00$3.00
GPT-4 Turbo$10.00$10.00

对比 RAG 的成本:

  • 检索阶段:只调用 Embedding API(< $0.001)
  • 生成阶段:只发送 2,000–5,000 token 的检索结果 + 问题(< $0.05)

同样的问题,RAG 的成本可以比长上下文低 20–200 倍。

如果一天有 1,000 个用户查询企业知识库:

  • 长上下文(1M token):约 $1,250/天
  • RAG(3K token 上下文):约 $3–15/天

代价二:延迟

处理更多 token = 更慢的响应。首 token 延迟(TTFT)随输入长度线性增长:

100K token 输入 → TTFT ~2–5 秒 1M token 输入 → TTFT ~15–30 秒(视模型和基础设施)

对话类应用 30 秒才开始输出,用户体验基本无法接受。

代价三:中间丢失问题

2023 年 Stanford 的研究 “Lost in the Middle”(Liu et al.)发现:当相关信息放在长上下文的中间时,LLM 的召回表现显著下降。信息在开头或结尾时表现最好,在中间时表现最差。

位置 vs 召回率(近似趋势): 开头(0-10%) ████████████████ 高 中间(40-60%) ██████ 低 结尾(90-100%) ████████████ 较高

这意味着你把 100 篇文档全塞进去,模型不一定能找到放在 50 号位置的那篇。


RAG 的实际代价

RAG 不是没有代价的。

代价一:检索不完美

向量检索是近似匹配,会出错:

  • 漏检(False
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 11:12:19

WinMerge对比日志和备份文件?用过滤器精准匹配,效率翻倍

WinMerge对比日志和备份文件&#xff1f;用过滤器精准匹配&#xff0c;效率翻倍 在日常运维和办公场景中&#xff0c;我们经常需要对比不同版本的日志文件或备份文件。比如app.log.1和app.log.2的差异分析&#xff0c;或者report_20240520.xlsx与report_20240521.xlsx的内容比对…

作者头像 李华
网站建设 2026/6/23 19:25:31

短视频矩阵管理实战:从手工操作到AI全链路自动化的技术演进

一、问题场景&#xff1a;矩阵运营为什么这么累&#xff1f; 做过短视频矩阵的团队&#xff0c;几乎都踩过同一个坑&#xff1a; 痛点真实数据5个平台 10个账号 每天手动发布50次耗时 3~4 小时/天视频素材分散在本地硬盘、网盘、微信群找一个素材平均 8 分钟私信/评论分散在…

作者头像 李华
网站建设 2026/6/23 19:25:32

Codex CLI 修复三类高频报错:冗余代码删减率提升62%、逻辑残缺补全准确率达89%

1. 冗余代码删减率提升62%?不是模型变强了,是它终于“看懂”你删哪行 我第一次在团队内部推广 Codex CLI 时,信心满满地让三位后端同学用它重构一个老接口的参数校验逻辑。结果第二天晨会,三个人交上来的 PR 差异巨大:有人生成了 87 行带完整单元测试的校验器;有人只写了…

作者头像 李华