news 2026/4/23 14:49:28

导航成本与复杂性:思维混合 LLM 级联揭示了高效部署大语言模型的路径

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
导航成本与复杂性:思维混合 LLM 级联揭示了高效部署大语言模型的路径

原文:towardsdatascience.com/navigating-cost-complexity-mixture-of-thought-llm-cascades-illuminate-a-path-to-efficient-large-23291d1eda41?source=collection_archive---------5-----------------------#2024-03-06

https://medium.com/@yuval_domino?source=post_page---byline--23291d1eda41--------------------------------https://towardsdatascience.com/?source=post_page---byline--23291d1eda41-------------------------------- Yuval Zukerman

·发布于Towards Data Science ·5 分钟阅读·2024 年 3 月 6 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/535098db554b3f659cfd241166a5b1b7.png

图片来源:Joshua Sortino 在Unsplash

如果我告诉你,在不牺牲准确性的情况下,你可以节省 60%或更多的 LLM API 开销,你会相信吗?令人惊讶的是,现在你可以。

大型语言模型(LLM)现在已经成为我们日常生活的一部分。公司利用这项技术来自动化流程、改善客户体验、开发更好的产品、节省开支等。

托管自己的 LLM 非常具有挑战性。它们提供了广泛的功能,但运行成本通常很高。它们通常需要复杂的基础设施和大量数据。成本和复杂性是你使用提示工程的原因。你甚至可能使用检索增强生成(RAG)来改善上下文并减少幻觉。通过这两种技术,你将 LLM 的运行工作卸载给像 OpenAI、Cohere 或 Google 这样的公司。然而,将 LLM 的应用扩展到新的使用场景,尤其是使用最新的强大模型,可能会产生一个之前没有预料到的新成本。较弱的模型可能更便宜,但你能信任它们回答复杂的问题吗?现在,新的研究展示了如何节省开支,并获得与强大模型相媲美,甚至更好的 LLM 结果。

了解 LLM 级联

在追求降低 LLM 成本的过程中,研究人员转向了 LLM 级联的概念。在黑暗时代,也就是 ChatGPT 推出之前,谷歌和多伦多大学的一个团队定义了这个术语,指的是利用概率计算,通过多个 LLM 获得最佳结果的程序。

最近,FrugalGPT 论文将级联定义为将用户查询依次发送给一系列 LLM,从较弱到较强,直到答案足够好为止。FrugalGPT 级联使用专门的模型来确定何时答案达到了质量阈值,足够好。

一篇来自乔治梅森大学、微软和弗吉尼亚理工大学的最新论文《‘基于思维混合表示的低成本推理的大型语言模型级联’》提供了一种替代方案:一种可以判断答案是否足够好的方法,而无需微调另一个模型。

思维混合 LLM 级联

与使用多个 LLM 不同,‘思维混合’(MoT)推理只使用两个——GPT 3.5 Turbo 和 GPT 4。前者被认为是‘较弱’的 LLM,而后者则是‘较强’的 LLM。作者利用 LLM 的‘答案一致性’来判断 LLM 的回答是否足够好。当 LLM 对类似提示给出一致的回答时,说明它对答案有信心。因此,当较弱的 LLM 的回答一致时,就不需要调用较强的 LLM。相反,当 LLM 缺乏信心时,它们会给出不一致的回答。这时,就需要更强的 LLM 来回答提示。(注:你也可以选择任何较弱/较强的 LLM 组合。)

这些提示本身使用少量示例上下文提示,以提高 LLM 回答质量。这样的提示通过提供类似问题和答案的示例来引导 LLM 的回应。

为了改进模型推理并简化一致性测量,研究人员通过‘混合’两种提示技术,提出了一种新的推理任务提示方法:

论文还介绍了两种确定答案一致性的方法:

由于投票方法需要多个提示,因此当有预算来指导阈值时,它可能更为适用。

结论:思维混合帮助你节省成本

让我们看看 MoT 技术节省了多少成本,以及它对答案准确性的影响。

研究人员使用以下公式来计算提示成本:

结果非常显著:

在内部托管和管理大型语言模型(LLMs)带来了显著的挑战。它们带来了复杂性、高成本,并且需要大量的基础设施和数据资源。因此,对于希望利用 LLM 广泛能力的组织来说,LLM 呈现出实质性的障碍。这可能促使你转向托管的 LLM。然而,这种方法在扩展到新的应用场景时,往往给公司带来预料之外的成本增加和预算挑战。当整合最新的强大模型时,这一点尤为明显。为了避免这种命运,你面临一个新的困境:你能信任较弱且更实惠的模型吗?你能克服它们在处理复杂问题时的准确性顾虑吗?

LLM 级联与思维混合(MoT)提供了两项重要的进展:

  1. 相较于仅使用最新模型,能够实现显著的成本节省。

  2. 与最新模型相当的可验证结果。

这一突破为组织提供了一种实用且高效的方法,在 LLM 的强大能力与有效管理成本之间找到微妙的平衡。

Domino 的工作人员软件工程师 Subir Mansukhani 为这篇文章做出了贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 8:22:22

YOLO12开箱即用指南:一键部署最新目标检测模型

YOLO12开箱即用指南:一键部署最新目标检测模型 YOLO12不是一次简单迭代,而是一次架构级跃迁。它不再依赖传统CNN主干的堆叠式特征提取,而是以注意力机制为设计原点重构整个检测流程——位置感知器隐式编码空间关系,区域注意力动态…

作者头像 李华
网站建设 2026/4/23 9:59:55

Face3D.ai Pro镜像免配置教程:开箱即用的Gradio深色UI 3D人脸重建环境

Face3D.ai Pro镜像免配置教程:开箱即用的Gradio深色UI 3D人脸重建环境 1. 为什么你需要一个“开箱即用”的3D人脸重建环境? 你是否试过部署一个3D人脸重建项目?下载模型、安装CUDA版本匹配的PyTorch、解决OpenCV编译报错、手动修改Gradio默…

作者头像 李华
网站建设 2026/4/22 23:59:47

开箱即用Janus-Pro-7B:Ollama部署+多模态效果展示

开箱即用Janus-Pro-7B:Ollama部署多模态效果展示 Janus-Pro-7B不是又一个“能看图说话”的模型,而是真正把“理解”和“生成”拧成一股绳的多模态新范式。它不靠堆参数,也不靠拼数据量,而是用一套精巧的架构设计,让同…

作者头像 李华
网站建设 2026/4/23 9:55:38

Qwen3-ForcedAligner-0.6B开箱即用:语音标注不再难

Qwen3-ForcedAligner-0.6B开箱即用:语音标注不再难 1. 为什么语音对齐一直是个“隐形难题” 你有没有遇到过这些场景: 做字幕时,反复拖动时间轴对齐每一句台词,一集20分钟的视频花掉半天;给儿童语言发育评估录音做音…

作者头像 李华