当 CompletableFuture 遇到 AI：如何并行调用 5 个大模型并“投票”选出最佳答案？-深圳市維司達科技有限公司

😵 前言：谁在说谎？

我们在使用大模型（LLM）开发应用时，最头疼的问题就是**“幻觉”**。
当你问：“鲁迅和周树人是什么关系？”

GPT-4 说：“是同一个人。”
某个国产小模型说：“鲁迅是周树人的哥哥。”
另一个模型说：“鲁迅是周树人的邻居。”

如果你只依赖一个模型，你的应用可能随时会“翻车”。
在金融、医疗或法律咨询等严谨场景下，我们不能把赌注押在一个模型上。我们需要一个**“专家评审团”**。

今天的方案非常硬核：我们将同时并行调用 5 个不同的大模型（GPT-4, Claude 3, DeepSeek, 文心一言, 通义千问），让它们对同一个问题进行作答，然后通过“投票算法”选出出现频率最高的答案作为最终结果。

这就对 Java 的并发能力提出了极高要求：串行调用要 20 秒，如何用 CompletableFuture 将其压缩到 3 秒？

🧠 核心架构：多模型并发投票 (MoE 思想)

我们的目标不是让模型排队回答，而是“万箭齐发”。

架构流程图：

🛠️ 实战代码：CompletableFuture 的艺术

1. 定义模型接口

首先，我们定义一个统一的接口，并模拟 5 个不同的实现。

publicinterfaceLlmClient{Stringchat(Stringquestion);}// 模拟不同模型的实现类// 在真实场景中，这里会调用 HTTP API

2. 并行调用核心逻辑 (Magic Happens Here)

这是本文的精华。我们需要处理两个关键问题：

并行：所有模型必须同时开跑。
兜底：如果某个模型挂了或者太慢，不能拖累整体流程（设置超时）。

importjava.util.Arrays;importjava.util.List;importjava.util.Map;importjava.util.concurrent.CompletableFuture;importjava.util.concurrent.TimeUnit;importjava.util.stream.Collectors;publicclassModelEnsembleService{privatefinalList<LlmClient>clients;publicModelEnsembleService(List<LlmClient>clients){this.clients=clients;}publicStringgetBestAnswer(Stringquestion){// 1. 将每个模型调用封装成 CompletableFutureList<CompletableFuture<String>>futures=clients.stream().map(client->CompletableFuture.supplyAsync(()->client.chat(question))// 关键点：每个任务单独设置 3秒超时// 如果超时，返回 null，不抛异常打断主流程.completeOnTimeout(null,3,TimeUnit.SECONDS).exceptionally(ex->null)// 如果报错也忽略).collect(Collectors.toList());// 2. 等待所有任务完成 (join 阻塞主线程，直到所有 future 返回或超时)CompletableFuture.allOf(futures.toArray(newCompletableFuture[0])).join();// 3. 收集非空结果List<String>results=futures.stream().map(CompletableFuture::join).filter(response->response!=null&&!response.isBlank()).collect(Collectors.toList());// 4. 进行投票决策returnvote(results);}}

3. 投票算法 (Voting Mechanism)

对于文本生成的投票，比选择题要复杂。这里我们实现一个简易版：基于语义相似度的归类投票（实际生产中可以使用 Embedding 向量距离计算）。

为了演示简单，我们假设模型输出的是简短的确定性答案。

privateStringvote(List<String>answers){if(answers.isEmpty()){return"所有模型均调用失败";}System.out.println("收到有效回答数: "+answers.size());answers.forEach(System.out::println);// 简单统计：寻找出现次数最多的答案Map<String,Long>frequencyMap=answers.stream().collect(Collectors.groupingBy(String::trim,Collectors.counting()));// 找到票数最高的returnfrequencyMap.entrySet().stream().max(Map.Entry.comparingByValue()).map(Map.Entry::getKey).orElse(answers.get(0));// 兜底返回第一个// 进阶思路：如果 5 个答案都不一样，可以让 GPT-4 来当“裁判”进行总结。}

💥 效果演示：5 模大战

假设我们问：“Java 的String是基础数据类型吗？”

后台日志输出：

[pool-1-thread-1] GPT-4: 不是 [pool-1-thread-2] Claude: 不是引用类型 [pool-1-thread-3] Ernie: 是基础类型 (幻觉) [pool-1-thread-4] DeepSeek: 不是 [pool-1-thread-5] Qwen: (超时 null) 收到有效回答数: 4 投票结果: - "不是": 3 票 - "是基础类型": 1 票 🏆 最终当选答案: 不是

看！哪怕有一个模型（Ernie）因为训练数据问题回答错误，另一个模型（Qwen）因为网络超时挂了，我们的系统依然通过“多数服从少数”的机制，输出了正确的结论。

这就叫系统鲁棒性。