迈向智能体时代：Gemini 2.0 AI模型技术详解-深圳市維司達科技有限公司

介绍Gemini 2.0：面向智能体时代的新AI模型

Demis Hassabis 和 Koray Kavukcuoglu 代表 Gemini 团队撰写

在过去一年中，人工智能领域继续取得了令人难以置信的进展。今天，我们发布Gemini 2.0模型家族中的第一个模型：Gemini 2.0 Flash的实验版本。这是我们具备低延迟、在技术前沿提供增强性能的规模化主力模型。

同时，也通过展示由Gemini 2.0原生多模态能力支持的多个原型，分享我们在智能体研究领域的前沿探索。

Gemini 2.0 Flash

Gemini 2.0 Flash建立在1.5 Flash成功的基础上。1.5 Flash是迄今为止开发者中最受欢迎的模型，2.0 Flash在保持类似快速响应时间的同时，性能得到了增强。值得注意的是，在关键基准测试中，2.0 Flash的表现甚至超过了1.5 Pro，且速度快一倍。

2.0 Flash还带来了新的能力。除了支持图像、视频和音频等多模态输入外，2.0 Flash现在还支持多模态输出，例如原生生成的图像与文本混合输出，以及可操控的文本转语音（TTS）多语言音频。它还能原生调用工具，如搜索、代码执行以及第三方用户自定义函数。

目标是安全、快速地将模型交到人们手中。过去一个月，一直在分享Gemini 2.0的早期实验版本，并从开发者那里获得了宝贵的反馈。

Gemini 2.0 Flash现已作为实验模型向开发者提供，可通过某中心的AI Studio和Vertex AI中的Gemini API访问。所有开发者均可使用其多模态输入和文本输出功能，文本转语音和原生图像生成功能则提供给早期访问合作伙伴。通用可用性将于一月份随更多模型规模一同推出。

为了帮助开发者构建动态和交互式应用程序，还发布了一个新的多模态实时API，支持实时音频、视频流输入以及使用多个组合工具的能力。有关2.0 Flash和多模态实时API的更多信息，可在开发者博客中找到。

在AI助手中提供Gemini 2.0

同样从今天开始，全球Gemini用户可以通过在桌面端和移动网页的模型下拉菜单中选择，访问一个针对聊天优化的2.0 Flash实验版本，该版本也即将在Gemini移动应用上线。借助这个新模型，用户可以体验到更有帮助的AI助手。

明年初，Gemini 2.0将扩展到更多产品中。

用Gemini 2.0解锁智能体体验

Gemini 2.0 Flash的原生用户界面操作能力，连同其他改进，如多模态推理、长上下文理解、复杂指令跟随和规划、组合式函数调用、原生工具使用以及改进的延迟，共同协作，实现了一类新的智能体体验。

AI智能体的实际应用是一个充满令人兴奋可能性的研究领域。正在通过一系列原型来探索这个新前沿，这些原型可以帮助人们完成任务和做成事情。其中包括：

Project Astra更新：这是探索通用AI助手未来能力的研究原型。
新的Project Mariner：探索人机交互的未来，从浏览器开始。
Jules：一个可以帮助开发者的AI驱动代码智能体。

目前仍处于开发的早期阶段，但很兴奋看到受信任的测试者如何使用这些新功能，以及可以从中吸取哪些经验教训，以便未来能让它们在产品中更广泛地应用。

Project Astra：在现实世界中使用多模态理解的智能体

自某中心在I/O大会上推出Project Astra以来，一直在从使用Android手机的受信任测试者那里学习。他们宝贵的反馈帮助更好地理解了通用AI助手在实践中如何工作，包括对安全和伦理的影响。

基于Gemini 2.0构建的最新版本改进包括：

更好的对话：Project Astra现在能够进行多语言和混合语言对话，并能更好地理解口音和不常见词汇。
新的工具使用：借助Gemini 2.0，Project Astra可以使用搜索、Lens和地图，使其在日常生活中的助手角色更加有用。
更好的记忆：改进了Project Astra的记忆能力，同时让用户保持控制。它现在拥有长达10分钟的会话内记忆，并能记住更多过去与它的对话，从而更好地为您个性化。
改进的延迟：凭借新的流式传输能力和原生音频理解，该智能体理解语言的速度大约接近人类对话的延迟。

正在努力将这类能力引入到像AI助手这样的产品中，以及其他形态的设备，例如眼镜。并且正在开始将受信任的测试者计划扩展到更多人，包括一个即将开始在原型眼镜上测试Project Astra的小组。

Project Mariner：可帮助您完成复杂任务的智能体

Project Mariner是一个基于Gemini 2.0构建的早期研究原型，旨在探索人机交互的未来，从浏览器开始。作为一个研究原型，它能够理解并推理浏览器屏幕上的信息，包括像素和文本、代码、图像、表单等网页元素，然后通过一个实验性的Chrome扩展程序，利用这些信息为您完成任务。

在WebVoyager基准测试（测试智能体在端到端真实世界网页任务上的性能）中评估时，Project Mariner以单一智能体设置取得了83.5%的先进结果。

虽然仍处于早期阶段，但Project Mariner表明，在浏览器中导航在技术上正成为可能，尽管目前并非总是准确且完成任务较慢，但这将随着时间的推移迅速改善。

为了安全、负责任地构建此项目，正在进行新型风险和缓解措施的积极研究，同时保持人在回路中。例如，Project Mariner只能在浏览器活动标签页中键入、滚动或点击，并且在执行某些敏感操作（如购买物品）之前，会请求用户最终确认。

受信任的测试者现已开始通过实验性Chrome扩展程序测试Project Mariner，同时也开始与更广泛的网络生态系统进行对话。

Jules：面向开发者的智能体

有关此进行中实验的更多信息，可在开发者博客文章中找到。

游戏及其他领域的智能体

Google DeepMind拥有利用游戏帮助AI模型在遵循规则、规划和逻辑方面变得更好的悠久历史。例如，就在上周，推出了Genie 2，这是一个可以从单张图像创建无尽多样可玩3D世界的AI模型。

秉承这一传统，我们已利用Gemini 2.0构建了能够帮助您导航视频游戏虚拟世界的智能体。它可以仅根据屏幕上的动作来推理游戏，并在实时对话中提供下一步行动建议。

正在与领先的游戏开发商（如Supercell）合作，探索这些智能体的工作方式，测试它们在从“部落冲突”等策略游戏到“卡通农场”等农场模拟游戏的多样化游戏规则和挑战中的解释能力。

除了充当虚拟游戏伙伴外，这些智能体甚至可以接入搜索，将您与网络上丰富的游戏知识连接起来。

除了在虚拟世界中探索智能体能力外，我们还在试验可以帮助物理世界的智能体，方法是将Gemini 2.0的空间推理能力应用于机器人技术。虽然仍处于早期阶段，但对能够在物理环境中提供协助的智能体潜力感到兴奋。

您可以在某中心实验室了解更多关于这些研究原型和实验的信息。

在智能体时代负责任的构建

Gemini 2.0 Flash和我们的研究原型使我们能够测试和迭代AI研究前沿的新能力，这些能力最终将使产品更有帮助。

在开发这些新技术的同时，我们认识到随之而来的责任，以及AI智能体对安全和保障提出的诸多问题。这就是为什么采取探索性和渐进式开发方法的原因，包括对多个原型进行研究、迭代实施安全训练、与受信任的测试者和外部专家合作，并进行广泛的风险评估以及安全和保障评估。

例如：

作为安全流程的一部分，已与长期存在的内部评审小组（责任与安全委员会，RSC）合作，以识别和理解潜在风险。
Gemini 2.0的推理能力实现了AI辅助红队方法的重大进步，包括能够超越单纯的风险检测，现在可以自动生成评估和训练数据以缓解风险。这意味着可以更有效地大规模优化模型的安全性。
随着Gemini 2.0的多模态增加了潜在输出的复杂性，将继续评估和训练模型在图像和音频输入输出方面的表现，以帮助提高安全性。
对于Project Astra，正在探索防止用户无意中向智能体共享敏感信息的潜在缓解措施，并且已经内置了隐私控制，使用户可以轻松删除会话。同时，继续研究确保AI智能体作为可靠信息来源且不会代表您采取意外行动的方法。
对于Project Mariner，正在努力确保模型学会优先考虑用户指令而非第三方提示注入尝试，使其能够识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过隐藏在电子邮件、文档或网站中的恶意指令而遭受欺诈和网络钓鱼攻击。

坚信，构建AI的唯一方法是从一开始就负责任，并将继续优先考虑将安全和责任作为模型开发过程的关键要素，同时推进模型和智能体的发展。

Gemini 2.0、AI智能体及未来

今天的发布标志着Gemini模型的新篇章。随着Gemini 2.0 Flash的发布，以及探索智能体可能性的一系列研究原型，已经达到了Gemini时代一个令人兴奋的里程碑。我们期待着在向AGI迈进的过程中，继续安全地探索所有触手可及的新可能性。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）