news 2026/4/23 10:43:06

迈向智能体时代:Gemini 2.0 AI模型技术详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
迈向智能体时代:Gemini 2.0 AI模型技术详解

介绍Gemini 2.0:面向智能体时代的新AI模型

Demis Hassabis 和 Koray Kavukcuoglu 代表 Gemini 团队撰写

在过去一年中,人工智能领域继续取得了令人难以置信的进展。今天,我们发布Gemini 2.0模型家族中的第一个模型:Gemini 2.0 Flash的实验版本。这是我们具备低延迟、在技术前沿提供增强性能的规模化主力模型。

同时,也通过展示由Gemini 2.0原生多模态能力支持的多个原型,分享我们在智能体研究领域的前沿探索。

Gemini 2.0 Flash

Gemini 2.0 Flash建立在1.5 Flash成功的基础上。1.5 Flash是迄今为止开发者中最受欢迎的模型,2.0 Flash在保持类似快速响应时间的同时,性能得到了增强。值得注意的是,在关键基准测试中,2.0 Flash的表现甚至超过了1.5 Pro,且速度快一倍。

2.0 Flash还带来了新的能力。除了支持图像、视频和音频等多模态输入外,2.0 Flash现在还支持多模态输出,例如原生生成的图像与文本混合输出,以及可操控的文本转语音(TTS)多语言音频。它还能原生调用工具,如搜索、代码执行以及第三方用户自定义函数。

目标是安全、快速地将模型交到人们手中。过去一个月,一直在分享Gemini 2.0的早期实验版本,并从开发者那里获得了宝贵的反馈。

Gemini 2.0 Flash现已作为实验模型向开发者提供,可通过某中心的AI Studio和Vertex AI中的Gemini API访问。所有开发者均可使用其多模态输入和文本输出功能,文本转语音和原生图像生成功能则提供给早期访问合作伙伴。通用可用性将于一月份随更多模型规模一同推出。

为了帮助开发者构建动态和交互式应用程序,还发布了一个新的多模态实时API,支持实时音频、视频流输入以及使用多个组合工具的能力。有关2.0 Flash和多模态实时API的更多信息,可在开发者博客中找到。

在AI助手中提供Gemini 2.0

同样从今天开始,全球Gemini用户可以通过在桌面端和移动网页的模型下拉菜单中选择,访问一个针对聊天优化的2.0 Flash实验版本,该版本也即将在Gemini移动应用上线。借助这个新模型,用户可以体验到更有帮助的AI助手。

明年初,Gemini 2.0将扩展到更多产品中。

用Gemini 2.0解锁智能体体验

Gemini 2.0 Flash的原生用户界面操作能力,连同其他改进,如多模态推理、长上下文理解、复杂指令跟随和规划、组合式函数调用、原生工具使用以及改进的延迟,共同协作,实现了一类新的智能体体验。

AI智能体的实际应用是一个充满令人兴奋可能性的研究领域。正在通过一系列原型来探索这个新前沿,这些原型可以帮助人们完成任务和做成事情。其中包括:

  • Project Astra更新:这是探索通用AI助手未来能力的研究原型。
  • 新的Project Mariner:探索人机交互的未来,从浏览器开始。
  • Jules:一个可以帮助开发者的AI驱动代码智能体。

目前仍处于开发的早期阶段,但很兴奋看到受信任的测试者如何使用这些新功能,以及可以从中吸取哪些经验教训,以便未来能让它们在产品中更广泛地应用。

Project Astra:在现实世界中使用多模态理解的智能体

自某中心在I/O大会上推出Project Astra以来,一直在从使用Android手机的受信任测试者那里学习。他们宝贵的反馈帮助更好地理解了通用AI助手在实践中如何工作,包括对安全和伦理的影响。

基于Gemini 2.0构建的最新版本改进包括:

  • 更好的对话:Project Astra现在能够进行多语言和混合语言对话,并能更好地理解口音和不常见词汇。
  • 新的工具使用:借助Gemini 2.0,Project Astra可以使用搜索、Lens和地图,使其在日常生活中的助手角色更加有用。
  • 更好的记忆:改进了Project Astra的记忆能力,同时让用户保持控制。它现在拥有长达10分钟的会话内记忆,并能记住更多过去与它的对话,从而更好地为您个性化。
  • 改进的延迟:凭借新的流式传输能力和原生音频理解,该智能体理解语言的速度大约接近人类对话的延迟。

正在努力将这类能力引入到像AI助手这样的产品中,以及其他形态的设备,例如眼镜。并且正在开始将受信任的测试者计划扩展到更多人,包括一个即将开始在原型眼镜上测试Project Astra的小组。

Project Mariner:可帮助您完成复杂任务的智能体

Project Mariner是一个基于Gemini 2.0构建的早期研究原型,旨在探索人机交互的未来,从浏览器开始。作为一个研究原型,它能够理解并推理浏览器屏幕上的信息,包括像素和文本、代码、图像、表单等网页元素,然后通过一个实验性的Chrome扩展程序,利用这些信息为您完成任务。

在WebVoyager基准测试(测试智能体在端到端真实世界网页任务上的性能)中评估时,Project Mariner以单一智能体设置取得了83.5%的先进结果。

虽然仍处于早期阶段,但Project Mariner表明,在浏览器中导航在技术上正成为可能,尽管目前并非总是准确且完成任务较慢,但这将随着时间的推移迅速改善。

为了安全、负责任地构建此项目,正在进行新型风险和缓解措施的积极研究,同时保持人在回路中。例如,Project Mariner只能在浏览器活动标签页中键入、滚动或点击,并且在执行某些敏感操作(如购买物品)之前,会请求用户最终确认。

受信任的测试者现已开始通过实验性Chrome扩展程序测试Project Mariner,同时也开始与更广泛的网络生态系统进行对话。

Jules:面向开发者的智能体

有关此进行中实验的更多信息,可在开发者博客文章中找到。

游戏及其他领域的智能体

Google DeepMind拥有利用游戏帮助AI模型在遵循规则、规划和逻辑方面变得更好的悠久历史。例如,就在上周,推出了Genie 2,这是一个可以从单张图像创建无尽多样可玩3D世界的AI模型。

秉承这一传统,我们已利用Gemini 2.0构建了能够帮助您导航视频游戏虚拟世界的智能体。它可以仅根据屏幕上的动作来推理游戏,并在实时对话中提供下一步行动建议。

正在与领先的游戏开发商(如Supercell)合作,探索这些智能体的工作方式,测试它们在从“部落冲突”等策略游戏到“卡通农场”等农场模拟游戏的多样化游戏规则和挑战中的解释能力。

除了充当虚拟游戏伙伴外,这些智能体甚至可以接入搜索,将您与网络上丰富的游戏知识连接起来。

除了在虚拟世界中探索智能体能力外,我们还在试验可以帮助物理世界的智能体,方法是将Gemini 2.0的空间推理能力应用于机器人技术。虽然仍处于早期阶段,但对能够在物理环境中提供协助的智能体潜力感到兴奋。

您可以在某中心实验室了解更多关于这些研究原型和实验的信息。

在智能体时代负责任的构建

Gemini 2.0 Flash和我们的研究原型使我们能够测试和迭代AI研究前沿的新能力,这些能力最终将使产品更有帮助。

在开发这些新技术的同时,我们认识到随之而来的责任,以及AI智能体对安全和保障提出的诸多问题。这就是为什么采取探索性和渐进式开发方法的原因,包括对多个原型进行研究、迭代实施安全训练、与受信任的测试者和外部专家合作,并进行广泛的风险评估以及安全和保障评估。

例如:

  • 作为安全流程的一部分,已与长期存在的内部评审小组(责任与安全委员会,RSC)合作,以识别和理解潜在风险。
  • Gemini 2.0的推理能力实现了AI辅助红队方法的重大进步,包括能够超越单纯的风险检测,现在可以自动生成评估和训练数据以缓解风险。这意味着可以更有效地大规模优化模型的安全性。
  • 随着Gemini 2.0的多模态增加了潜在输出的复杂性,将继续评估和训练模型在图像和音频输入输出方面的表现,以帮助提高安全性。
  • 对于Project Astra,正在探索防止用户无意中向智能体共享敏感信息的潜在缓解措施,并且已经内置了隐私控制,使用户可以轻松删除会话。同时,继续研究确保AI智能体作为可靠信息来源且不会代表您采取意外行动的方法。
  • 对于Project Mariner,正在努力确保模型学会优先考虑用户指令而非第三方提示注入尝试,使其能够识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过隐藏在电子邮件、文档或网站中的恶意指令而遭受欺诈和网络钓鱼攻击。

坚信,构建AI的唯一方法是从一开始就负责任,并将继续优先考虑将安全和责任作为模型开发过程的关键要素,同时推进模型和智能体的发展。

Gemini 2.0、AI智能体及未来

今天的发布标志着Gemini模型的新篇章。随着Gemini 2.0 Flash的发布,以及探索智能体可能性的一系列研究原型,已经达到了Gemini时代一个令人兴奋的里程碑。我们期待着在向AGI迈进的过程中,继续安全地探索所有触手可及的新可能性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 19:00:17

BEV感知十年演进

你问 BEV 感知十年演进,其实已经不是在问一种“感知表示形式”的未来,而是在问: 当系统把世界“压扁成一张俯视图”之后,它还能不能对真实世界的风险负责。 下面这份内容,不是 BEV 从 LSS 到 Occupancy 的技术路线回顾…

作者头像 李华
网站建设 2026/4/18 15:17:48

RTOS十年演进

结论:****RTOS 在 2025–2035 年将从“嵌入式内核”演进为“工业级、实时可治理平台”,在北京的自动驾驶、工业机器人与边缘 AI 场景对确定性、可观测性与安全认证**的需求最为迫切。 十年演进概览阶段时间重点初期2025–2027开源采纳、模块化、安全特性…

作者头像 李华
网站建设 2026/3/17 22:55:30

亲测好用!专科生毕业论文必备TOP8 AI论文写作软件测评

亲测好用!专科生毕业论文必备TOP8 AI论文写作软件测评 2026年专科生毕业论文写作工具测评:如何选到真正好用的AI助手 随着人工智能技术的不断进步,越来越多的专科生开始借助AI论文写作软件提升自己的学术效率。然而,面对市场上琳琅…

作者头像 李华
网站建设 2026/4/23 1:34:03

独家开源|RK3588 平台 YOLOv5 Android 源码级解析:NPU 量化、多线程架构与目标跟踪实战

文章目录 一、项目概述与目标 为什么选择RK3588? 二、开发环境准备 硬件与软件配置 项目源码获取 三、快速上手:编译与运行 项目目录结构解析 一键运行 四、系统架构深度解析 核心挑战与解决方案 1. 相机集成挑战 2. 并发处理难题 3. 图像格式转换 4. 数据缓存管理 系统整体架…

作者头像 李华
网站建设 2026/4/11 6:34:49

学长亲荐10个一键生成论文工具,MBA论文写作必备!

学长亲荐10个一键生成论文工具,MBA论文写作必备! AI 工具如何助力论文写作,提升效率与质量 在当前的学术环境中,MBA 学生和研究者面临着日益繁重的论文写作任务。无论是开题报告、文献综述还是实证分析,都需要大量的时…

作者头像 李华
网站建设 2026/4/22 8:56:10

技术日报|AionUi蝉联冠军单日破千星,MCP生态持续扩张

🌟 TrendForge 每日精选 - 发现最具潜力的开源项目 📊 今日共收录 8 个热门项目,涵盖 49 种编程语言🏆 今日最热项目 Top 10 🥇 iOfficeAI/AionUi 项目简介: Free, local, open-source Cowork for Gemini CLI, Claude …

作者头像 李华