教程上新丨30毫秒处理100个检测对象，SAM 3实现可提示概念分割，性能提升2倍-深圳市維司達科技有限公司

在视觉场景中识别并分割任意物体的能力，是多模态人工智能的重要基础，可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM（Segment Anything Model）是 Meta 于 2023 年 4 月发布的人工智能通用模型，提出了针对图像和视频的可提示分割任务，主要支持基于点、框或掩码的提示来分割单个目标。

已推出的 SAM、SAM 2 模型在图像分割领域取得了显著进展，但仍未实现在输入内容中自动寻找并分割某一概念的所有实例。为填补这一空白，Meta 推出最新迭代版本 SAM 3，新版本不仅显著超越了前代模型的可提示视觉分割（PVS）性能，更率先为可提示概念分割（PCS）任务确立了新标准。

SAM 3 在点击提示的视觉分割方面（左图）超越了 SAM 2 并引入了新的可提示概念分割功能（右图）

SAM 3 架构包含一个检测器（detector）与一个跟踪器（tracker），二者共享同一视觉编码器。检测器基于 DETR 框架构建，能够接收文本、几何信息或示例图像作为条件输入。为应对开放词汇概念检测的挑战，研究人员引入了一个独立的「存在头（presence head）」，以此解耦识别与定位过程。

跟踪器则沿用了 SAM 2 的 Transformer 编码器-解码器架构，支持视频分割与交互式优化。这种检测与跟踪分离的设计，有效避免了两项任务之间的冲突：检测器需要保持身份无关性，而跟踪器的核心目标正是在视频中区分并维持不同对象的身份。

SAM 3 架构图

SAM 3 在基准测试 SA-Co 的图像和视频 PCS 任务上取得了 SOTA 结果，性能是前代系统的 2 倍，且在 H200 GPU 上，新版本处理包含超 100 个检测对象的单张图像仅需 30 毫秒。模型还能扩展到 3D 重建领域，助力家装预览、创意视频编辑和科学研究等多场景应用，为计算机视觉的未来发展提供强大动力。

「SAM3：视觉分割模型」已上线至 OpenBayes 公共教程板块，快来开启你的创作之旅吧！

教程链接：

https://go.openbayes.com/pnzQk

查看论文：

https://arxiv.org/abs/2511.16719

Demo 运行

01 Demo 运行阶段

1.登录 http://OpenBayes.com，在「公共教程」页面，选择「SAM3：视觉分割模型」教程。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长！

小贝总专属邀请链接（直接复制到浏览器打开）：

https://go.openbayes.com/9S6Dr

4.等待分配资源，首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示

Demo 运行页面提供 Image Segmentation、Video Text Prompting、Video Point/Box Prompting 三个功能，仅支持英文输入。本教程以 Video Text Prompting 为例。

将测试视频上传后，在「Text Prompt(s)」处输入需要识别分割的名词短语，依次点击「Apply Text Prompt(s)」「Propagate across video」以应用提示词，最后点击「Render MP4 for smooth playback」即可生成带有高亮识别目标的视频结果。

一起来看看小贝使用近期热映的《疯狂动物城2 》的预告片段进行的测试👇

教程链接：

https://go.openbayes.com/pnzQk

深度定制：在富文本编辑器中封装实用的 AI 写作助手功能

最近在开发一个多模态AI项目，里面有一个AI写作功能，就是将AI写作辅助功能集成到富文本编辑器中，该功能的交互方式方式灵活多变，需要思考清楚不同的使用场景和提升用户体验，这是实现该功能的难点。本文将深入探讨如何基…

李华

React Fiber 架构详解：为什么它能解决页面卡顿问题？

React Fiber 架构详解：为什么它能解决页面卡顿问题？本文从问题与目标、核心数据结构、调度与中断、渲染阶段与提交阶段、优先级与 lanes、并发特性到常见误区与优化建议，全景式拆解 React Fiber，为何它能够显著降低交互卡顿并提升…

李华

跨境电商直播带货APP开发要点：多语言、多币种与物流链路设计

过去三年，跨境电商直播的增长速度有目共睹。无论是东南亚市场的爆发、还是中东与拉美市场的迅速扩张，“跨境直播本地履约”的模式正在成为卖家走出去的标配。而要支撑这一套增长逻辑，一个稳定、低延迟、可快速迭代的跨境电商直播带货APP&…

李华

mysql与redis缓存一致性问题

先更新数据库，再删除redis 没有试探机制，如果redis删除失败，永久不一致并发问题：删除redis之前，其他线程读取到旧数据先删除缓存，再更新数据库没有试探机制，如果数据库更新失败，永…

李华

vLLM源码编译与定制化构建：从入门到精通的技术实践指南

vLLM源码编译与定制化构建：从入门到精通的技术实践指南【免费下载链接】vllm A high-throughput and memory-efficient inference and serving engine for LLMs 项目地址: https://gitcode.com/GitHub_Trending/vl/vllm 在大语言模型推理加速领域&#xff0…

李华

投入1分，回报10分？深挖AI开发平台“吸金”的三大黄金场景！

引言： 企业投资的终极目标是回报。所有技术引入，ROI（投资回报率）是最关键的考量。那么，AI开发平台到底能在哪些场景下，为企业带来最直接、最可观的“真金白银”？本文将抛开概念，直击…

李华