news 2026/4/30 9:57:43

确认!DeepSeek多模态AI已经开测

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
确认!DeepSeek多模态AI已经开测
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek的视觉功能,真的来了!!

DeepSeek研究员陈小康发帖放出一条消息——

Now, we see you.

随后,另一位研究员陈德里也跟了一条,确认V4视觉模式已经开始灰度测试。

怎么说,小鲸鱼的多模态拼图,要补齐了。

已经具备真实图像理解能力

之前上传图片,模型只能识别图片中的文字,做做OCR工作。

今天一个小更新之后,被灰度到的幸运鹅首页已经出现了识图模式,下面还有一行小字表示图片理解能力内测中。

从幸运鹅分享的截图来看,DeepSeek视觉测试版已经具备真实图像理解能力,识别出了图片里的饮品、杯型等信息,思考4秒输出了完整的描述。

这是一张没有明显文字的图,明显与之前仅识别文字的模式不一样了。

V4,满血归来

放出消息的两位研究员,其中一位是陈小康,DeepSee多模态研究组负责人,北大博士毕业。

他是DeepSeek两个重磅多模态项目的核心作者:

  • Janus系列

    统一多模态理解与生成模型;

  • DeepSeek-VL2

    基于MoE架构的视觉语言模型。

简单说,DeepSeek的视觉能力,就是他带队搞出来的。

另一位陈德里主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向。

在过去两年的时间里,DeepSeek发布的多项重要研究成果,无论是V2、V3还是R1,几乎都能看到他的名字,这次的V4也不例外。

价格打骨折之后,视觉功能又来了,请问还有什么惊喜是我们不知道的!!!

不得不说,DeepSeek V4,这次是真满血归来了。

参考链接:
[1]https://x.com/victor207755822
[2]https://x.com/PKUCXK/status/2049381471669080209

👑 量子位智库「2026中国AI应用全景图谱」与「值得关注落地案例」评选启动征集!

👇 扫码申报,让你的产品定义2026中国AI应用行业格局。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 9:56:41

5个高效解决HTTP 429错误的终极策略:biliTickerBuy项目实战解析

5个高效解决HTTP 429错误的终极策略:biliTickerBuy项目实战解析 【免费下载链接】biliTickerBuy b站会员购购票辅助工具 项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy 在当今的抢票类应用开发中,HTTP 429错误处理是每个开发者…

作者头像 李华
网站建设 2026/4/30 9:49:02

视频字幕提取终极指南:如何用本地工具5分钟搞定87种语言字幕

视频字幕提取终极指南:如何用本地工具5分钟搞定87种语言字幕 【免费下载链接】video-subtitle-extractor 视频硬字幕提取,生成srt文件。无需申请第三方API,本地实现文本识别。基于深度学习的视频字幕提取框架,包含字幕区域检测、字…

作者头像 李华
网站建设 2026/4/30 9:48:38

为什么92%的PHP团队在LLM接入时丢掉上下文?Swoole长连接插件v2.3.0正式开源:含WebSocket保活心跳算法、Token自动续期模块、断线智能重连策略

更多请点击: https://intelliparadigm.com 第一章:PHP Swoole 结合 LLM 长连接方案 在构建高并发 AI 服务接口时,传统 PHP-FPM 模式难以维持低延迟、高吞吐的长连接会话。Swoole 作为高性能异步协程引擎,天然支持 WebSocket 和 …

作者头像 李华