CVPR 2026 A2A-MML开启征稿，邀您共探任意模态新范式-深圳市維司達科技有限公司

随着多模态大模型的飞速发展，我们正处于从“固定模态对”向“任意模态转换”跨越的关键节点。

我们诚邀您参加 CVPR 2026 A2A-MML Workshop！本次研讨会旨在汇聚视觉、语言、音频、3D、机器人及认知科学领域的专家，共同绘制任意模态智能（Any-to-Any Multimodal Intelligence）的未来蓝图。

研讨会简介

（Workshop Introduction）

近年来，大模型在 Vision-Language-Audio 等多模态领域取得了巨大突破，但现有系统仍受限于固定模态组合，难以实现真正的灵活推理与泛化。A2A-MML Workshop 旨在推动：

从 “固定模态对” → “任意模态组合（Any-to-Any）” 的范式转变

构建具备统一理解、转换与协作能力的多模态智能系统

我们的核心愿景是：

Bridging Representation, Transformation, and Collaboration
Toward Any-to-Any Multimodal Intelligence

核心信息

（Core Information）

Workshop 简称

A2A-MML

会议地点

Denver, Colorado（Hybrid Mode）

截稿日期（Deadline）

March 01, 2026（AOE）

录用通知（Notification）

March 19, 2026（AOE）

官方网站

https://a2a-mml-2026.vercel.app/

征稿主题

（Topics & Themes）

我们欢迎所有与多模态学习相关的投稿，特别关注以下前沿方向：

Multimodal Representation Learning（多模态表示学习）：解耦模态特定因素、学习泛化对齐空间及增强表示的可解释性。
Multimodal Transformation（多模态转换）：探索 text-to-image, image-to-video, video-to-audio 等跨模态生成机制及 Diffusion Transformer 框架。
Multimodal Synergistic Collaboration（多模态协同合作）：研究模态间的交互、补充与补偿机制，如协作注意力机制与跨模态反馈环路。
Benchmarking and Evaluation（基准测试与评估）：开发评估任意模态组合、转换保真度及推理一致性的新指标。
Other Emerging Topics（其他主题）：统一模态基座模型、具身智能中的表示学习、以及 3D/触觉/生理信号等稀缺模态的集成。

顶尖讲师阵容

（Keynote Speakers）

本次 Workshop 邀请到了多位学术界的领军人物分享最新洞察：

Paul Liang (MIT)
Manling Li (Northwestern University)
Mohit Bansal (UNC Chapel Hill)
Zhedong Zheng (University of Macau)
Yossi Gandelsman (Reve / TTIC)
Georgia Gkioxari (Caltech)
Saining Xie (NYU)

投稿指南

（Submission Guidelines）

Regular Papers

最多 8 页，介绍原始方法或新颖愿景。

Tiny/Short Papers

2-4 页，欢迎未发表的洞察、理论分析或实验复现。

奖励

所有录用论文将以 Poster 形式展示，其中 6-8 篇将被选为 Short Oral。研讨会还将评选出 Best Paper Award。

投稿系统

OpenReview

（https://openreview.net/group?id=thecvf.com/CVPR/2026/Workshop/A2A-MML#tab-recent-activity）

（Double-blind policy）

组织委员会

（Organizers）

由来自 Oxford, MIT, UNC, EPFL 和 University of Trento 的研究者共同组织：Shengqiong Wu, Wei Dai, Han Lin, Chenyu（Monica）Wang, Yichen Li, Sharut Gupta, Roman Bachmann, Elisa Ricci, Hao Fei.

期待在 Denver 与您共同探讨 A2A 的无限可能！

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

原神剧情助手：如何解放双手？告别重复点击的摸鱼神器

李华

基于UI-TARS-desktop的计算机视觉项目实战

基于UI-TARS-desktop的计算机视觉项目实战 1. 这不是传统意义上的计算机视觉工具第一次打开UI-TARS-desktop时，我下意识地去寻找OpenCV的Python接口、模型配置文件和训练脚本——毕竟在计算机视觉领域浸淫多年，这种条件反射早已刻进DNA。但界面安静地…

李华

驱动程序深度解析：从安装到优化的实战指南

驱动程序深度解析：从安装到优化的实战指南【免费下载链接】ViGEmBus 项目地址: https://gitcode.com/gh_mirrors/vig/ViGEmBus 驱动程序优化和设备模拟技术是现代系统开发中的关键环节，尤其对于游戏控制器模拟这类需要高精度和低延迟的应用场景…

李华

手把手教程：ESP32固件库下载及WiFi初始化

ESP32 Wi-Fi从“连不上”到“稳如磐石”的实战手记：固件、工具链与状态机的深度协同你是不是也经历过——刚把ESP32开发板插上电脑，idf.py build报错command not found；好不容易编译成功，烧录后串口只打印出wifi: state: init->…

李华

DeepSeek-OCR-2企业部署指南：对接LDAP认证+操作审计日志+用量统计看板

DeepSeek-OCR-2企业部署指南：对接LDAP认证操作审计日志用量统计看板 1. 为什么企业需要一个“可管理”的OCR系统？ 很多团队在试用 DeepSeek-OCR-2 后都会眼前一亮：表格识别准、手写体能处理、Markdown 输出干净、结构框选直观——但兴奋劲儿…

李华

还在手动抢红包？iOS智能响应助手让消息处理效率提升300%

还在手动抢红包？iOS智能响应助手让消息处理效率提升300% 【免费下载链接】WeChatRedEnvelopesHelper iOS版微信抢红包插件,支持后台抢红包项目地址: https://gitcode.com/gh_mirrors/we/WeChatRedEnvelopesHelper 在数字社交时代，微信红包已成为…

李华