news 2026/4/23 1:38:43

ERNIE 4.5-VL-A3B:28B参数多模态AI新体验

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ERNIE 4.5-VL-A3B:28B参数多模态AI新体验

ERNIE 4.5-VL-A3B:28B参数多模态AI新体验

【免费下载链接】ERNIE-4.5-VL-28B-A3B-Base-Paddle项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-Base-Paddle

百度正式发布ERNIE 4.5系列最新多模态模型——ERNIE-4.5-VL-28B-A3B-Base-Paddle,以280亿总参数规模和创新的混合专家(MoE)架构,重新定义大模型的视觉-语言理解能力。

近年来,多模态大模型已成为AI领域的核心发展方向,从文本理解到图像识别,从跨模态推理到复杂场景分析,技术边界不断拓展。根据行业研究,2024年全球多模态AI市场规模已突破200亿美元,年增长率保持在65%以上。在此背景下,百度ERNIE系列持续迭代,此次推出的28B参数版本,标志着国内大模型在参数量级与技术创新上的双重突破。

ERNIE-4.5-VL-28B-A3B-Base-Paddle的核心优势体现在三大技术创新:首先是多模态异构MoE预训练,通过设计异构混合专家结构、模态隔离路由机制,以及路由器正交损失和多模态令牌平衡损失,实现文本与视觉模态的高效协同学习,避免单一模态对另一模态学习的干扰。其次是高效扩展基础设施,采用异构混合并行和分层负载均衡策略,结合FP8混合精度训练、细粒度重计算等技术,显著提升训练吞吐量;推理阶段则通过多专家并行协作和卷积码量化算法,实现4位/2位无损量化,大幅优化部署效率。最后是模态特定后训练,针对不同应用场景需求,通过监督微调(SFT)、直接偏好优化(DPO)及统一偏好优化(UPO)等方法,为语言理解、视觉-语言交互等任务提供定制化模型变体。

从模型配置看,该模型总参数达280亿,单令牌激活参数30亿,包含28层网络结构、20个查询头和4个键值头,文本与视觉专家各64个(每次激活6个),并共享2个专家,上下文长度支持131072 tokens,为超长文本处理与复杂图像理解提供强大算力支撑。其独特的三阶段训练策略尤为值得关注:前两阶段专注文本参数训练,奠定语言理解与长文本处理基础;第三阶段引入图像特征提取ViT、特征转换适配器及视觉专家模块,实现文本与视觉模态的相互增强,最终在万亿级令牌训练后达成多模态协同理解能力。

该模型的推出将对多模态AI应用生态产生深远影响。在技术层面,异构MoE架构为解决模态冲突问题提供了新思路,28B参数规模与高效推理方案的结合,有望推动大模型在边缘设备的部署应用。行业应用方面,其超长上下文处理能力与跨模态推理优势,将在智能内容创作、视觉问答系统、工业质检、医疗影像分析等领域释放巨大价值。对于开发者生态,基于PaddlePaddle框架的部署支持,将降低多模态应用开发门槛,加速AI技术的产业化落地。

ERNIE-4.5-VL-28B-A3B-Base-Paddle的发布,不仅展现了百度在大模型领域的技术积累,更标志着多模态AI从通用能力向场景化应用的深化。随着模型性能的持续优化与应用生态的不断丰富,我们有理由期待,多模态大模型将在更多垂直领域实现突破性应用,推动AI技术向更智能、更普惠的方向发展。

【免费下载链接】ERNIE-4.5-VL-28B-A3B-Base-Paddle项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-Base-Paddle

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 3:40:43

UI-TARS 72B:让AI像人一样玩转GUI界面

UI-TARS 72B:让AI像人一样玩转GUI界面 【免费下载链接】UI-TARS-72B-DPO 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-DPO 导语:字节跳动最新发布的UI-TARS 72B-DPO模型,通过一体化视觉语言模型架构&am…

作者头像 李华
网站建设 2026/4/23 13:52:34

Presenton:颠覆传统演示文稿制作的AI智能革命

Presenton:颠覆传统演示文稿制作的AI智能革命 【免费下载链接】presenton Open-Source, Locally-Run AI Presentation Generator (Gamma Alternative) 项目地址: https://gitcode.com/gh_mirrors/pr/presenton 在数字化办公时代,演示文稿已成为商…

作者头像 李华
网站建设 2026/4/23 13:55:12

Qwen3-32B-MLX 6bit:轻松解锁AI双模式推理

Qwen3-32B-MLX 6bit:轻松解锁AI双模式推理 【免费下载链接】Qwen3-32B-MLX-6bit 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-32B-MLX-6bit 导语:Qwen3-32B-MLX 6bit模型正式发布,通过创新的双模式推理机制与MLX框架优化…

作者头像 李华
网站建设 2026/4/23 14:37:40

ERNIE 4.5-A47B:300B参数大模型免费商用指南

ERNIE 4.5-A47B:300B参数大模型免费商用指南 【免费下载链接】ERNIE-4.5-300B-A47B-PT 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-300B-A47B-PT 导语:百度ERNIE 4.5系列再添重磅成员——3000亿参数的ERNIE-4.5-300B-A47B-PT…

作者头像 李华
网站建设 2026/4/18 7:46:15

QPDF:PDF文件无损处理的终极完整指南

QPDF:PDF文件无损处理的终极完整指南 【免费下载链接】qpdf QPDF: A content-preserving PDF document transformer 项目地址: https://gitcode.com/gh_mirrors/qp/qpdf 在现代数字化办公环境中,PDF文档因其格式稳定、跨平台兼容性强而成为主流文…

作者头像 李华
网站建设 2026/4/23 9:58:58

ERNIE 4.5-VL大模型:424B参数如何重塑多模态AI?

ERNIE 4.5-VL大模型:424B参数如何重塑多模态AI? 【免费下载链接】ERNIE-4.5-VL-424B-A47B-Base-Paddle 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-424B-A47B-Base-Paddle 导语:百度最新发布的ERNIE 4.5-VL大模…

作者头像 李华