news 2026/4/25 20:40:21

DeepSeek与Kimi多次「偶遇」,开源大模型改写中国AI产业格局!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek与Kimi多次「偶遇」,开源大模型改写中国AI产业格局!

【全球大模型更新,中国热闹非凡】

这两天,全球顶级大模型接连更新,重磅消息不断。中国也迎来热闹的一周,从周一开始,Qwen、Kimi、小米、腾讯相继发布最新模型。周五,千呼万唤的DeepSeek终于发布V4双版本,引发国内AI圈的一波海啸。中国迈入万亿参数俱乐部并已开源的模型有DeepSeek和Kimi两家,小米也预告将会开源最新的万亿模型。

【多次偶遇背后的「合谋」】

翻完DeepSeek V4近60页的技术报告,发现这两个已开源万亿模型之间的默契很可怕。往前溯源,DeepSeek和Kimi已经是第N次「偶遇」,这可能源于梁文锋和杨植麟对Scaling Law的共同信仰和对AGI的竞逐。从DeepSeek - R1和Kimi K1.5仅隔两小时发布,到Kimi K2.6与DeepSeek - V4在同一周发布,两家公司不是互相厮杀,而是以近乎「开源共享」的方式一起进步。引用车圈的话,「好的设计总是心有灵犀」,技术上的联动成为行业亮点。

【MLA注意力机制:DeepSeek创新,Kimi复用】

DeepSeek在V3中首创了MLA注意力机制,通过低秩压缩技术有效减少显存占用,让长上下文推理成为可能。这个创新很快被行业广泛认可,Kimi K2在自己的注意力机制中也采用了MLA注意力机制。

【二阶优化器:Kimi大规模验证,DeepSeek跟进】

2025年2月,Kimi发表论文,在480亿参数的Moonlight系列模型上验证了Muon优化器的效果,用来取代用了10年的行业标准技术Adam。2025年7月,在万亿参数Kimi K2中,二阶优化器Muon被首次大规模应用,展示了其在大规模语言模型训练中的优势。如今,DeepSeek V4也跟进用Muon优化器技术,实现训练效率的稳定性。两家公司相互吸纳底层优化技术,打破了技术壁垒,展现出深度合作。

【残差连接:两种不同的解决方案】

DeepSeek在V4中引入了mHC残差连接,目标是提高信息传递的效率。通过改变多头注意力的拼接方式,mHC提高了梯度流动的效率,实测训练效率提高了约30%。Kimi提出的Attention Residuals(注意力残差)优化了信息流的传递效率,提升了模型的表现。这一创新得到广泛认可,Andrej Karpathy、OpenAI推理之父Jerry Tworek点评,马斯克也点赞。这两种方案各有特色,展现了两家公司在同一技术问题上不同的思路。

【长上下文推理:两种技术路线的探索】

长上下文推理是AI模型的一大挑战,Kimi和DeepSeek思路不同。Kimi在2024年实现了百万Token上下文的能力,但成本问题大,超长上下文的计算开销线性增长,普通开发者难承受。2026年,DeepSeek选择了稀疏注意力,降低计算量,让百万上下文成本更可接受,但设计和调优难度较大。Kimi则推出了线性注意力架构,降低了长上下文的计算成本。这两种方案各有优势,Kimi和DeepSeek同时在这两条技术路线上发力,为未来的长上下文推理提供多种选择。

【从「两个公司」到「一套基础设施」】

DeepSeek和Kimi的「偶遇」故事关乎中国AI产业格局。GPT - 4参数量未公布,Claude 3.5 Opus闭源,而中国这两家创业公司做出同等规模模型并全部开源。这意味着开发者、研究机构、企业可免费获取模型进行二次开发和部署,企业私有化部署成本砍到原来的1/10,中小企业能在自己服务器上跑万亿参数级模型。生态也在成形,两者API调用量在OpenRouter平台上居中国前两名,Kimi被海外爆款编程工具「套壳」接入,DeepSeek被日本乐天集团包装成Rakuten AI 3.0。硅谷巨头也不得不正视这股力量,Meta将Llama 4与DeepSeek - V3.1以及Kimi - K2进行性能对比,黄仁勋在CES主题演讲上展示DeepSeek和Kimi K2 - Thinking模型。同时,两家公司都在国产芯片适配上投入,DeepSeek V4适配华为昇腾芯片,Kimi的Prefill - as - a - Service方案提升了国产芯片推理性能,为国产芯片进入大模型推理链条打开切入口。

【结语:两个广东人,撑起中国AI的半边天】

技术的高度取决于人的格局。2023年起步,DeepSeek与Kimi双双叩开百亿美金十角兽大门,保持业内人数精简、人才密度顶尖的配置。两位来自广东的创始人杨植麟与梁文锋,既是技术狂热信徒,也是中国AI国家队。他们在总理主持的座谈会上建言献策,是中国AI发展史上的注脚。他们引领技术范式,DeepSeek证明「思维链」威力,Kimi引领「智能体」落地狂潮。在追逐AGI的马拉松里,DeepSeek与Kimi有竞争也有共鸣,中国AI的底气在于这种技术火花和互利共生。双峰并峙,终将顶峰相见,中国大模型的万亿级航海时代才刚刚拉开序幕。那么,这两家公司未来还会带来怎样的惊喜呢?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 20:36:23

结构化输出与函数调用:智能代理系统设计核心解析

1. 项目概述:结构化输出与函数调用的本质差异在构建智能代理系统时,开发者常面临一个基础但关键的选择:该让代理返回结构化数据还是直接触发函数调用?这个问题看似简单,却直接影响着系统的设计哲学和实现路径。结构化输…

作者头像 李华
网站建设 2026/4/25 20:29:40

CentOS常用命令

[安装epel源]centos7:# rpm -Uvh https://dl.fedoraproject.org/pub/epel/7/x86_64/Packages/e/epel-release-7-11.noarch.rpm 或 # yum install epel-releasecentos6:#rpm -Uvh https://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm[查看使用磁盘空间…

作者头像 李华
网站建设 2026/4/25 20:26:18

APM/Pixhawk进阶玩法:串口配置全攻略与数据流优化,释放飞控全部潜力

APM/Pixhawk飞控串口配置与数据流优化实战指南 对于已经掌握基础飞控调试的无人机开发者而言,如何充分发挥APM/Pixhawk硬件平台的扩展潜力,成为进阶应用的关键。本文将深入解析多串口配置技巧与数据流优化方法,帮助您构建更强大的无人机系统。…

作者头像 李华