DeepSeek与Kimi多次「偶遇」，开源大模型改写中国AI产业格局！-深圳市維司達科技有限公司

【全球大模型更新，中国热闹非凡】

这两天，全球顶级大模型接连更新，重磅消息不断。中国也迎来热闹的一周，从周一开始，Qwen、Kimi、小米、腾讯相继发布最新模型。周五，千呼万唤的DeepSeek终于发布V4双版本，引发国内AI圈的一波海啸。中国迈入万亿参数俱乐部并已开源的模型有DeepSeek和Kimi两家，小米也预告将会开源最新的万亿模型。

【多次偶遇背后的「合谋」】

翻完DeepSeek V4近60页的技术报告，发现这两个已开源万亿模型之间的默契很可怕。往前溯源，DeepSeek和Kimi已经是第N次「偶遇」，这可能源于梁文锋和杨植麟对Scaling Law的共同信仰和对AGI的竞逐。从DeepSeek - R1和Kimi K1.5仅隔两小时发布，到Kimi K2.6与DeepSeek - V4在同一周发布，两家公司不是互相厮杀，而是以近乎「开源共享」的方式一起进步。引用车圈的话，「好的设计总是心有灵犀」，技术上的联动成为行业亮点。

【MLA注意力机制：DeepSeek创新，Kimi复用】

DeepSeek在V3中首创了MLA注意力机制，通过低秩压缩技术有效减少显存占用，让长上下文推理成为可能。这个创新很快被行业广泛认可，Kimi K2在自己的注意力机制中也采用了MLA注意力机制。

【二阶优化器：Kimi大规模验证，DeepSeek跟进】

2025年2月，Kimi发表论文，在480亿参数的Moonlight系列模型上验证了Muon优化器的效果，用来取代用了10年的行业标准技术Adam。2025年7月，在万亿参数Kimi K2中，二阶优化器Muon被首次大规模应用，展示了其在大规模语言模型训练中的优势。如今，DeepSeek V4也跟进用Muon优化器技术，实现训练效率的稳定性。两家公司相互吸纳底层优化技术，打破了技术壁垒，展现出深度合作。

【残差连接：两种不同的解决方案】

DeepSeek在V4中引入了mHC残差连接，目标是提高信息传递的效率。通过改变多头注意力的拼接方式，mHC提高了梯度流动的效率，实测训练效率提高了约30%。Kimi提出的Attention Residuals（注意力残差）优化了信息流的传递效率，提升了模型的表现。这一创新得到广泛认可，Andrej Karpathy、OpenAI推理之父Jerry Tworek点评，马斯克也点赞。这两种方案各有特色，展现了两家公司在同一技术问题上不同的思路。

【长上下文推理：两种技术路线的探索】

长上下文推理是AI模型的一大挑战，Kimi和DeepSeek思路不同。Kimi在2024年实现了百万Token上下文的能力，但成本问题大，超长上下文的计算开销线性增长，普通开发者难承受。2026年，DeepSeek选择了稀疏注意力，降低计算量，让百万上下文成本更可接受，但设计和调优难度较大。Kimi则推出了线性注意力架构，降低了长上下文的计算成本。这两种方案各有优势，Kimi和DeepSeek同时在这两条技术路线上发力，为未来的长上下文推理提供多种选择。

【从「两个公司」到「一套基础设施」】

DeepSeek和Kimi的「偶遇」故事关乎中国AI产业格局。GPT - 4参数量未公布，Claude 3.5 Opus闭源，而中国这两家创业公司做出同等规模模型并全部开源。这意味着开发者、研究机构、企业可免费获取模型进行二次开发和部署，企业私有化部署成本砍到原来的1/10，中小企业能在自己服务器上跑万亿参数级模型。生态也在成形，两者API调用量在OpenRouter平台上居中国前两名，Kimi被海外爆款编程工具「套壳」接入，DeepSeek被日本乐天集团包装成Rakuten AI 3.0。硅谷巨头也不得不正视这股力量，Meta将Llama 4与DeepSeek - V3.1以及Kimi - K2进行性能对比，黄仁勋在CES主题演讲上展示DeepSeek和Kimi K2 - Thinking模型。同时，两家公司都在国产芯片适配上投入，DeepSeek V4适配华为昇腾芯片，Kimi的Prefill - as - a - Service方案提升了国产芯片推理性能，为国产芯片进入大模型推理链条打开切入口。

【结语：两个广东人，撑起中国AI的半边天】

技术的高度取决于人的格局。2023年起步，DeepSeek与Kimi双双叩开百亿美金十角兽大门，保持业内人数精简、人才密度顶尖的配置。两位来自广东的创始人杨植麟与梁文锋，既是技术狂热信徒，也是中国AI国家队。他们在总理主持的座谈会上建言献策，是中国AI发展史上的注脚。他们引领技术范式，DeepSeek证明「思维链」威力，Kimi引领「智能体」落地狂潮。在追逐AGI的马拉松里，DeepSeek与Kimi有竞争也有共鸣，中国AI的底气在于这种技术火花和互利共生。双峰并峙，终将顶峰相见，中国大模型的万亿级航海时代才刚刚拉开序幕。那么，这两家公司未来还会带来怎样的惊喜呢？