【导语:近日,一款名为SubQ的AI模型横空出世,它基于完全亚二次方稀疏注意力架构(SSA),上下文高达1200万Token,计算量较Transformer暴减1000倍,成本不到Claude Opus的5%,引发AI界广泛关注。】
今天,全球首个基于完全亚二次方稀疏注意力架构(SSA)的模型SubQ震撼登场,其上下文高达1200万Token。相较于Transformer,它的计算量直接暴减1000倍。实验显示,100万token上下文时,SubQ比FlashAttention快52倍,成本不到Claude Opus的5%。
自2017年谷歌奠定Transformer架构的统治地位后,九年里,从GPT到Claude到Gemini,所有前沿大模型都基于密集注意力机制。Transformer工作方式暴力,每个token都要和序列中所有其他token比较,导致深陷「二次方复杂度」泥潭,上下文每增加一倍,计算成本飙升四倍,这使得几乎所有LLM的上下文卡在100万token左右。
SubQ的核心突破SSA架构,思路简单,不再让每个token和所有token做比较,只计算有意义的交互,跳过99%以上的无用计算。它具有线性扩展、内容依赖路由、精确检索三大关键特性,不是把密集注意力算得更快,而是让模型做更少的注意力计算。
在不同token长度下,SSA都展现出明显的速度优势,上下文越长,优势越碾压。算力消耗方面,100万token下,注意力FLOP减少62.5倍;1200万token下,接近1000倍。成本上,在RULER 128K基准测试上,SubQ花费8美元,Opus为2600美元,差距达300倍。且这些优势并未牺牲准确率。
Subquadratic成立于2024年,拿下2900万美元种子轮,估值5亿美元。公司仅13人,研究团队11人全是博士。此次产品线三条同时上线。
SubQ发布后,AI社区分裂成两个阵营。支持者认为这是2026年最疯狂的AI发布之一;怀疑派则直言是「骗子公司」。答案或许要等技术报告公开、独立benchmark复现之后才会揭晓。
编辑观点:SubQ模型若真能实现宣传中的效果,将是Transformer问世以来最重要的架构级突破,但在未得到验证前,其真实性仍存疑,值得行业持续关注。