NextStep-1横空出世：突破连续 tokens 瓶颈，革新自回归图像生成技术-深圳市維司達科技有限公司

2025年8月14日，一篇题为《NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale》的学术论文在 arXiv 平台正式发布，迅速引发人工智能领域的广泛关注。该研究由NextStep团队领衔，联合 Chunrui Han、Guopeng Li、Jingwei Wu 等三十余位学者共同完成，提出了一种全新的自回归图像生成范式，成功解决了传统模型在处理连续图像数据时面临的效率与质量瓶颈。截至目前，该论文在Hugging Face平台已收获144次点赞，并跻身当日热门论文榜单第二位，成为近期计算机视觉领域最受瞩目的突破性成果之一。

【免费下载链接】NextStep-1-Large-Pretrain项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain

突破传统：连续 tokens 引领自回归模型新革命

在当前的文本到图像生成领域，自回归（AR）模型始终面临着一个棘手的技术困境：如何高效处理图像数据的连续性特征。现有方案主要分为两大阵营：一类依赖计算成本高昂的扩散模型来处理连续图像 tokens，但这种方式往往需要庞大的算力支持，难以在实际应用中普及；另一类则采用矢量量化（VQ）技术将连续数据离散化，虽然降低了计算复杂度，却不可避免地引入了量化损失，导致生成图像的细节保真度大打折扣。

NextStep-1的横空出世，为这一僵局带来了颠覆性的解决方案。该模型创新性地采用“140亿参数自回归主体+1.57亿参数流匹配头”的双层架构，首次实现了离散文本 tokens 与连续图像 tokens 的端到端联合建模。通过优化的 next-token 预测目标函数，模型能够直接学习连续图像空间的概率分布，既规避了扩散模型的计算冗余，又消除了矢量量化带来的信息损失。实验结果表明，NextStep-1在MS-COCO、FFHQ等权威数据集上的FID（Fréchet Inception Distance）指标显著优于现有自回归模型，尤其在高分辨率图像（如1024×1024）的细节生成上展现出前所未有的表现力。

全能选手：从图像生成到精准编辑的跨场景突破

NextStep-1的技术突破不仅体现在图像生成的质量飞跃上，更彰显了其在复杂视觉任务中的强大泛化能力。研究团队特别强调，该模型在图像编辑领域表现出令人惊喜的性能——通过保持文本与图像 tokens 的统一建模框架，用户只需输入简单的文本指令，即可实现对现有图像的精细化修改，包括风格迁移、内容增减、局部重构等复杂操作。这种“生成-编辑一体化”的设计理念，打破了传统模型在不同视觉任务间需要重新训练或微调的局限，极大提升了模型的实用价值。

为验证模型的鲁棒性，研究团队进行了多维度对比实验。在文本引导的图像编辑任务中，NextStep-1在保持主体内容一致性的同时，对细节修改的准确率达到89.7%，远超同类模型的平均水平（约76.2%）。更值得关注的是，该模型展现出优异的跨模态理解能力，能够精准捕捉文本指令中的情感倾向与美学需求，生成符合人类主观偏好的视觉内容。这种“以用户为中心”的生成特性，为艺术创作、广告设计、数字媒体等行业提供了全新的工具支持。

开放共享：推动视觉生成模型的普惠化进程

在人工智能技术快速发展的今天，开源共享已成为推动科研创新的核心动力。NextStep团队秉承这一理念，宣布将开放模型的源代码、预训练权重及相关技术文档，致力于构建一个开放协作的研究生态。目前，用户可通过GitCode平台获取模型的基础版本（仓库地址：https://gitcode.com/StepFun/NextStep-1-Large-Pretrain），并在Hugging Face Spaces体验专为图像编辑优化的演示版本（stepfun-ai/NextStep-1-Large-Edit）。

这一开放举措迅速获得了学术界与产业界的积极响应。Hugging Face社区用户“linoyts”评价道：“这种将前沿技术普惠化的做法令人振奋，期待看到开发者基于NextStep-1构建更多创新应用。”研究团队表示，未来将持续优化模型的推理效率，推出轻量级版本以适配边缘计算设备，并计划发布多语言支持的升级版，进一步降低技术使用门槛。

未来展望：连续 tokens 开启视觉智能新纪元

NextStep-1的成功不仅标志着自回归模型在连续数据建模领域的重大突破，更预示着视觉生成技术正朝着“更高效、更精准、更通用”的方向加速演进。随着模型参数规模的扩大与训练数据的积累，我们有理由相信，连续 tokens 技术将在视频生成、3D建模、虚拟人创建等更广阔的领域释放潜力。

对于普通用户而言，这意味着曾经需要专业技能的视觉创作任务，未来可能通过简单的文本交互就能完成；对于企业开发者，NextStep-1提供了一个高度可定制的技术底座，可快速集成到内容生产、电商营销、游戏开发等业务场景中；而对于学术界，该模型开源的技术细节将为探索连续数据建模的理论边界提供宝贵的实践参考。

在人工智能与人类创造力日益融合的浪潮中，NextStep-1无疑为我们打开了一扇新的大门。正如论文结语所强调的：“真正的视觉智能，应当让机器不仅能‘看见’世界，更能‘理解’并‘创造’符合人类想象的世界。”随着技术的不断迭代，我们期待看到更多像NextStep-1这样的突破性成果，共同推动人工智能从“工具”向“伙伴”的角色转变，为人类社会的创新发展注入源源不断的动力。

【免费下载链接】NextStep-1-Large-Pretrain项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考