大模型的发展历程: 从文本到音视频生成的技术演进-深圳市維司達科技有限公司

个人阶段性总结，仅供参考。

近年来，大模型技术飞速发展，不仅实现了流畅的文本生成，更在图像、视频等多模态生成领域取得突破性进展。这些能力的背后，是两大核心技术路线的持续迭代与融合——基于Transformer架构的序列建模，以及以潜在扩散模型为代表的生成式模型。本文将从技术演进的视角，梳理大模型从文本处理到多模态生成的发展脉络，拆解核心技术的迭代逻辑与融合应用。

一、文本生成大模型：从RNN到Transformer的序列建模革命

在Transformer架构诞生之前，自然语言处理（NLP）领域已发展多年，但受限于模型设计，长期面临长文本建模能力弱、计算效率低的瓶颈。早期的文本序列处理主要依赖循环神经网络（RNN），但其存在明显的缺陷：容易出现梯度消失问题，对距离较远的前文信息捕捉能力差，就像“健忘”一样难以记住早出现的内容。

为解决这一问题，研究者提出了RNN的改进版本——长短期记忆网络（LSTM）。LSTM通过引入门控机制增强了记忆能力，一段文字读到末尾时，仍能记住开头的内容，但面对更长的文本序列，依然难以有效捕捉远端信息。

2017年，Transformer架构的提出彻底改变了这一局面。它摒弃了RNN的循环依赖结构，采用自注意力机制，能够直接计算文本序列中任意两个位置的关联的关系。这一设计不仅彻底解决了长序列依赖建模的难题（哪怕是一本书的末尾，也能精准关联开头内容），还支持并行计算，大幅提升了训练效率。从RNN、LSTM到Transformer的演进，本质上是文本生成大模型对长序列信息建模能力持续强化的过程。

二、图像生成大模型：从GAN、VAE到潜在扩散模型的画质飞跃

需要明确的是，大模型是一个广义概念，并非仅局限于Transformer架构。专注于图像生成的潜在扩散模型，就是大模型的重要分支，其核心原理与Transformer差异显著，核心围绕“加噪-降噪”两个环节展开：对清晰图像逐步加入噪声使其变为纯噪声，再通过模型学习降噪过程，从噪声中还原出清晰图像。

潜在扩散模型的发展离不开两大前身技术——生成对抗网络（GAN）和变分自编码器（VAE）：

GAN：通过生成器与判别器的对抗训练生成图像，经典应用是无监督图像翻译（如CycleGAN可将普通马转换成斑马），能够创造出训练数据中不存在的全新图像；
VAE：核心优势是对图像的压缩与还原能力——它能将512×512的图像压缩为784维的潜空间向量，再还原为原尺寸图像。这种能力的本质是神经网络捕捉图像的内在规律，实现信息的高效压缩。

潜在扩散模型与VAE的核心共性在于均基于潜空间建模：VAE直接将图像编码为潜空间向量再还原，而扩散模型则通过逐步加噪将图像信息融入噪声分布，再通过降噪还原图像。从GAN、VAE到潜在扩散模型的演进，直接推动了图像生成质量的跨越式提升。

三、多模态控制：从文本引导图像到文本生成视频

3.1 文生图：文本与图像的关联建模

单纯的图像生成难以满足精准控制内容的需求，核心解决方案是建立文本与图像的对应关系。具体来说，通过Transformer架构的文本编码器将文本转化为向量表示，在潜在扩散模型的降噪过程中输入该向量，以文本信息引导图像生成方向，最终实现“文生图”功能。

3.2 文生视频：时空序列的深度建模

文生视频的核心思路是将视频视为“时空序列数据”——由连续的图像帧和时间维度共同构成。Transformer擅长处理序列数据，扩散模型擅长生成图像，两者的融合并非简单拼接，而是针对时空维度的深度协同：以SORA模型为例，通过Transformer建模帧间的动态依赖关系，确保视频的连贯性；再结合视频扩散模型的生成能力，逐一生成连贯的视频帧，最终实现从文本到视频的生成。