GAN训练算法与损失函数实现详解-深圳市維司達科技有限公司

1. GAN训练算法与损失函数实现指南

在计算机视觉领域，生成对抗网络(GAN)已经成为图像生成任务的重要工具。我第一次接触GAN是在2016年，当时被它生成的人脸照片震惊了——那些根本不存在的人看起来如此真实。本文将分享如何从零开始实现GAN的核心训练算法和损失函数，这是理解GAN工作机制的关键。

GAN的核心思想很简单：让两个神经网络相互对抗。生成器(Generator)负责伪造数据，判别器(Discriminator)则试图区分真实数据和伪造数据。这种对抗过程最终会使生成器产生足以乱真的输出。但在实际编码中，有许多细节需要注意才能让GAN真正收敛。

2. GAN基础架构解析

2.1 生成器网络设计

生成器通常采用转置卷积(Transposed Convolution)结构，将随机噪声向量逐步"放大"为目标图像。以生成64x64的RGB图像为例：

class Generator(nn.Module): def __init__(self, latent_dim): super().__init__() self.main = nn.Sequential( nn.Linear(latent_dim, 128*8*8), nn.Unflatten(1, (128, 8, 8)), nn.BatchNorm2d(128), nn.ReLU(), nn.ConvTranspose2d(128, 64, 4, 2, 1), # 输出16x16 nn.BatchNorm2d(64), nn.ReLU(), nn.ConvTranspose2d(64, 3, 4, 2, 1), # 输出32x32 nn.Tanh() )

关键点：

使用BatchNorm和ReLU加速训练
最后一层用Tanh将输出限制在[-1,1]区间
逐步上采样避免信息丢失

2.2 判别器网络设计

判别器是标准的卷积分类网络：

class Discriminator(nn.Module): def __init__(self): super().__init__() self.main = nn.Sequential( nn.Conv2d(3, 64, 4, 2, 1), # 32x32 -> 16x16 nn.LeakyReLU(0.2), nn.Conv2d(64, 128, 4, 2, 1), # 16x16 -> 8x8 nn.BatchNorm2d(128), nn.LeakyReLU(0.2), nn.Flatten(), nn.Linear(128*8*8, 1), nn.Sigmoid() )

注意：判别器使用LeakyReLU防止梯度消失，斜率通常设为0.2

3. 损失函数实现细节

3.1 原始GAN损失函数

原始GAN论文提出的损失函数如下：

生成器损失： $$ L_G = -\mathbb{E}[\log(D(G(z)))] $$

判别器损失： $$ L_D = -\mathbb{E}[\log(D(x))] - \mathbb{E}[\log(1-D(G(z)))] $$

PyTorch实现：

# 真实数据标签为1，生成数据标签为0 real_label = 1.0 fake_label = 0.0 # 判别器损失 output = netD(real_images).view(-1) errD_real = criterion(output, torch.full_like(output, real_label)) fake_images = netG(noise) output = netD(fake_images.detach()).view(-1) errD_fake = criterion(output, torch.full_like(output, fake_label)) errD = errD_real + errD_fake # 生成器损失 output = netD(fake_images).view(-1) errG = criterion(output, torch.full_like(output, real_label))

3.2 Wasserstein GAN改进

原始GAN容易遇到模式崩溃(mode collapse)问题，WGAN通过以下改进提升稳定性：

移除判别器最后的Sigmoid
使用线性输出
添加梯度惩罚项

损失函数变为：

# WGAN判别器损失 errD = -torch.mean(netD(real_images)) + torch.mean(netD(fake_images)) # 梯度惩罚项 alpha = torch.rand(real_images.size(0), 1, 1, 1) interpolates = alpha * real_images + (1-alpha) * fake_images disc_interpolates = netD(interpolates) gradients = torch.autograd.grad( outputs=disc_interpolates, inputs=interpolates, grad_outputs=torch.ones_like(disc_interpolates), create_graph=True, retain_graph=True)[0] gradient_penalty = ((gradients.norm(2, dim=1) - 1) ** 2).mean() errD += lambda_gp * gradient_penalty # WGAN生成器损失 errG = -torch.mean(netD(fake_images))

4. 训练过程关键技巧

4.1 训练平衡策略

GAN训练需要保持生成器和判别器的能力平衡：

判别器不宜过强：会导致生成器梯度消失
通常设置判别器训练k步(k=1~5)，生成器训练1步
监控两者的损失值比例

4.2 学习率设置

使用Adam优化器时推荐参数：

初始学习率：0.0002
β1：0.5
β2：0.999

optimizerD = optim.Adam(netD.parameters(), lr=0.0002, betas=(0.5, 0.999)) optimizerG = optim.Adam(netG.parameters(), lr=0.0002, betas=(0.5, 0.999))

4.3 常见问题排查

生成器输出全黑图像：
- 检查最后一层激活函数是否为Tanh
- 尝试降低学习率
- 增加生成器容量
判别器准确率过早达到100%：
- 减小判别器能力
- 添加噪声到判别器输入
- 尝试WGAN-GP架构
模式崩溃(Mode Collapse)：
- 增加批次大小
- 尝试多样性损失函数
- 使用Mini-batch判别

5. 进阶改进方案

5.1 条件式GAN实现

通过添加条件信息控制生成内容：

class ConditionalGenerator(nn.Module): def __init__(self, num_classes, latent_dim): super().__init__() self.label_embedding = nn.Embedding(num_classes, latent_dim) def forward(self, noise, labels): # 将标签嵌入到噪声向量中 c = self.label_embedding(labels) x = torch.mul(noise, c) return self.main(x)