news 2026/4/22 21:25:14

A100 40G和魔改4090 48G模型训练算力比较

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
A100 40G和魔改4090 48G模型训练算力比较

这篇文章的测试主要针对两个问题:

  1. 魔改4090 48G显存的显卡对比原始的4090 24G显卡算力是否有下降?
  2. 魔改4090 48G显卡对比专业级训练显卡A100 40G,其在模型训练场景到底性能表现如何?

之前比较过3090、4090和5090的算力差异:
使用PyTorch进行显卡AI性能实测
ResNet-50模型实测深度学习场景显卡性能

这里还是使用ResNet-50进行模型训练测试。

A100 40G和4090 48G参数对比

两张显卡的参数规格:

A100 40G4090 48G
架构AmpereAda Lovelace
CUDA核心数6,91216,384
显存容量40GB HBM248 GB GDDR6X
显存带宽1,555 GB/s1,008 GB/s
TDP功耗250W450W
FP32 算力19.5 TFLOPS82.6 TFLOPS
Tensor FP16 算力312 TFLOPS330 TFLOPS
  • 显存方面:4090是魔改后翻倍的48G显存,要大于低版本A100的40G显存,但A100 40G用的HBM2显存,带宽可以接近1.6T/s
  • 算力方面:4090在单精度计算上有绝对的优势,半精度Tensor算力两者接近
  • A100 PCIe版本的功耗做了限制,所以从耗电量上4090会更大

深度学习模型训练测试

在 晨涧云AI算力平台 分别租用A100 40G和4090 48G的云主机实例。

基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行测试对比。

A100 40G测试

4090 48G测试

补充之前测试的4090 24G的结果:

4090 24G测试

可以看到魔改48G显存的4090显卡在算力方面并没有折损,并且48G显存提供了更多的BatchSize样本吞吐空间

测试结果解释

使用了FP32和FP16混合训练精度,相比之前3090和4090的测试,因为A100 40G和4090 48G有更大的显存,训练批次在原先的基础上增加了384的BatchSize,看训练吞吐量的差异:

  • 精度FP32表示使用单精度训练,FP16表示使用混合精度训练
  • BatchSize:训练批次大小
  • Samples/s:每秒样本吞吐量
  • VRAM (MB):平均显存使用量
  • GPU Util (%):平均GPU利用率

看在GPU使用率比较高的场景下(BatchSize>=256),模型训练样本的吞吐速度比较;单精度训练A100 40G的样本吞吐速度是4090 48G的125%,半精度训练A100 40G的样本吞吐速度是4090 48G的105%

综合而言,A100作为专业级训练卡在训练场景还是有其优势的,而且A100支持NVLink和MIG;但相比4090的算力差距并不明显,而4090在其他场景,特别是图像处理、3D渲染等也非常能打,再加上魔改的48G显存,目前在中端显卡市场可以说是最全面的存在。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:40:46

基于Vue.js和SpringBoot的新能源汽车充电站管理系统的设计与实现任务书

毕业设计(论文)题目基于Vue.js和SpringBoot的新能源汽车充电站管理系统的设计与实现姓 名学 号指导教师班 级一、主要任务与目标(一)主要任务1.搜集并深入研读与新能源汽车充电站管理系统相关的文献资料,基于文献分…

作者头像 李华
网站建设 2026/4/23 14:05:40

2025年最新免费降AI率实战指南(附平台测评+超实用技巧)

最近毕业季,后台私信简直要炸了。很多同学都在哭诉:明明是自己一个字一个字码出来的论文,结果aigc降重检测结果竟然高达50%甚至70%以上。别慌,这其实是很多学生和研究者都会遇到的普遍问题。只要搞懂了原理,掌握正确的…

作者头像 李华
网站建设 2026/4/18 12:49:31

你还在忍受VSCode远程延迟?,这4个高级优化策略必须掌握

第一章:你还在忍受VSCode远程延迟?性能优化势在必行远程开发已成为现代软件工程的重要实践,但使用 VSCode 远程连接服务器时频繁出现的延迟问题严重影响了编码效率。高延迟不仅导致代码补全卡顿、文件保存缓慢,甚至会使调试过程变…

作者头像 李华
网站建设 2026/4/22 1:02:53

Skyvern终极指南:从API测试到网页交互的完整自动化解决方案

Skyvern终极指南:从API测试到网页交互的完整自动化解决方案 【免费下载链接】skyvern 项目地址: https://gitcode.com/GitHub_Trending/sk/skyvern 你是否曾遇到过这样的困境:API测试工具无法处理网页交互,而UI自动化工具又难以整合A…

作者头像 李华
网站建设 2026/4/23 14:30:04

【Cirq量子计算开发避坑手册】:解决代码补全错误的5个关键检查点

第一章:Cirq量子计算开发避坑手册概述在量子计算快速发展的背景下,Cirq 作为由 Google 开发的开源框架,为研究人员和开发者提供了构建、模拟和运行量子电路的强大工具。然而,由于量子编程与经典编程存在本质差异,初学者…

作者头像 李华
网站建设 2026/4/23 11:35:26

AI Agent部署总是超时?揭秘考场中最难察觉的网络策略限制

第一章:AI Agent 部署考试的故障排查 在AI Agent部署过程中,常因环境配置、依赖缺失或权限问题导致运行失败。掌握系统化的故障排查方法,是保障Agent稳定运行的关键。 检查服务运行状态 首先确认AI Agent主进程是否正常启动。可通过以下命令…

作者头像 李华