news 2026/6/14 5:07:45

PyTorch 多卡训练常见坑:设置 CUDA_VISIBLE_DEVICES 后仍 OOM 在 GPU 0 的解决之道

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
PyTorch 多卡训练常见坑:设置 CUDA_VISIBLE_DEVICES 后仍 OOM 在 GPU 0 的解决之道

PyTorch 多卡训练常见坑:设置 CUDA_VISIBLE_DEVICES 后仍 OOM 在 GPU 0 的解决之道

问题现象

服务器有两张 GPU(GPU 0 和 GPU 1),GPU 0 正在跑一个大模型任务。

你想在 GPU 1 上单独跑另一个 PyTorch 程序,于是这样启动:

CUDA_VISIBLE_DEVICES=1python train.py --gpu1

程序日志显示:

using GPU : 1 可见 GPU 数量: 1 当前 GPU ID: 0 GPU 名称: NVIDIA GeForce RTX 3090 # 正确是 GPU 1

一切看似正常,但运行几步后报错:

RuntimeError: CUDA out of memory ... (GPU 0; 23.69 GiB total capacity; ...)

明明只看到一张卡,为什么还在物理 GPU 0 上爆显存?

根本原因

这是 PyTorch(尤其是 1.x 版本)的历史遗留 bug:

即使通过CUDA_VISIBLE_DEVICES正确限制了可见 GPU,PyTorch 在首次初始化 CUDA 上下文时,仍会在原始的物理 GPU 0 上分配少量内存(用于内部通信、缓存等)。

后续模型运行虽然在指定的 GPU 上,但只要触发某些操作(如大 tensor 分配、某些模块 forward),就会唤醒 GPU 0 的旧上下文,导致显存被占用,最终 OOM。

解决方案

在所有模型创建和数据移动之前,强制设置当前设备

importtorch# 在创建 net、前,紧跟 import torch 之后torch.cuda.set_device(0)# 这里的 0 是逻辑 ID,即你通过 CUDA_VISIBLE_DEVICES 指定的那张卡

加上这行后,PyTorch 会彻底绑定到新上下文,旧的 GPU 0 上下文不再被触碰,问题瞬间解决。

最佳实践代码结构

importargparseimportosimporttorch# 先 import torchparser=argparse.ArgumentParser()parser.add_argument("--gpu",type=str,default='1')args=parser.parse_known_args()[0]os.environ['CUDA_VISIBLE_DEVICES']=args.gpu# 关键:强制设置设备torch.cuda.set_device(0)torch.cuda.empty_cache()# 可选,保险起见再清一次# 现在才导入模型等fromnetimportNet# ...

额外建议

  • 单卡训练时不要使用torch.nn.DataParallel,它会引入额外开销并可能触发旧 bug。
  • 先用小 batchSize(如 2~4)验证跑通,再逐步增大。
  • 监控命令:watch -n 1 nvidia-smi

总结

一句torch.cuda.set_device(0)就能彻底解决这个让人抓狂的“ GPU 0 占用”问题。记住:限制可见 GPU 后,必须再强制设置当前设备,才能完全隔离。

希望这个坑能帮到更多遇到同样问题的朋友!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/14 3:45:09

14、Unix 的商业化与传承之路

Unix 的商业化与传承之路 1. Unix 商业化背景 随着 Unix 在学术领域的广泛传播,企业界通过新招聘的在大学使用过 Unix 的程序员逐渐了解到了它。曾有观点认为,AT&T 被禁止将 Unix 商业化销售,因为作为受监管的公共垄断企业,若这样做,它会与其他操作系统供应商竞争,…

作者头像 李华
网站建设 2026/6/10 11:33:35

5步突破Ocelot中间件扩展瓶颈:从架构设计到生产部署

5步突破Ocelot中间件扩展瓶颈:从架构设计到生产部署 【免费下载链接】Ocelot 项目地址: https://gitcode.com/gh_mirrors/oce/Ocelot 还在为Ocelot默认功能无法满足业务需求而烦恼?当现有中间件无法处理定制化认证逻辑或复杂数据转换时&#xff…

作者头像 李华
网站建设 2026/6/10 14:31:00

22、网络访问配置与故障排除全解析

网络访问配置与故障排除全解析 在网络配置与使用过程中,会涉及到诸多方面,包括内核模块参数验证、网络设备属性设置、路由与名称解析配置、IPv6 配置以及网络故障排查等。下面将详细介绍这些内容。 内核模块参数验证 在之前的操作中,我们给内核模块应用了某个选项,但却缺…

作者头像 李华
网站建设 2026/6/13 3:36:31

43、技术资源与操作指南综合介绍

技术资源与操作指南综合介绍 1. 网络连接与资源获取 在网络连接方面,若使用无线网卡上网遇到问题,或者想了解免费无线热点位置,可参考以下网站: - https://help.ubuntu.com/community/WifiDocs/ - http://www.linuxwireless.org/ - http://www.hpl.hp.com/personal/Je…

作者头像 李华
网站建设 2026/6/10 14:30:59

5、探索对等网络:从 Napster 看互联网新趋势

探索对等网络:从 Napster 看互联网新趋势 1. 对等网络应用的判定 在当今的网络环境中,判断一个应用是否属于对等网络(peer-to-peer)模式是理解网络架构变化的关键。以下是一些常见应用的对等网络属性分析: |应用名称|是否为对等网络|原因| | ---- | ---- | ---- | |Na…

作者头像 李华
网站建设 2026/6/14 5:40:05

PyTorch模块化训练:从代码混乱到工程化管理的实战指南

PyTorch模块化训练:从代码混乱到工程化管理的实战指南 【免费下载链接】pytorch-deep-learning Materials for the Learn PyTorch for Deep Learning: Zero to Mastery course. 项目地址: https://gitcode.com/GitHub_Trending/py/pytorch-deep-learning 你是…

作者头像 李华