解决pytorch GPU 计算过程中出现内存耗尽的问题

脚本专栏 2024/10/1 佚名

3 1 2

Pytorch GPU运算过程中会出现：“cuda runtime error(2): out of memory”这样的错误。通常，这种错误是由于在循环中使用全局变量当做累加器，且累加梯度信息的缘故，用官方的说法就是："accumulate history across your training loop"。在默认情况下，开启梯度计算的Tensor变量是会在GPU保持他的历史数据的，所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息。

下面举个栗子：

上代码：

total_loss=0
for i in range(10000):
  optimizer.zero_grad()
  output=model(input)
  loss=criterion(output)
  loss.backward()
  optimizer.step()
  total_loss+=loss
  #这里total_loss是跨越循环的变量，起着累加的作用，
  #loss变量是带有梯度的tensor，会保持历史梯度信息，在循环过程中会不断积累梯度信息到tota_loss，占用内存

以上例子的修正方法是在循环中的最后一句修改为：total_loss+=float(loss)，利用类型变换解除梯度信息，这样，多次累加不会累加梯度信息。

局部变量逗留导致内存泄露

局部变量通常在变量作用域之外会被Python自动销毁，在作用域之内，不需要的临时变量可以使用del x来销毁。

在设计Linear Layers 的时候，尽量让其规模小点

对于nn.Linear(m,n)这样规模的线性函数，他的空间规模为O(mn),除此规模的空间来容纳参数意外，还需要同样规模的空间来存储梯度，由此很容易造成GPU空间溢出。

相关的进程管理bash cmd

nvidia-smi监控GPU，

watch -n 1 nvidia-smi实时监控GPU，

watch -n 1 lscpu实时监控CPU，

ps -elf进程查看，

ps -elf | grep python查看Python子进程，

kill -9 [PID]杀死进程PID。

Referance:

Pytorch documentations

以上这篇解决pytorch GPU 计算过程中出现内存耗尽的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

pytorch,GPU,内存耗尽

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“解决pytorch GPU 计算过程中出现内存耗尽的问题”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

李国祥.1995-九五变奏【嘉音】【WAV+CUE】

2024/10/1

许景淳.1992-你来自何方【全美唱片】【WAV+

2024/10/1

石欣卉.2007-剧欣卉集·完整电视剧主题精丫华

2024/10/1

群星.2005-LOVE情歌集VOL.5.2CD【正东】【W

2024/10/1

孙悦.1996-伙伴【正大国际】【ＷAV+CUE】

2024/10/1

一句话新闻

一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2024/10/1

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新日志

2024年10月01日

解决pytorch GPU 计算过程中出现内存耗尽的问题

python opencv实现证件照换底功能

将Pytorch模型从CPU转换成GPU的实现方法

评论“解决pytorch GPU 计算过程中出现内存耗尽的问题”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新日志

友情链接