求助新分配账号无法正常使用gpu。爆显存

CPU/显卡/打印机/USB设备等硬件问题
回复
yuhongkui
帖子: 5
注册时间: 2023-04-05 22:55
系统: ubuntu20.04

求助新分配账号无法正常使用gpu。爆显存

#1

帖子 yuhongkui » 2023-04-13 18:23

入门小白被折磨几天了....
ubuntu20.04服务器新分配的账号ssh远程连接,深度学习入门阶段。
装好环境后无法正常使用GPU,一开始使用MMdetection开源项目的demo推理一张图片,模型一加载就报错RuntimeError: CUDA error: out of memory
尝试改官方提供 的demo配置文件config也没用。同学提醒使用cpu推理正常,自己手搓一个超小的tensor送进GPU也是报错RuntimeError: CUDA error: out of memory。
:Cry :Cry :Cry ubuntu系统管理员分配新账号难道还需要设置给GPU使用权限吗?还是说GPU坏了?(nvidia-smi查看全部是0显存0占用率,可用显存11GB,无正在运行的程序,确定不是其他人占用了GPU)


测试GPU的python脚本:
import torch
from torch import nn
class mynet(nn.Module):
def __init__(self):
super().__init__()
self.fc = nn.Linear(2, 1, bias=False)

def forward(self, x):
return self.fc(x)
net = mynet()
input = torch.randn(1, 2)
print(net, input)
device = torch.device('cuda:0')
#device = torch.device('cpu')
#cpu 运行成功

net.to(device)
input.to(device)
print(net, input)
print(net(input))
yuhongkui
帖子: 5
注册时间: 2023-04-05 22:55
系统: ubuntu20.04

Re: 求助新分配账号无法正常使用gpu。爆显存

#2

帖子 yuhongkui » 2023-04-13 21:39

问题解决了,有其他人在使用全部显卡显存。nvidia显卡驱动的问题,nvidia-smi命令有bug,这样查询都是0,无法查看真实状态。
pip install gpustat,使用gpustat包可以查询到真实状态。命令gpustat -i
回复