요즘 학교 서버가 말썽이다. 사실 말썽 아닌적이 없네

갑자기 cuda 인식이 안되더니 이번엔 nvidia-smi 명령어 날리니까 아래와 같이 에러가 떴다

 

찾아보니 뭐 버전이 안맞다네.. 휴 화난다

리부트 해보기전에 찾은 방법들을 한번 나열 해 본다..

 

1. nvidia kernel unload

lsmod | grep nvidia

명령어를 그대로 날리면 관련 모듈이 나오는데 

해당 모듈을 모두 unload 해 줘야 한다.

sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm
sudo rmmod nvidia_modeset
sudo rmmod nvidia

 

2. unload 오류

unload를 하는데 오류가 난다

 

rmmod: ERROR: Module nvidia_drm is in use

 

무엇인고하니 프로세스가 할당되어 꺼지지 못하는거다.

그렇다면 아래 명령어를 입력하여 프로세스를 강제 종료시켜야 한다.

 

sudo lsof /dev/nvidia* | awk '{if(NR>1) print $2}' | sudo xargs kill -9

sudo lsof /dev/nvidia* 는 현재 활성화된 것들을 보는 명령어

 

해당 명령어로 프로세스 종료 후 다시 1번의 unload 명령어를 날리는데

나는 해결이 되지를 않는다.

 

다른 블로그들을 보니 이것마저 안되면

CUDA를 삭제 후 재설치 해야한다고 한다.

 

 

+ Recent posts