요즘 학교 서버가 말썽이다. 사실 말썽 아닌적이 없네
갑자기 cuda 인식이 안되더니 이번엔 nvidia-smi 명령어 날리니까 아래와 같이 에러가 떴다
찾아보니 뭐 버전이 안맞다네.. 휴 화난다
리부트 해보기전에 찾은 방법들을 한번 나열 해 본다..
1. nvidia kernel unload
lsmod | grep nvidia
명령어를 그대로 날리면 관련 모듈이 나오는데
해당 모듈을 모두 unload 해 줘야 한다.
sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm
sudo rmmod nvidia_modeset
sudo rmmod nvidia
2. unload 오류
unload를 하는데 오류가 난다
rmmod: ERROR: Module nvidia_drm is in use
무엇인고하니 프로세스가 할당되어 꺼지지 못하는거다.
그렇다면 아래 명령어를 입력하여 프로세스를 강제 종료시켜야 한다.
sudo lsof /dev/nvidia* | awk '{if(NR>1) print $2}' | sudo xargs kill -9
sudo lsof /dev/nvidia* 는 현재 활성화된 것들을 보는 명령어
해당 명령어로 프로세스 종료 후 다시 1번의 unload 명령어를 날리는데
나는 해결이 되지를 않는다.
다른 블로그들을 보니 이것마저 안되면
CUDA를 삭제 후 재설치 해야한다고 한다.
'Linux' 카테고리의 다른 글
Ubuntu 우분투 사용자 추가/ 생성 / 권한추가 / 권한그룹설정 (0) | 2021.09.28 |
---|