문제 상황

pytorch에서 텐서를 생성한 후 다른 디바이스로 옮길 때 값이 0으로 초기화되는 문제가 발생
problem

환경

  • GPU: RTX A5000
  • pytorch 버전: 2.4.0+cu121
  • cuda 버전: 11.0
  • 그래픽 드라이버 버전: 535.183.01

해결 방법

pytorch, cuda, 드라이버의 버전 호환성 문제로 추정하고 아래와 같이 버전 변경

  • pytorch: 2.1.2+cu121
  • cuda: 11.8
  • 그래픽 드라이버: 525.147.05

pytorch 버전 변경 방법

삭제 후 설치

1
2
pip uninstall torch # 기존 버전 삭제
pip install torch==2.1.2+cu121 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121 # 새로 설치

설치 확인

1
2
import torch
print(torch.__version__)

드라이버 버전 변경 방법

기존 드라이버 제거

1
2
sudo apt-get purge nvidia*
sudo apt-get autoremove

NVIDIA 드라이버 PPA 추가

1
2
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

설치 가능한 드라이버 버전 확인

1
ubuntu-drivers devices

ubuntu_drivers
위 그림에서 원하는 버전 선택

드라이버 설치

1
sudo apt-get install nvidia-driver-525

설치 확인

1
2
sudo shutdown -r now # 재부팅
nvidia-smi

자동 업데이트 제외

계속 자동 업데이트 돼서 실행중인 프로세스가 죽는 경우가 많다. 그래픽 드라이버만 업데이트 제외하는 명령어.

1
sudo apt-mark hold nvidia-driver-525

태그:

카테고리:

업데이트:

댓글남기기