nvidia-bug-report.sh 로 GPU 불량 확인 방법

nvidia-bug-report.sh 스크립트는 NVIDIA GPU 관련 문제를 진단할 때 유용한 도구입니다. 이를 사용하여 GPU 불량 여부를 확인하는 방법을 단계별로 설명해드릴게요.


🔹 1. nvidia-bug-report.sh 실행하기

터미널을 열고 다음 명령어를 실행하세요.

sudo nvidia-bug-report.sh
  • 실행하면 시스템의 NVIDIA 관련 로그가 자동으로 수집됩니다.
  • 완료되면 nvidia-bug-report.log.gz 파일이 생성됩니다.

🔹 2. 생성된 로그 파일 확인하기

압축을 풀고 내용을 확인하는 방법:

gzip -d nvidia-bug-report.log.gz
cat nvidia-bug-report.log | less

또는

zcat nvidia-bug-report.log.gz | less

이제 로그에서 GPU 불량 가능성을 찾을 수 있습니다.


🔹 3. 로그에서 GPU 문제 확인하는 방법

nvidia-bug-report.log 파일에서 다음과 같은 키워드를 찾아보세요.

🔍 (1) GPU 오류 및 충돌 관련 로그

grep -i "Xid" nvidia-bug-report.log
  • Xid는 NVIDIA 드라이버에서 감지한 GPU 오류 코드입니다.
  • 예: NVRM: Xid (0003): 31, Ch 00000004, engmask 00000101
  • 주요 Xid 코드 의미:
    • 31: GPU가 응답하지 않음 (과부하 또는 하드웨어 문제 가능)
    • 79: 메모리 오류 (VRAM 불량 가능)
    • 62: GPU가 비정상적으로 종료됨

🔍 (2) 드라이버 충돌 로그 확인

grep -i "error" nvidia-bug-report.log
  • 드라이버 충돌 관련 오류 메시지를 찾을 수 있습니다.

🔍 (3) 온도 및 전력 문제 확인

grep -i "temperature" nvidia-bug-report.log
grep -i "power" nvidia-bug-report.log
  • GPU 온도가 비정상적으로 높은 경우 (90°C 이상) 과열 문제일 수 있습니다.

🔹 4. 추가적인 GPU 테스트 방법

(1) nvidia-smi로 GPU 상태 확인

nvidia-smi
  • GPU 사용률, 온도, 전력 소비 등을 확인할 수 있습니다.

(2) CUDA 스트레스 테스트 실행

sudo apt install cuda-toolkit-<버전> # (필요한 경우 설치)
cuda-memtest
  • GPU 메모리 테스트를 수행하여 VRAM 불량 여부를 확인할 수 있습니다.

(3) stress 또는 glxgears로 GPU 부하 테스트

glxgears
  • OpenGL 성능을 테스트할 수 있습니다.
sudo apt install stress
stress --cpu 8 --timeout 60
  • CPU 부하를 함께 테스트하여 GPU가 정상적으로 작동하는지 확인합니다.

🔹 5. 결론 및 조치 방법

GPU가 의심되는 경우

  1. Xid 오류가 반복적으로 발생하면 GPU 불량 가능성이 높습니다.
  2. GPU 온도가 너무 높다면 팬 청소 또는 써멀페이스트 재도포를 고려하세요.
  3. cuda-memtest에서 VRAM 오류가 발견되면 GPU 메모리 불량일 수 있습니다.

소프트웨어 문제일 가능성이 있는 경우

  1. 드라이버 업데이트 sudo apt update && sudo apt upgrade sudo ubuntu-drivers devices sudo ubuntu-drivers autoinstall
  2. NVIDIA 드라이버 재설치 sudo apt remove --purge '^nvidia-.*' sudo apt install nvidia-driver-<버전>
  3. Xorg 설정 재설정 sudo rm /etc/X11/xorg.conf sudo nvidia-xconfig

이렇게 하면 nvidia-bug-report.sh를 활용하여 GPU 불량 여부를 보다 정확하게 판단할 수 있습니다. 🚀