nvidia-bug-report.sh
스크립트는 NVIDIA GPU 관련 문제를 진단할 때 유용한 도구입니다. 이를 사용하여 GPU 불량 여부를 확인하는 방법을 단계별로 설명해드릴게요.
🔹 1. nvidia-bug-report.sh
실행하기
터미널을 열고 다음 명령어를 실행하세요.
sudo nvidia-bug-report.sh
- 실행하면 시스템의 NVIDIA 관련 로그가 자동으로 수집됩니다.
- 완료되면
nvidia-bug-report.log.gz
파일이 생성됩니다.
🔹 2. 생성된 로그 파일 확인하기
압축을 풀고 내용을 확인하는 방법:
gzip -d nvidia-bug-report.log.gz
cat nvidia-bug-report.log | less
또는
zcat nvidia-bug-report.log.gz | less
이제 로그에서 GPU 불량 가능성을 찾을 수 있습니다.
🔹 3. 로그에서 GPU 문제 확인하는 방법
nvidia-bug-report.log
파일에서 다음과 같은 키워드를 찾아보세요.
🔍 (1) GPU 오류 및 충돌 관련 로그
grep -i "Xid" nvidia-bug-report.log
Xid
는 NVIDIA 드라이버에서 감지한 GPU 오류 코드입니다.- 예:
NVRM: Xid (0003): 31, Ch 00000004, engmask 00000101
- 주요 Xid 코드 의미:
31
: GPU가 응답하지 않음 (과부하 또는 하드웨어 문제 가능)79
: 메모리 오류 (VRAM 불량 가능)62
: GPU가 비정상적으로 종료됨
🔍 (2) 드라이버 충돌 로그 확인
grep -i "error" nvidia-bug-report.log
- 드라이버 충돌 관련 오류 메시지를 찾을 수 있습니다.
🔍 (3) 온도 및 전력 문제 확인
grep -i "temperature" nvidia-bug-report.log
grep -i "power" nvidia-bug-report.log
- GPU 온도가 비정상적으로 높은 경우 (
90°C
이상) 과열 문제일 수 있습니다.
🔹 4. 추가적인 GPU 테스트 방법
✅ (1) nvidia-smi
로 GPU 상태 확인
nvidia-smi
- GPU 사용률, 온도, 전력 소비 등을 확인할 수 있습니다.
✅ (2) CUDA 스트레스 테스트 실행
sudo apt install cuda-toolkit-<버전> # (필요한 경우 설치)
cuda-memtest
- GPU 메모리 테스트를 수행하여 VRAM 불량 여부를 확인할 수 있습니다.
✅ (3) stress
또는 glxgears
로 GPU 부하 테스트
glxgears
- OpenGL 성능을 테스트할 수 있습니다.
sudo apt install stress
stress --cpu 8 --timeout 60
- CPU 부하를 함께 테스트하여 GPU가 정상적으로 작동하는지 확인합니다.
🔹 5. 결론 및 조치 방법
✅ GPU가 의심되는 경우
Xid
오류가 반복적으로 발생하면 GPU 불량 가능성이 높습니다.- GPU 온도가 너무 높다면 팬 청소 또는 써멀페이스트 재도포를 고려하세요.
cuda-memtest
에서 VRAM 오류가 발견되면 GPU 메모리 불량일 수 있습니다.
✅ 소프트웨어 문제일 가능성이 있는 경우
- 드라이버 업데이트
sudo apt update && sudo apt upgrade sudo ubuntu-drivers devices sudo ubuntu-drivers autoinstall
- NVIDIA 드라이버 재설치
sudo apt remove --purge '^nvidia-.*' sudo apt install nvidia-driver-<버전>
- Xorg 설정 재설정
sudo rm /etc/X11/xorg.conf sudo nvidia-xconfig
이렇게 하면 nvidia-bug-report.sh
를 활용하여 GPU 불량 여부를 보다 정확하게 판단할 수 있습니다. 🚀