Torch 모델 구현 과정에서 Tensorflow 모델을 기반으로 사용하는 quickspacer를 사용하게 되면서
cuda 버전 관련 에러가 발생하였음.
cuda 버전을 함부로 바꿀 수 없다고 생각해서, tensorflow 버전을 2.3.1 -> 2.4.0 -> 2.7.0 까지
바꿔 가던 중, 아예 버전을 바꾸기 조차 불가했음 (pip로 설치해서, 종속성이 꼬여버림)
봉인했던 poetry를 사용해서 다시 환경 조성을 해봐야할 듯 함 안되면 tensorflow, torch 환경 따로..
이 과정에서 억지로 테스트를 강행했더니(warning 메세지에서 메모리 누수를 경고했음에도)
접속했던 서버가 팅기면서, 서버 전체에 영향을 줬다는 것을 알게됨.
당시 코드에서 vram을 사용하지 않았는데도, oom이 뜨는 상황이었음
덕분에 주의를 듣고(?) 해당 작업은 멈춘 상태로,
회사 차원에서 서버가 따로 나눠져 있지 않기 때문에, 이 부분은
local에서 도커를 통해 환경을 구현하고 테스트 해보는 방법이 필요할 것으로 보임.
반응형
'23년 이전 글 > Error Today' 카테고리의 다른 글
corrupted size vs. prev_size (0) | 2022.12.25 |
---|---|
TPU 에러 모음 (0) | 2022.11.26 |
Pytorch train 과정에서 발생한 OOM(out of memory) (0) | 2022.08.03 |