23년 이전 글/Error Today
corrupted size vs. prev_size
폐쇄망 환경에서 cuda 및 torch를 설치 후, Transformers의 Trainer class를 활용해 학습을 진행할 때 발생하는 메세지로, C++ 관련 백엔드 부분에 문제가 생기는 것으로 보이는데, 아직 정확한 해결책은 찾지 못한 상황 참고해볼만한 링크들 https://discuss.pytorch.org/t/malloc-and-corrupted-size-errors/37080 Malloc, and corrupted size errors Hi. I’m using pytorch in multi gpu setting, and also with some multiprocessing for loading and preprocessing and quite often encountering these err..
TPU 에러 모음
PermissionDeniedError: open(/dev/accel0): Operation not permitted: Operation not permitted; Couldn't open device: /dev/accel0; Unable to create Node RegisterInterface for node 0, config: device_path 주피터 노트북으로 작업하던 중 발생한 에러로, TPU 접근이 불가한 현상임.발생한 경위는 알 수 없으나, VM을 재부팅 하면 해결 shutdown -r now
서비스 서버에 대한 주의
Torch 모델 구현 과정에서 Tensorflow 모델을 기반으로 사용하는 quickspacer를 사용하게 되면서 cuda 버전 관련 에러가 발생하였음. cuda 버전을 함부로 바꿀 수 없다고 생각해서, tensorflow 버전을 2.3.1 -> 2.4.0 -> 2.7.0 까지 바꿔 가던 중, 아예 버전을 바꾸기 조차 불가했음 (pip로 설치해서, 종속성이 꼬여버림) 봉인했던 poetry를 사용해서 다시 환경 조성을 해봐야할 듯 함 안되면 tensorflow, torch 환경 따로.. 이 과정에서 억지로 테스트를 강행했더니(warning 메세지에서 메모리 누수를 경고했음에도) 접속했던 서버가 팅기면서, 서버 전체에 영향을 줬다는 것을 알게됨. 당시 코드에서 vram을 사용하지 않았는데도, oom이 뜨는 ..
Pytorch train 과정에서 발생한 OOM(out of memory)
오류 발생 재현을 위한 코드 from transformers import AutoModel device = "cuda" model = Automodel.from_pretrained("klue/roberta-large").to(device) kfold = 5 for fold in enumerate(kfold): model = deepcopy.copy(model) for idx, batch in enumerate(train_data_loader): # train step code... 결론 위와 같이 Training 할 경우 에러가 발생한다. 사유는 Vram으로 모델을 보낸 상태에서 지속적으로 copy를 하기 때문에, 모델 내에서 모델이 중첩되므로, fold가 길어질수록, Vram 양에 따라 램이 터질 가능..