corrupted size vs. prev_size

폐쇄망 환경에서 cuda 및 torch를 설치 후, Transformers의 Trainer class를 활용해 학습을 진행할 때 발생하는 메세지로, C++ 관련 백엔드 부분에 문제가 생기는 것으로 보이는데, 아직 정확한 해결책은 찾지 못한 상황 참고해볼만한 링크들 https://discuss.pytorch.org/t/malloc-and-corrupted-size-errors/37080 Malloc, and corrupted size errors Hi. I’m using pytorch in multi gpu setting, and also with some multiprocessing for loading and preprocessing and quite often encountering these err..

→2022.12.25

23년 이전 글/Error Today

TPU 에러 모음

PermissionDeniedError: open(/dev/accel0): Operation not permitted: Operation not permitted; Couldn't open device: /dev/accel0; Unable to create Node RegisterInterface for node 0, config: device_path 주피터 노트북으로 작업하던 중 발생한 에러로, TPU 접근이 불가한 현상임.발생한 경위는 알 수 없으나, VM을 재부팅 하면 해결 shutdown -r now

→2022.11.26

23년 이전 글/Error Today

서비스 서버에 대한 주의

Torch 모델 구현 과정에서 Tensorflow 모델을 기반으로 사용하는 quickspacer를 사용하게 되면서 cuda 버전 관련 에러가 발생하였음. cuda 버전을 함부로 바꿀 수 없다고 생각해서, tensorflow 버전을 2.3.1 -> 2.4.0 -> 2.7.0 까지 바꿔 가던 중, 아예 버전을 바꾸기 조차 불가했음 (pip로 설치해서, 종속성이 꼬여버림) 봉인했던 poetry를 사용해서 다시 환경 조성을 해봐야할 듯 함 안되면 tensorflow, torch 환경 따로.. 이 과정에서 억지로 테스트를 강행했더니(warning 메세지에서 메모리 누수를 경고했음에도) 접속했던 서버가 팅기면서, 서버 전체에 영향을 줬다는 것을 알게됨. 당시 코드에서 vram을 사용하지 않았는데도, oom이 뜨는 ..

→2022.08.04

23년 이전 글/Error Today

Pytorch train 과정에서 발생한 OOM(out of memory)

오류 발생 재현을 위한 코드 from transformers import AutoModel device = "cuda" model = Automodel.from_pretrained("klue/roberta-large").to(device) kfold = 5 for fold in enumerate(kfold): model = deepcopy.copy(model) for idx, batch in enumerate(train_data_loader): # train step code... 결론 위와 같이 Training 할 경우 에러가 발생한다. 사유는 Vram으로 모델을 보낸 상태에서 지속적으로 copy를 하기 때문에, 모델 내에서 모델이 중첩되므로, fold가 길어질수록, Vram 양에 따라 램이 터질 가능..

→2022.08.03

corrupted size vs. prev_size

TPU 에러 모음

서비스 서버에 대한 주의

Pytorch train 과정에서 발생한 OOM(out of memory)

티스토리툴바