TRL 라이브러리를 사용한 Lora 튜닝 시 주의사항

TL;DR Llama나, Mistral 등의 파인튜닝을 할 때, tokenizer.pad_token = tokenizer.eos_token을 하는 사람은 읽어보는게 좋습니다. TRL의 DataCollatorForCompletionOnlyLM가 상속받는 로직으로 인해, 문장 끝에 eos token가 label -100으로 치환되며, 계산이 안되는 이슈. 내 모델이 계속 말을 끊지 않고 이어나갈 경우, 이 이슈가 문제일 가능성이 높음. TRL 라이브러리 운영자는, Warning 추가 후 별도 조치 없음. 최소한의 솔루션 Vicuna에서 따온 방식인데, pad_token을 unk_token으로 대체하는 방법 또는 정석대로 pad_token을 별도로 추가하는 방법이 있으나, 모델 설정과 토크나이저 설정을 꽤 많..

→2023.12.21