•
Supervised Fine-tuning, (SFT), Reward Modeling, (RM), the Proximal Policy Optimization, (PPO) 까지 제공할 수 있는 Transformer 언어 모델 학습용 라이브러리
Trainer vs SFTTrainer
LLM 파인튜닝을 위해 TRL 라이브러리의 Trainer 클래스 또는 SFTTrainer 클래스를 많이 이용하는 추세입니다. 두 가지 클래스의 장점 및 차이점은 다음과 같다.