DeepSeek-V3
빠르게 훑어보기
•
총 6710억 개의 파라미터 중 각 토큰마다 370억 개만 활성화하는 Mixture-of-Experts(MoE) 모델
•
이전 모델(DeepSeek‑V2)에서 검증된 Multi-head Latent Attention(MLA)와 DeepSeekMoE 아키텍처 채택
•
성능 저하 없이 부하 균형을 달성할 수 있도록 auxiliary-loss‑free load balancing 전략을 도입
•
다중 토큰 예측(Multi-Token Prediction) 학습 목표를 설정하여 학습 신호를 강화
•
미래 토큰 예측을 통한 표현 계획(pre-planning) 가능
•
FP8 혼합 정밀도 학습 프레임워크와 DualPipe 알고리즘, 효율적인 크로스‑노드 통신 최적화 등을 포함한 다양한 엔지니어링 기법을 적용해 학습 효율성을 극대화
1.
14.8조 토큰을 대상으로 안정적인 프리트레이닝 수행
2.
이후 Supervised Fine-Tuning과 Reinforcement Learning을 통해 인간 선호에 맞춘 후속 학습(모델 정렬)을 진행
3.
DeepSeek‑R1 시리즈로부터 지식 증류를 받아 추론 성능을 더욱 강화