Search

DeepSeek 안 뜯길 때까지 뜯어보기 - V3

대분류
인공지능/데이터
소분류
LLM 정리 노트
유형
LLM
DeepSeek
부유형
R1
V3
주요 레퍼런스
https://arxiv.org/pdf/2412.19437
최종 편집 일시
2025/03/26 01:51
생성 일시
2025/02/22 04:45
13 more properties

DeepSeek-V3

빠르게 훑어보기

총 6710억 개의 파라미터 중 각 토큰마다 370억 개만 활성화하는 Mixture-of-Experts(MoE) 모델
이전 모델(DeepSeek‑V2)에서 검증된 Multi-head Latent Attention(MLA)와 DeepSeekMoE 아키텍처 채택
성능 저하 없이 부하 균형을 달성할 수 있도록 auxiliary-loss‑free load balancing 전략을 도입
다중 토큰 예측(Multi-Token Prediction) 학습 목표를 설정하여 학습 신호를 강화
미래 토큰 예측을 통한 표현 계획(pre-planning) 가능
FP8 혼합 정밀도 학습 프레임워크와 DualPipe 알고리즘, 효율적인 크로스‑노드 통신 최적화 등을 포함한 다양한 엔지니어링 기법을 적용해 학습 효율성을 극대화
1.
14.8조 토큰을 대상으로 안정적인 프리트레이닝 수행
2.
이후 Supervised Fine-Tuning과 Reinforcement Learning을 통해 인간 선호에 맞춘 후속 학습(모델 정렬)을 진행
3.
DeepSeek‑R1 시리즈로부터 지식 증류를 받아 추론 성능을 더욱 강화