DeepSeek 안 뜯길 때까지 뜯어보기 - V3

대분류

인공지능/데이터

소분류

LLM 정리 노트

유형

LLM

DeepSeek

부유형

R1

V3

주요 레퍼런스

https://arxiv.org/pdf/2412.19437

최종 편집 일시

2025/03/26 01:51

생성 일시

2025/02/22 04:45

13 more properties

빠르게 훑어보기

DeepSeek-V3

빠르게 훑어보기

•

총 6710억 개의 파라미터 중 각 토큰마다 370억 개만 활성화하는 Mixture-of-Experts(MoE) 모델

•

이전 모델(DeepSeek‑V2)에서 검증된 Multi-head Latent Attention(MLA)와 DeepSeekMoE 아키텍처 채택

•

성능 저하 없이 부하 균형을 달성할 수 있도록 auxiliary-loss‑free load balancing 전략을 도입

•

다중 토큰 예측(Multi-Token Prediction) 학습 목표를 설정하여 학습 신호를 강화

•

미래 토큰 예측을 통한 표현 계획(pre-planning) 가능

•

FP8 혼합 정밀도 학습 프레임워크와 DualPipe 알고리즘, 효율적인 크로스‑노드 통신 최적화 등을 포함한 다양한 엔지니어링 기법을 적용해 학습 효율성을 극대화

1.

14.8조 토큰을 대상으로 안정적인 프리트레이닝 수행

2.

이후 Supervised Fine-Tuning과 Reinforcement Learning을 통해 인간 선호에 맞춘 후속 학습(모델 정렬)을 진행

3.

DeepSeek‑R1 시리즈로부터 지식 증류를 받아 추론 성능을 더욱 강화