ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • deepseek-v3 모델 설명
    프로그래밍/기계학습 2025. 1. 28. 10:27
    반응형

     

     

    중국의 스타트업 deepseek가 20일에  deepseek-v3 모델을 공개했는데 openai 모델과 성능이 비슷하면서 비용은 1/10로 개발했다고 해서 월요일에 엔비디아 주식이 17%나 떨어지는 폭락을 하였다. 

     

    폐쇄형인 chatgpt와 다르게 오픈소스로 공개를 한 것도 인상적이다. 

     

     

    https://github.com/deepseek-ai/DeepSeek-V3

     

     

    https://huggingface.co/deepseek-ai/DeepSeek-V3

     

    딥시크가 github에 공개한 설명을 하나씩 자세하게 확인해보았다. 

     

     

     

    deepseek는 MOE라는 컴퓨팅 능력 향상 없이 초대규모 언어 모델을 효율적으로 만드는 방식을 사용하였다.

     

     

    중국 스타트업이라서 미국의 반도체 수출 규제로 엔비디아의 상위 모델을 구할 수 없어 H800 장비들을 사용하였다. 

    대신 알고리즘-프레임워크-하드웨어를 공동 설계하여, 계산과 통신을 거의 완전히 겹치게(overlap) 만들어 병목을 해소하여 기존의 기존의 MOE 방식을 최적화 시켰다고한다. 

     

     

    쉽게 이해하려면 1명의 선생님과 100명의 학생이 있다고할때 chatgpt 모델은 1명의 선생님이 있고 100명의 학생의 질문에 답을 해야해서 그만큼 매우 똑똑하고 빠른 선생님이여야하는데 (고가의 엔비디아 제품 사용) deepseek는 여러명의 선생님이 과목별로 있어서 그 선생님들은 전반적인 성능은 chatgpt 선생님보다는 떨어지지만(H800) 과목에 대해서 잘 알아서 100명의 학생들에게 다 대답을 해줄 수 있다라고 설명할 수있다.

     

     

    회원가입이 지금 막혀있어서 테스트는 못해봤는데 일단 코드와 모델, 그리고 리포트까지 공개한 것으로 봐서 기술적으로 자신감이 읽혀지고 고가의 장비 경쟁으로 가고있던 AI 필드에서 기술력으로 승부를 거는 패기가 돋보인다 ㅋㅋㅋㅋ

     

     

    역시 창의력은 자유가 아니라 구속과 제한에서 오는것 같다

     

     

     

    모델 구축 비용이 chatgpt의 정말 1/10인지는 사실 100프로 믿기 힘들다고 생각하지만 (인건비 차이만 해도..)

    일단은 꽤 의미있는 도전이라고 생각하지만 일단 직접 써봐야지 확실히 알 것 같다 

     

     

    어서 회원가입 다시 열리길..!

    그리고 어제 엔비디아 분할매수 들어갔는데 앞으로 더 떨어질 가능성을 염두에 두고 매수 구간을 넓게 잡아야할 것 같다. 

     

     

     

     


     

     

     

     

     

     

     

     

     

     

    1. 한국어 번역

    1) Introduction

    We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. In addition, its training process is remarkably stable. Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks.

    번역
    DeepSeek-V3는 총 6710억(671B) 개의 파라미터를 갖추고, 각 토큰마다 370억(37B) 개의 파라미터가 활성화되는 강력한 Mixture-of-Experts(MoE) 언어 모델입니다. 효율적인 추론과 경제적인 학습을 달성하기 위해, DeepSeek-V3는 DeepSeek-V2에서 충분히 검증된 Multi-head Latent Attention(MLA)DeepSeekMoE 아키텍처를 채택했습니다. 또한 DeepSeek-V3는 보조 손실(auxiliary-loss)을 사용하지 않는 로드 밸런싱 전략을 선도적으로 적용하고, 멀티 토큰 예측(multi-token prediction) 학습 목표를 도입해 더 강력한 성능을 구현합니다. DeepSeek-V3는 14.8조(14.8 trillion) 개의 다양하고 고품질인 토큰을 활용해 사전 학습을 진행한 뒤, 지도 학습 기반 미세조정(Supervised Fine-Tuning)강화 학습(Reinforcement Learning) 단계를 거쳐 모델 역량을 극대화합니다. 종합적인 평가 결과, DeepSeek-V3는 다른 오픈소스 모델을 능가하는 성능을 보이며, 주요 비공개(closed-source) 모델과 비슷한 성능을 달성했습니다. 뛰어난 성능에도 불구하고, DeepSeek-V3의 전체 학습에는 단지 278.8만(2.788M) H800 GPU 시간만 소요됩니다. 게다가 학습 과정은 매우 안정적이어서, 전 과정에서 복구할 수 없는 손실 폭등(loss spike)이나 롤백(rollback)이 전혀 발생하지 않았습니다.

     


    2) Model Summary

    Architecture: Innovative Load Balancing Strategy and Training Objective

    On top of the efficient architecture of DeepSeek-V2, we pioneer an auxiliary-loss-free strategy for load balancing, which minimizes the performance degradation that arises from encouraging load balancing.
    We investigate a Multi-Token Prediction (MTP) objective and prove it beneficial to model performance. It can also be used for speculative decoding for inference acceleration.

    번역
    DeepSeek-V2의 효율적인 아키텍처를 기반으로, 우리는 로드 밸런싱을 위한 보조 손실(auxiliary loss)이 필요 없는 혁신적인 전략을 선도적으로 도입했습니다. 이는 로드 밸런싱을 유도하는 과정에서 발생할 수 있는 성능 저하를 최소화합니다.
    우리는 멀티 토큰 예측(Multi-Token Prediction, MTP) 목표를 연구하였고, 이것이 모델 성능에 유익함을 입증했습니다. 또한 이는 추론 속도를 높이기 위한 투기적 디코딩(speculative decoding) 기법에도 활용될 수 있습니다.

     


    Pre-Training: Towards Ultimate Training Efficiency

    We design an FP8 mixed precision training framework and, for the first time, validate the feasibility and effectiveness of FP8 training on an extremely large-scale model.
    Through co-design of algorithms, frameworks, and hardware, we overcome the communication bottleneck in cross-node MoE training, nearly achieving full computation-communication overlap.
    This significantly enhances our training efficiency and reduces the training costs, enabling us to further scale up the model size without additional overhead.
    At an economical cost of only 2.664M H800 GPU hours, we complete the pre-training of DeepSeek-V3 on 14.8T tokens, producing the currently strongest open-source base model. The subsequent training stages after pre-training require only 0.1M GPU hours.

    번역
    우리는 FP8 혼합 정밀도(mixed precision) 학습 프레임워크를 설계하고, 초대규모 모델에서 FP8 학습의 실행 가능성과 효과를 처음으로 검증했습니다.
    알고리즘, 프레임워크, 하드웨어를 공동 설계(co-design)함으로써, 노드 간 MoE 학습에서 발생하는 통신 병목(communication bottleneck)을 극복하였고, 거의 완벽한 계산-통신 오버랩을 달성했습니다.
    이를 통해 학습 효율이 크게 향상되고, 학습 비용도 절감되어 추가적인 오버헤드 없이 모델 크기를 더 확장할 수 있게 되었습니다.
    단 266.4만(2.664M) H800 GPU 시간이라는 경제적인 비용으로, 우리는 14.8조 토큰에 대해 DeepSeek-V3의 사전 학습을 완료하여 현재 가장 강력한 오픈소스 기반 모델을 만들어냈습니다. 사전 학습 이후 진행되는 추가 학습 단계들은 단 0.1만(0.1M) GPU 시간만을 필요로 합니다.

     


    Post-Training: Knowledge Distillation from DeepSeek-R1

    We introduce an innovative methodology to distill reasoning capabilities from the long-Chain-of-Thought (CoT) model, specifically from one of the DeepSeek R1 series models, into standard LLMs, particularly DeepSeek-V3. Our pipeline elegantly incorporates the verification and reflection patterns of R1 into DeepSeek-V3 and notably improves its reasoning performance. Meanwhile, we also maintain a control over the output style and length of DeepSeek-V3.

    번역
    우리는 장문 Chain-of-Thought(CoT) 모델, 특히 DeepSeek R1 시리즈 중 하나에서 **추론 능력(reasoning capabilities)**을 일반적인 대형 언어 모델(LLM), 즉 DeepSeek-V3에 증류(distillation)하는 혁신적인 방법론을 제시합니다. 해당 파이프라인은 R1의 검증(verification) 및 반성(reflection) 패턴을 DeepSeek-V3에 우아하게 통합하여, 모델의 추론 성능을 크게 향상시킵니다. 동시에 DeepSeek-V3의 출력 스타일과 길이에 대한 제어 역시 유지하고 있습니다.


    2. 상세 설명

    아래에서는 각 문단에서 제시된 기술적 핵심과 의의를 조금 더 구체적으로 살펴봅니다.


    (1) Mixture-of-Experts(MoE) 및 671B 파라미터

    • MoE(Mixture-of-Experts) 구조: 모델 내부에 여러 ‘전문가(Expert)’ 모듈을 두고, 입력된 토큰이나 문맥에 따라 일부 전문가만 활성화되는 방식을 채택합니다.
    • 총 671B(=6710억) 파라미터, 활성화는 37B: 모든 전문가를 합친 전체 파라미터는 매우 크지만, 실제 추론 시에는 370억 파라미터 정도만 ‘활성화’되어 연산되므로, 완전 연결(Dense) 방식 대비 추론 비용이 절감됩니다.

    (2) Auxiliary-loss-free 로드 밸런싱과 Multi-Token Prediction(MTP)

    • 로드 밸런싱(Load Balancing): MoE 환경에서 특정 전문가만 과도하게 사용되지 않도록, 보통은 ‘보조 손실(auxiliary loss)’을 둡니다. DeepSeek-V3는 이 보조 손실 없이도 균형 있는 전문가 사용을 달성하는 새로운 전략을 적용해, 불필요한 성능 저하를 최소화했다고 강조합니다.
    • 멀티 토큰 예측(Multi-Token Prediction, MTP): 전통적인 언어 모델은 ‘다음 토큰’ 하나만 예측하지만, 한 번에 여러 토큰을 예측하도록 학습하면 추론 효율이나 모델 성능이 개선될 수 있습니다.
      • Speculative Decoding: 멀티 토큰을 동시에 예측해놓고, 실제로 맞는 결과만 빠르게 선택하는 방식으로 추론을 가속할 수 있는 기법입니다.

    (3) FP8 혼합 정밀도 학습

    • FP8(8비트 부동소수점) 학습: 일반적으로 모델 학습 시 16비트나 32비트 부동소수점(예: FP16, FP32)을 사용합니다. FP8을 적용하면,
      • 메모리 및 대역폭 사용량을 대폭 줄일 수 있고,
      • 연산 처리량을 증가시켜 속도 이점을 얻을 수 있습니다.
    • 초대규모 모델에서의 FP8 검증: DeepSeek-V3는 이런 극단적인 정밀도 축소를 초대규모 모델 학습에도 성공적으로 적용했음을 강조합니다.

    (4) 통신 병목 극복 및 계산-통신 오버랩

    • MoE 구조에서 전문가들은 여러 노드에 분산될 수 있습니다. 이때 각 노드 간 통신(토큰/피처 전달)이 병목이 되기 쉽습니다.
    • DeepSeek-V3 연구진은 알고리즘-프레임워크-하드웨어를 공동 설계하여, 계산과 통신을 거의 완전히 겹치게(overlap) 만들어 병목을 해소했다고 합니다.

    (5) 경제적인 학습 비용 및 안정성

    • Pre-training 비용: 14.8조 토큰으로의 사전 학습에 2.664M GPU 시간이면, 일반적으로 매우 크지만, 모델 규모 대비 “비교적 저렴”하다는 점을 부각합니다. 이후 후속 단계(SFT, RL 등)에 0.1M 시간만 추가하면 되는 것도 효율적입니다.
    • 안정적인 학습: 손실 폭발(loss spike)이나 롤백이 없었다는 것은, 초대규모 모델에서 학습 안정성이 상당히 높았음을 보여줍니다.

    (6) Post-Training 및 지식 증류(Knowledge Distillation)

    • DeepSeek-R1: 별도의 시리즈 모델로, 특히 장문 Chain-of-Thought(CoT) 능력이 뛰어난 모델로 보입니다.
    • CoT(Chain-of-Thought): 모델이 정답을 도출하기까지의 중간 추론 과정을 텍스트로 풀어내는 기법입니다.
    • DeepSeek-V3로 증류: DeepSeek-R1에서 축적된 ‘추론 패턴’을 DeepSeek-V3가 이어받을 수 있도록, CoT 출력의 검증/반성 과정을 V3에 통합해 추론 성능을 끌어올립니다.
    • 출력 스타일 제어: 동시에, 필요 이상으로 장황해지지 않도록 모델 출력 스타일과 길이를 통제하는 메커니즘도 유지합니다.

    3. 결론 및 의의

    • DeepSeek-V3MoE 구조의 장점을 극대화하면서도, 로드 밸런싱 보조 손실 없이 전문가 활성화를 관리하고, FP8 혼합 정밀도효율적인 분산 학습 기법을 통해 학습 비용을 크게 줄였습니다.
    • 14.8조 토큰 사전 학습 후 **SFT, RL, 그리고 CoT 기반 모델(R1 시리즈)**에서의 지식 증류로 추론 능력까지 끌어올림으로써,
      • 오픈소스 모델 중 최고 수준의 성능을 달성하면서도,
      • 주요 비공개 모델들과의 성능 격차를 크게 줄였습니다.
    • 이러한 연구는 초대규모 언어 모델을 더 경제적이면서도 안정적으로 학습할 수 있는 새로운 방향성을 제시한다는 점에서 의미가 큽니다.

    요약하자면, DeepSeek-V3는 비약적인 규모 확장, 학습 효율 및 안정성, 탐색적 학습 목표(MTP), 고급 추론 능력(CoT-based Distillation) 등을 종합해, 거대 모델이지만 실제 운영 비용과 성능을 균형 있게 유지한다는 점이 핵심 장점이라 할 수 있습니다.

     

     

     

     

     

     

     

     

     

     

    728x90
    반응형
Designed by Tistory.