경영 리뷰/경영

딥시크: 중국 AI 벤처의 혁신적 학습 프로세스 총정리 **

애신 아씨 2025. 2. 3. 11:22

딥시크: 중국 AI 벤처의 혁신적 학습 프로세스 총정리**

 

딥시크 DeepSeek: 2023년 5월 중국 항저우 설립

 

딥시크(DeepSeek)는 2023년 5월 중국 저장성 항저우에서 설립된 인공지능(AI) 스타트업입니다.

 

창업자는 1985년 중국 광둥성 잔장시에서 태어난 량원펑(梁文锋, Liang Wenfeng)으로, 저장대학교에서 컴퓨터 공학을 전공하였습니다.

 

딥시크는 대규모 언어 모델(LLM) 개발에 주력하며, 자연어 처리(NLP) 분야에서 두각을 나타내고 있습니다. 특히, 수학 문제 해결과 같은 논리 추론 능력에서 우수한 성능을 보이는 AI 모델 'R1'을 개발하여 주목받고 있습니다.

 

딥시크 창업자: 저장대 컴퓨터공학 출신 량원펑(梁文锋, Liang Wenfeng)

 

회사는 설립 초기부터 독립적인 대형 모델 개발을 목표로 하였으며, 오픈소스 소프트웨어를 적극 활용하여 비용 효율적인 개발을 추구하였습니다.시크의 AI 모델은 멀티헤드잠재어텐션(MLA)이라는 학습 아키텍처를 통해 추론 효율을 높였으며, 이를 통해 코딩과 수학적 추론 능력을 향상시켰습니다.

 

딥시크는 설립 이후 빠른 속도로 성장하여 글로벌 AI 시장에서 주목받는 기업으로 부상하였으며, 향후 다양한 분야로의 확장을 통해 입지를 더욱 강화할 것으로 전망됩니다.

 

딥시크 주장은 OpenAI 대비 5% 개발비: 하지만, 히든 개발 로직과 실제 개발비용 논란 

 

딥시크(DeepSeek)와 오픈AI(OpenAI)는 인공지능(AI) 모델 개발에 상당한 투자를 하고 있습니다.

 

딥시크는 초기 발표에서 엔비디아의 H800 GPU를 시간당 2달러에 2개월 동안 임대하여 총 557만6천 달러(약 81억3천만 원)의 비용으로 AI 모델을 개발했다고 밝혔습니다.

 

그러나 반도체 연구 및 컨설팅 업체인 세미애널리시스(SemiAnalysis)는 딥시크의 실제 하드웨어 지출이 5억 달러(약 7천300억 원)를 훨씬 웃돌 것으로 추정하며, 이는 딥시크가 발표한 금액의 약 90배에 달합니다.

 

한편, 오픈AI는 AI 모델 개발과 운영에 막대한 비용을 투자하고 있습니다. 2020년에는 구글 클라우드 서비스 이용료로만 7,500만 달러(약 1천억 원)를 지출하였으며, GPT-4 모델 훈련에는 약 42억 달러(약 5조 5천억 원)의 비용이 소요된 것으로 알려져 있습니다.

 

또한, 챗GPT(ChatGPT)의 일일 운영 비용은 약 70만 달러(약 9억 원)로 추산됩니다.

 

이러한 비교를 통해 딥시크와 오픈AI 모두 AI 모델 개발에 상당한 투자를 하고 있음을 알 수 있습니다. 딥시크의 초기 발표는 비교적 적은 비용으로 AI 모델을 개발한 것으로 보였으나, 실제로는 더 많은 자원이 투입되었을 가능성이 제기되고 있습니다.

 

오픈AI는 지속적으로 대규모 투자를 통해 AI 기술을 발전시키고 있으며, 이러한 막대한 투자로 인해 AI 산업에서의 경쟁이 심화되고 있습니다.

 

 

딥시크
팁시크

 

 

 

딥시크 R1 학습 3단계 프로세스

 

1. DeepSeek-R1-Zero: 순수 강화 학습 (Pure Reinforcement Learning)

 

목표:

지도 학습(SFT) 데이터 없이 순수한 강화 학습(RL)만을 사용해 기초 모델을 훈련.

 

알고리즘:

GRPO (Group Relative Policy Optimization) 적용.

각 질문에 대해 여러 개의 출력을 생성하고 보상을 계산한 후, KL 발산(KL divergence) 제한을 사용하여 정책을 안정적으로 최적화.

 

보상 시스템:

정확도 보상: 수학 문제처럼 정답이 명확한 경우 규칙 기반 보상 적용.

형식 보상: 모델이 <think> 및 </think> 태그 내에서 논리를 전개하도록 유도.

자가 진화(Self-Evolution): 모델이 자체적으로 반성(reflection) 및 대체 해결 전략을 개발하며 지속적으로 개선.

 

DeepSeek-R1-Zero는 감독 학습(SFT) 데이터를 사용하지 않고 순수 강화학습(RL)만으로 모델을 학습하는 방식이다. 이를 위해 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 알고리즘이 적용되며, 각 질문에 대해 여러 개의 응답을 생성한 후 보상을 계산하여 정책을 최적화한다. GRPO는 KL 발산(KL divergence) 제약을 도입하여 학습 과정에서 모델이 급격하게 변화하지 않도록 안정성을 유지한다. 보상 시스템은 정확도 보상, 형식 보상, 자가 진화(Self-Evolution)라는 세 가지 주요 요소로 구성된다.

 

정확도 보상은 수학 문제와 같이 명확한 정답이 존재하는 질문에 대해 규칙 기반 보상을 부여하는 방식이다. 형식 보상은 모델이 <think> 및 </think> 태그를 활용하여 논리적인 사고 과정을 구조적으로 표현하도록 유도한다. 자가 진화(Self-Evolution)는 모델이 스스로 문제 해결 능력을 개선하는 메커니즘으로, 특정 문제를 해결하는 과정에서 반성(reflection)하거나 대체 전략(alternative strategies)을 학습하도록 설계되었다.

 

이러한 학습 방식 덕분에 DeepSeek-R1-Zero는 초기부터 강력한 추론 능력을 갖춘 모델로 발전할 수 있다. 그러나 순수 강화학습만으로는 일부 일반적인 언어 태스크에서 자연스럽지 않은 결과가 나타날 수 있으며, 모델이 다목적 응용 환경에서 부족할 가능성이 존재한다. 따라서 후속 학습 과정에서는 이를 보완하기 위한 접근법이 필요하다.

 

 

딥시크 학습 프로세스
딥시크 R1 학습 프로세스 (소스: medium.com)

 


2. DeepSeek-R1: 콜드 스타트(Cold Start) 강화 학습

 

목표:

모델의 추론 성능과 가독성을 향상시키기 위해 일정량의 고품질 콜드 스타트 데이터를 도입.

 

콜드 스타트 데이터란?

모델이 처음 훈련되거나 새로운 작업을 수행할 때, 초기 지식을 제공하는 소량의 고품질 지도 학습 데이터.

학습을 원활하게 시작할 수 있도록 "시드(seed)" 역할을 수행.

 

훈련 과정:

콜드 스타트:

수천 개의 Chain-of-Thought (CoT) 데이터를 사용해 모델을 미세 조정하여 추론력과 가독성 개선.

강화 학습(RL) 적용:

GRPO를 활용해 강화 학습을 진행하며, 수학, 코딩, 논리 등 추론이 중요한 작업을 중점적으로 학습.

언어 일관성을 유지하는 보상 시스템 추가해 다국어 혼합 문제 감소.

거절 샘플링(Rejection Sampling) + 지도 학습(SFT):

강화 학습이 수렴한 후, 질 높은 데이터를 수집하여 일반 작업(예: 글쓰기, 역할극) 훈련을 진행.

거절 샘플링을 통해 저품질 출력을 걸러내고 고품질 응답만을 학습.

2차 강화 학습(RL):

모델이 인간의 선호도(친절함, 무해성, 논리적 일관성 등)에 맞도록 추가적인 강화 학습을 수행.

2차 강화 학습의 필요성:

1차 RL 훈련 후에도 모델은 수학, 코딩, 논리 등 특정 영역에서는 강하지만, 일반적인 글쓰기 및 역할극 수행에는 부족.

2차 RL에서는 인간 선호도에 맞춘 보상 모델을 도입하여 모델의 전반적인 활용도를 높임.

 

DeepSeek-R1에서는 reasoning(추론) 성능을 더욱 향상하고, 보다 자연스러운 언어 출력을 생성하기 위해 고품질 Cold Start 데이터를 활용한다. Cold Start 데이터는 모델 학습 초기에 일정 수준의 성능을 보장하기 위해 제공되는 소량의 감독 학습 데이터(SFT)로, 강화학습이 원활하게 진행될 수 있도록 돕는 역할을 한다.

 

DeepSeek-R1에서는 수천 개의 장문 연쇄적 사고(Chain-of-Thought, CoT) 예제를 활용하여 모델의 가독성과 논리적 사고 능력을 개선하는 Fine-tuning 과정을 거친다. 이후 GRPO를 적용하여 논리적 사고가 중요한 과제(예: 수학, 코딩, 논리 문제 해결)에 집중적으로 학습을 진행한다. 이 과정에서 언어 일관성 보상(Language Consistency Reward)을 도입하여 모델이 여러 언어를 혼합하는 문제를 줄이고, 보다 일관된 문장을 생성할 수 있도록 설계되었다.

 

이후 강화학습이 수렴한 후에는 고품질 데이터 수집을 위해 거부 샘플링(Rejection Sampling)과 감독 학습(SFT)을 추가로 진행한다. 거부 샘플링은 모델이 생성한 여러 응답 중 품질이 높은 응답만을 선별하여 학습에 활용하는 방법이다. 이를 통해 추론 과제뿐만 아니라 작문, 롤플레잉(Role-playing)과 같은 일반적인 언어 태스크에서도 더 자연스럽고 일관된 결과를 얻을 수 있도록 모델을 개선한다.

 

마지막으로 2차 강화학습(RL) 단계를 진행하여 모델을 인간의 선호도에 더욱 맞추는 과정을 수행한다. 1차 강화학습 이후 모델은 수학, 코딩, 논리 문제 해결 등 특정 도메인에서 강력한 성능을 보이지만, 일반적인 작문이나 대화, 정보 제공 등의 과제에서는 여전히 부족할 수 있다.

 

2차 RL 과정에서는 보다 복잡한 시나리오에서 인간의 선호도를 반영하는 보상 모델(Reward Model)을 활용하여 유용성(helpfulness), 무해성(harmlessness), 일관성(coherence) 등의 측면에서 성능을 향상시키는 데 초점을 맞춘다. 이를 통해 DeepSeek-R1은 논리적 추론 능력과 범용적인 언어 태스크 수행 능력을 균형 있게 갖춘 모델로 발전할 수 있다.


3. 지식 증류(Distillation): 소형 모델로 추론 능력 전이

 

목표:

DeepSeek-R1의 추론 능력을 보다 작은 모델에 전이하여 효율성을 향상.

방법:

오픈소스 모델(Qwen, Llama 등)에 DeepSeek-R1의 데이터셋을 활용하여 미세 조정.

결과:

작은 모델도 높은 추론 능력을 보이며, 지식 증류가 효과적인 방법임을 입증.

 

DeepSeek-R1에서 학습된 강력한 추론 능력을 보다 경량화된 모델로 이전하는 과정이 Distillation(지식 증류)이다. 이 과정에서는 DeepSeek-R1의 데이터를 활용하여 오픈소스 모델(예: Qwen, Llama 등)을 Fine-tuning하여 성능을 향상시키는 전략이 적용된다.

 

Distillation은 소형 모델에서도 DeepSeek-R1의 강력한 추론 능력을 유지하면서도 연산 비용을 절감하는 데 중요한 역할을 한다. 이를 통해 학습된 소형 모델들은 특정 태스크에서 SOTA(State-of-the-Art) 수준의 대형 모델과 경쟁할 수 있는 성능을 갖추게 된다. 예를 들어, DeepSeek-R1에서 증류된 Qwen-1.5B 모델은 GPT-4o 및 Claude-3.5-Sonnet보다 수학 벤치마크에서 우수한 성능을 기록했다.

 

Distillation은 대규모 RL 학습보다 효율적이기 때문에, 소형 모델을 개발할 때 더욱 적합한 방법으로 평가된다. 강화학습(RL)은 높은 연산 비용이 요구되며, 대규모 모델을 지속적으로 발전시키기 위해서는 엄청난 자원이 필요하다. 반면, 지식 증류는 기존 대형 모델에서 축적된 지식을 정제하여 상대적으로 적은 자원으로 소형 모델에 적용할 수 있는 장점이 있다.

 

그러나 여전히 강화학습이 필요한 상황도 존재한다. 특히, 새로운 개념을 학습하거나 전혀 다른 도메인의 문제를 해결할 때에는 여전히 대규모 RL을 활용한 모델 개선이 필수적일 수 있다. 또한, PRM(Process Reward Model)과 MCTS(Monte Carlo Tree Search) 등의 RL 기반 기법이 가능성을 보였지만, 확장성과 계산 비용 문제로 인해 현재까지는 완전히 효과적인 해결책이 되지는 못했다.

 

향후 연구 방향으로는 함수 호출(Function Calling) 개선, 다중 턴 대화(Multi-turn interactions) 성능 향상, 복잡한 작업 수행 능력 강화 등이 논의되고 있다. 또한, 다국어 환경에서의 언어 혼합 문제를 해결하고, Zero-shot 프롬프트 성능을 최적화하는 프롬프트 엔지니어링 기술이 중요한 연구 과제로 떠오르고 있다. 소프트웨어 엔지니어링 측면에서는 거부 샘플링이나 비동기 평가(Async Evaluation) 등을 활용하여 코드 생성 및 분석의 효율성을 높이는 방안이 고려되고 있다.

 


핵심 논의점 및 결론

 

결과적으로, DeepSeek의 3단계 학습 전략은 강화학습(RL)과 지식 증류(Distillation)를 적절히 활용하여 대형 모델뿐만 아니라 소형 모델에서도 뛰어난 성능을 발휘할 수 있도록 설계되었다. 이러한 접근 방식은 향후 AI 모델이 보다 효율적으로 학습하고, 다양한 태스크에서 강력한 성능을 유지하는 데 핵심적인 역할을 할 것으로 기대된다.

 

소형 모델에는 증류가 RL보다 효과적:

강화 학습은 자원이 많이 소모되므로, 작은 모델을 훈련할 때는 대형 모델에서 지식을 전이하는 것이 더 효율적.

RL은 여전히 혁신을 위해 필요:

증류는 현재 한계를 뛰어넘는 데 효과적이지만, 궁극적으로는 더 강력한 모델과 대규모 RL이 필요할 가능성이 높음.

PRM(Process Reward Model) 및 MCTS(Monte Carlo Tree Search) 문제점:

확장성, 계산 비용, 토큰 생성의 복잡성 등으로 인해 한계 존재.


최종 요약

DeepSeek-R1-Zero:

순수 RL(GRPO)만으로 학습하여 강력한 성능 달성.

DeepSeek-R1:

콜드 스타트 데이터와 RL을 결합해 OpenAI-o1–1217과 동등한 성능 확보.

지식 증류 성공:

DeepSeek-R1의 추론 능력을 소형 모델(Qwen-1.5B 등)에 전이, GPT-4o 및 Claude-3.5-Sonnet보다 뛰어난 수학 성능 발휘.

 

미래 연구 방향:

함수 호출, 다중 턴 상호작용, 복잡한 작업 수행 능력 향상.

다국어(비영어/중국어) 대응 강화.

제로샷(Zero-shot) 프롬프트 최적화.

소프트웨어 관련 작업의 효율성을 높이기 위해 거절 샘플링 및 비동기 평가 도입.

 

 

 

 

 

ChatGPT 분석: 구글 앞선 OpenAI의 대화형 인공지능 총정리 **

ChatGPT 분석: 구글 앞선 OpenAI의 대화형 인공지능 총정리 ** [인공지능] 대화형 인공지능 챗봇 모델: ChatGPT 에 대해 리뷰하려고 합니다. ChatGPT 분석: 2022년 11월 30일 OpenAI 발표 2022년 11월 OpenAI가 발

stephan-review.tistory.com

 

[인공지능] OpenAI ChatGPT: 오픈AI 챗GPT 모델 기술분석

[인공지능] OpenAI ChatGPT: 오픈AI 챗GPT 모델 기술분석 [인공지능] OpenAI ChatGPT: 오픈AI 챗GPT 모델 기술분석 에 대해 리뷰하려고 합니다. ChatGPT : Chat bot + GPT = Generative Pre-trained Transformer OpenAI가 주도하는

stephan-review.tistory.com

 

 

 

 

반응형