
최근 AI 업계에서 가장 주목받는 뉴스는 중국 AI 스타트업 DeepSeek(이하 딥시크) 이야기다. 딥시크는 선두 주자 Open AI의 ChatGPT o1과 유사한 성능의 DeepSeek R1 모델을 20분의 1의 비용으로 개발하였다고 주장해서 주목받는다. 특히, 미국의 반도체 수출 규제에서도 새로운 기회를 창출했다는 점에서 미국의 빅테크들을 놀라게 했고, GPU를 독점하고 있는 NVIDIA의 주식 가격을 크게 흔들어 놓았다.

딥시크는 2023년 항저우에서 설립된 AI 스타트업이다. 정보공학을 전공한 저장대학교 출신 리앙 웬펑이 설립했다. 그는 미·중 갈등으로 야기된 어려운 환경에서도 인공일반지능(AGI)을 목표로 이 분야 선두 주자인 OpenAI의 샘 알트만과 경쟁한다. 둘 다 40세의 나이다. ChatGPT와 같은 대규모 언어모델(LLM)을 훈련하려면 고도로 훈련된 연구자 팀이 필요해서 일반적으로 '선두 주자'만이 참여할 수 있다고 알려져 있다. 그런데 딥시크는 중국에서 훈련받은 젊은 AI 연구자 140명으로 2,000명 규모의 OpenAI와 맞짱을 뜨고 있다. 중국 인재들의 능력이 미국에 뒤지지 않는다는 것을 만천하에 알린 것이다. 딥시크는 효율적인 모델을 구축하기 위하여 이미 잘 알려진 방법론을 채용하되, 제한된 환경에서 성과를 내기 위하여 깊이 있는 엔지니어링 기술을 개발했다.

LLM 구축은 사전 훈련과 사후 훈련이라는 두 과정으로 이루어진다. 사전 훈련에서는 웹사이트, 책, 코드 저장소 등에서 가져온 수십억 개의 문서로 훈련시킨다. 원하는 텍스트를 생성하는 방법을 학습할 때까지 한 번에 한 단어씩 신경망에 입력하며 파라미터 수정을 반복한다. 이렇게 만들어진 결과물을 기반 모델(Foundation Model)이라고 한다. 대용량 언어 기반 모델로는 자연스러운 대화를 생성할 수 있다. 대부분의 기반 모델은 구글에서 연구개발한 Transformer 구조로 되어 있다. 딥시크는 V3라는 자체 기반 모델을 구축했다. V3에서는 한 번에 계속될 여러 개의 단어를 생성하도록 하여 속도를 높였다.
두 번째 사후 훈련 단계는 기반 모델을 유용한 도구로 전환하는 단계다. 즉 자주 쓰는 특정 작업이나 특정 도메인의 전문가로 양성하는 학습 단계다. 미세 조정이라고도 한다. 지난 몇 년 동안, 이 작업은 사람이 제공한 질문-답변 쌍을 이용하여 기반 모델에 변형을 가했다. 강화학습(Reinforcement Learning) 기법이 사용되었다. 그러나 딥시크는 사람 개입 없이도 강화 학습하도록 그 과정을 자동화했다. 즉 사람의 피드백을 사용하여 모델을 조정하는 것이 아니라 컴퓨터가 스스로 생성한 피드백 점수를 사용했다. 따라서 사람이 수고할 필요 없이 모델을 훈련할 수 있게 된 것이다. 딥시크는 사후 학습으로 수학 문제, 코딩 등에서 강력한 능력을 보이는 추론 강화 모델 R1을 만들었다.

딥시크가 크게 칭찬받는 것은 제한된 환경에서 좋은 성능을 구현했다는 점이다. 많은 데이터 처리가 필요한 백터 계산을, 차원을 낮춰 시행하기도 했고, 전체를 여러 개의 전문가 네트워크로 나누어 입력에 따라 적절한 전문가만 활성화하는 전문가 복합(Mixture of Expert) 방식을 사용했다. 또 추론 과정에서는 모든 논리적 단계를 자세히 설명하기보다는 정확한 답변을 목표로 했다. 이 모든 것이 연산량을 줄이고 효율성을 높이기 위함이었다. 또 NVIDIA의 CUDA 환경을 어셈블리 언어로 우회하여 메모리 최적화하거나 연산 속도를 향상했다. 하드코어 GPU 엔지니어링으로 하드웨어 성능이 부족한 상황에서도 높은 성능을 유지할 수 있었다.
딥시크가 보여준 것은 사전 훈련된 모델을 추론 모델로 전환하는 방법이다. 추론 모델을 만드는 것이 사람들이 생각했던 것만큼 어렵지 않다는 것을 보여 주었었다. 강력한 기반 모델이 있으면 자동화된 강화학습으로, 인간의 감독 없이도 강력한 추론 모델을 끌어낼 수 있다. 그 노하우가 공개되었기 때문에 앞으로 유능한 무료 모델이 급증할 것이고, 소규모 회사 간의 협업이 더 많아지고, 대기업의 우위가 약해질 것이다.
딥시크는 대형 AI 모델뿐만 아니라 경량화된 AI 모델 6가지 버전을 함께 공개했다. 특히, 일부 모델은 노트북에서도 실행할 수 있을 정도로 소형화되었다. 이 모델들을 개발자들이 직접 테스트하고 응용할 수 있도록 오픈소스로 공개했다. 단순히 훈련된 모델을 공개한 것뿐만 아니라, 훈련 과정, 데이터 처리 방식, 최적화 기법 등도 함께 GitHub, Hugging Face 등 글로벌 플랫폼에 공개했다. 전 세계 개발자들이 쉽게 접근하여, 모델을 개선하고 확장하는 데 기여하도록 배려했다. 이러한 전략은 기업에서 자체적인 AI 모델을 개발하고 활용할 수 있어서 글로벌 AI 연구자들의 관심을 끌고 있다. 지금까지 오픈소스로 혜택만 보던 중국이 커뮤니티에 커다란 공헌을 한 것이다.
그런데 딥시크가 자사의 지적재산권을 침해했다고 OpenAI가 발끈하고 나섰다. 크고 성능이 뛰어난 모델의 출력을 사용하여 작은 모델에서 저렴한 비용으로 유사한 결과를 얻을 수 있는 “증류”라는 기술을 ChatGPT에 대하여 사용했다고 주장한다. 또 실제 사용한 개발비를 축소 발표했다는 의심도 있다. 더구나 보안과 개인정보에 관한 우려 때문에 사용을 금지하는 기업과 국가가 나타나기 시작했다. 어떻게 결론이 날 것인가 두고 볼 일이다.
(다음 편에 계속)
Will Douglas Heaven,”How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead” MIT Tech Review, 2025.01.31 참조
다음 글에서는 딥시크의 사례를 통해 우리 AI 생태계를 위하여 정부, 대학, 스타트업들이 어떻게 대응하여야 하는지에 대해 더욱 자세히 다뤄보겠습니다.대한민국의 스타트업이 세계 AI 시장에서 경쟁력을 어떻게 키울 수 있을지 궁금하시다면 계속해서 읽어주세요.
 | 김진형 교수 마크애니 김진형 고문은 카이스트 명예교수로, 1세대 소프트웨어 개발자로서 1973년부터 KIST에서 개발자로 일했다. UCLA에서 컴퓨터과학 박사학위를 받은 후 미국 휴즈연구소에서 인공지능을 연구했다. 1985년부터 KAIST 전산학과 인공지능연구실을 이끌며 약 100명의 석·박사 전문 인력을 양성했다. KAIST에서 학과장, 인공지능연구센터 소장, 소프트웨어 대학원장을 역임했다. ‘AI 최강의 수업’, ‘인공지능 메타버스 시대 미래전략(공저)’ 등의 저서를 썼다. |
AI와 정보보안을 결합한 솔루션에 관심이 있으신가요? 마크애니의 AI 기반 보안 솔루션으로 더 안전한 시스템을 구축할 수 있습니다.
아래 알아보기를 눌러 마크애니 보안 솔루션에 대해서 더 자세히 알아보세요.

최근 AI 업계에서 가장 주목받는 뉴스는 중국 AI 스타트업 DeepSeek(이하 딥시크) 이야기다. 딥시크는 선두 주자 Open AI의 ChatGPT o1과 유사한 성능의 DeepSeek R1 모델을 20분의 1의 비용으로 개발하였다고 주장해서 주목받는다. 특히, 미국의 반도체 수출 규제에서도 새로운 기회를 창출했다는 점에서 미국의 빅테크들을 놀라게 했고, GPU를 독점하고 있는 NVIDIA의 주식 가격을 크게 흔들어 놓았다.
딥시크는 2023년 항저우에서 설립된 AI 스타트업이다. 정보공학을 전공한 저장대학교 출신 리앙 웬펑이 설립했다. 그는 미·중 갈등으로 야기된 어려운 환경에서도 인공일반지능(AGI)을 목표로 이 분야 선두 주자인 OpenAI의 샘 알트만과 경쟁한다. 둘 다 40세의 나이다. ChatGPT와 같은 대규모 언어모델(LLM)을 훈련하려면 고도로 훈련된 연구자 팀이 필요해서 일반적으로 '선두 주자'만이 참여할 수 있다고 알려져 있다. 그런데 딥시크는 중국에서 훈련받은 젊은 AI 연구자 140명으로 2,000명 규모의 OpenAI와 맞짱을 뜨고 있다. 중국 인재들의 능력이 미국에 뒤지지 않는다는 것을 만천하에 알린 것이다. 딥시크는 효율적인 모델을 구축하기 위하여 이미 잘 알려진 방법론을 채용하되, 제한된 환경에서 성과를 내기 위하여 깊이 있는 엔지니어링 기술을 개발했다.
LLM 구축은 사전 훈련과 사후 훈련이라는 두 과정으로 이루어진다. 사전 훈련에서는 웹사이트, 책, 코드 저장소 등에서 가져온 수십억 개의 문서로 훈련시킨다. 원하는 텍스트를 생성하는 방법을 학습할 때까지 한 번에 한 단어씩 신경망에 입력하며 파라미터 수정을 반복한다. 이렇게 만들어진 결과물을 기반 모델(Foundation Model)이라고 한다. 대용량 언어 기반 모델로는 자연스러운 대화를 생성할 수 있다. 대부분의 기반 모델은 구글에서 연구개발한 Transformer 구조로 되어 있다. 딥시크는 V3라는 자체 기반 모델을 구축했다. V3에서는 한 번에 계속될 여러 개의 단어를 생성하도록 하여 속도를 높였다.
두 번째 사후 훈련 단계는 기반 모델을 유용한 도구로 전환하는 단계다. 즉 자주 쓰는 특정 작업이나 특정 도메인의 전문가로 양성하는 학습 단계다. 미세 조정이라고도 한다. 지난 몇 년 동안, 이 작업은 사람이 제공한 질문-답변 쌍을 이용하여 기반 모델에 변형을 가했다. 강화학습(Reinforcement Learning) 기법이 사용되었다. 그러나 딥시크는 사람 개입 없이도 강화 학습하도록 그 과정을 자동화했다. 즉 사람의 피드백을 사용하여 모델을 조정하는 것이 아니라 컴퓨터가 스스로 생성한 피드백 점수를 사용했다. 따라서 사람이 수고할 필요 없이 모델을 훈련할 수 있게 된 것이다. 딥시크는 사후 학습으로 수학 문제, 코딩 등에서 강력한 능력을 보이는 추론 강화 모델 R1을 만들었다.
딥시크가 크게 칭찬받는 것은 제한된 환경에서 좋은 성능을 구현했다는 점이다. 많은 데이터 처리가 필요한 백터 계산을, 차원을 낮춰 시행하기도 했고, 전체를 여러 개의 전문가 네트워크로 나누어 입력에 따라 적절한 전문가만 활성화하는 전문가 복합(Mixture of Expert) 방식을 사용했다. 또 추론 과정에서는 모든 논리적 단계를 자세히 설명하기보다는 정확한 답변을 목표로 했다. 이 모든 것이 연산량을 줄이고 효율성을 높이기 위함이었다. 또 NVIDIA의 CUDA 환경을 어셈블리 언어로 우회하여 메모리 최적화하거나 연산 속도를 향상했다. 하드코어 GPU 엔지니어링으로 하드웨어 성능이 부족한 상황에서도 높은 성능을 유지할 수 있었다.
딥시크가 보여준 것은 사전 훈련된 모델을 추론 모델로 전환하는 방법이다. 추론 모델을 만드는 것이 사람들이 생각했던 것만큼 어렵지 않다는 것을 보여 주었었다. 강력한 기반 모델이 있으면 자동화된 강화학습으로, 인간의 감독 없이도 강력한 추론 모델을 끌어낼 수 있다. 그 노하우가 공개되었기 때문에 앞으로 유능한 무료 모델이 급증할 것이고, 소규모 회사 간의 협업이 더 많아지고, 대기업의 우위가 약해질 것이다.
딥시크는 대형 AI 모델뿐만 아니라 경량화된 AI 모델 6가지 버전을 함께 공개했다. 특히, 일부 모델은 노트북에서도 실행할 수 있을 정도로 소형화되었다. 이 모델들을 개발자들이 직접 테스트하고 응용할 수 있도록 오픈소스로 공개했다. 단순히 훈련된 모델을 공개한 것뿐만 아니라, 훈련 과정, 데이터 처리 방식, 최적화 기법 등도 함께 GitHub, Hugging Face 등 글로벌 플랫폼에 공개했다. 전 세계 개발자들이 쉽게 접근하여, 모델을 개선하고 확장하는 데 기여하도록 배려했다. 이러한 전략은 기업에서 자체적인 AI 모델을 개발하고 활용할 수 있어서 글로벌 AI 연구자들의 관심을 끌고 있다. 지금까지 오픈소스로 혜택만 보던 중국이 커뮤니티에 커다란 공헌을 한 것이다.
그런데 딥시크가 자사의 지적재산권을 침해했다고 OpenAI가 발끈하고 나섰다. 크고 성능이 뛰어난 모델의 출력을 사용하여 작은 모델에서 저렴한 비용으로 유사한 결과를 얻을 수 있는 “증류”라는 기술을 ChatGPT에 대하여 사용했다고 주장한다. 또 실제 사용한 개발비를 축소 발표했다는 의심도 있다. 더구나 보안과 개인정보에 관한 우려 때문에 사용을 금지하는 기업과 국가가 나타나기 시작했다. 어떻게 결론이 날 것인가 두고 볼 일이다.
(다음 편에 계속)
Will Douglas Heaven,”How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead” MIT Tech Review, 2025.01.31 참조
다음 글에서는 딥시크의 사례를 통해 우리 AI 생태계를 위하여 정부, 대학, 스타트업들이 어떻게 대응하여야 하는지에 대해 더욱 자세히 다뤄보겠습니다.대한민국의 스타트업이 세계 AI 시장에서 경쟁력을 어떻게 키울 수 있을지 궁금하시다면 계속해서 읽어주세요.
김진형 교수
마크애니 김진형 고문은 카이스트 명예교수로, 1세대 소프트웨어 개발자로서 1973년부터 KIST에서 개발자로 일했다.
UCLA에서 컴퓨터과학 박사학위를 받은 후 미국 휴즈연구소에서 인공지능을 연구했다. 1985년부터 KAIST 전산학과 인공지능연구실을 이끌며
약 100명의 석·박사 전문 인력을 양성했다. KAIST에서 학과장, 인공지능연구센터 소장, 소프트웨어 대학원장을 역임했다.
‘AI 최강의 수업’, ‘인공지능 메타버스 시대 미래전략(공저)’ 등의 저서를 썼다.
AI와 정보보안을 결합한 솔루션에 관심이 있으신가요? 마크애니의 AI 기반 보안 솔루션으로 더 안전한 시스템을 구축할 수 있습니다.

아래 알아보기를 눌러 마크애니 보안 솔루션에 대해서 더 자세히 알아보세요.