상세 컨텐츠

본문 제목

량원펑, 두 번의 인터뷰

뉴스에 관한 뉴스

by Paperback Writer 2025. 1. 30. 14:25

본문

반응형
량원펑 Liang Wenfeng 梁文锋

 

"딥시크는 역행자, 우리의 목표는 AGI"

딥시크 창업자 량원펑이 누군지 관심이 커지고 있다.
그를 직접 인터뷰한 중국 매체의 기사가 있어서 한국어로 번역했다.
2023년 5월과 2024년 7월 2차례 ' 暗涌Wave'라는 중국 매체와 인터뷰한 전문이다.
상당히 길지만 그의 철학, 딥시크의 비전이 무엇인지 알 수 있다.
 
인터뷰에 나오는 주요 코멘트만 살펴도, 대단한 열정을 엿볼 수 있다. 또 자연스럽게, 한국의 빅테크와 스타트업들은 왜 이런 도전을 하지 못하는가 하는 질문을 하게 된다.
 

"가슴 뛰는 일은 돈으로 평가할 수 없다."
"우리의 출발점은 기회를 틈타 돈을 버는 것이 아니라 기술의 최전선에서 생태계 발전을 촉진하는 것이다."

 

"경험은 장기적으로 중요하지 않다."
"기초 능력, 창의성, 열정이 더 중요하다. 우리의 인재 선발 기준은 언제나 열정과 호기심이다."

 

"딥시크팀에 해외파 인재는 없다."

 

"최고의 인재를 끌어들이려면 세상에서 가장 어려운 문제를 해결하는 데 도전해야 한다."

 

"인공지능(AI)은 모든 사람이 저렴하게 이용할 수 있는 것이 되어야 한다."

 

"중국도 기술 혁신의 기여자가 되어야지, 무임승차만 할 수는 없다.
"지난 30년 동안 중국은 돈 버는 것만 강조했고 혁신은 간과했다."

 

"중국과 미국 사이에 AI기술이 1~2년 격차가 있다고 하지만, 진정한 격차는 창의적인 것과 모방적인 것의 차이다."

 
'암류暗涌Waves'는 주로 금융, 투자, 기술 분야의 심층적인 분석과 보도를 제공하는 중국의 미디어 플랫폼이다.
이 매체는 '돈의 흐름, 사람의 부침'이라는 슬로건을 가지고 있으며, 36氪(36kr) 산하의 투자 보도 계정이다.
 

요약 : 열정과 혁신

두 편의 인터뷰를 간단히 요약해보면 이렇다.
2023년 5월의 인터뷰에서 량원펑은 미쳐야 한다고 얘기했다. 젊은 엔지니어들이 미친 듯한 열망을 가지고 간절한 마음으로 도전한 것이 자신들이 AI 경쟁에서 계속 살아남아 도전을 이어갈 수 있는 길이라고 했다. 이 때만해도 아직 딥시크의 성공이 눈에 보이지 않을 때였다.
두번째 인터뷰에선 혁신을 이야기한다. 2024년 7월의 인터뷰인데, 딥시크가 세계를 놀라게 한 V3 이전에 V2의 성과를 이야기한 내용이다. 중국의 다른 빅테크 기업들은 미국의 LLM기술을 기반으로 응용프로그램을 만들려고 했지만, 자신은 근본적인 기술 혁신에 도전했다고 강조하면서 중국도 이제는 세계에 기여하는 국가가 되어야 한다고 말한다.
인터뷰 전문은 구글 제미나이 2.0 Flash Experimental 로 번역하고 부분적으로 다듬었다. 챗GPT-4o와 클로드, 구글 제미나이를 번역에 활용했는데 구글 제미나이가 가장 뛰어나고 편리했다. 괄호 안의 설명은 내가 붙였다.
 
기사에 등장하는 환팡(幻方, Magic Square Quantitative)은 중국 최대의 퀀트 투자 펀드 중 하나로 딥시크의 모회사다..
 
환팡은 2019년 AI연구소를 설립하고 이듬해 2억 위안(약 380억 원)을 투자해 딥러닝 훈련 플랫폼 ‘잉훠원 1호(萤火一号, Yinghuo One)’를 구축했다. 2021년 10억 위안(약 1900억원)을 추가로 투자했다. 엔비디아 A100 GPU를 1만장 이상 보유하고 있는 것으로 알려졌는데, 중국 안에 1만개 이상의 GPU를 보유한 기업은 불과 5곳 뿐이다.
 
량원펑(梁文锋)은 이렇게 말했다.

"우리는 이 일을 하고 싶었고, 할 수 있는 환경을 갖추고 있다. 그렇다면 우리가 가장 적합한 팀 중 하나다."

 
 
2023年05月24日 암류(暗涌Waves) 인터뷰 전문

대규모 모델 전쟁 속에서 이단아로 남은 환팡

대규모 모델 개발 경쟁은 소수의 사람들만이 참여할 수 있는 게임과 같습니다. 많은 스타트업들이 대기업의 시장 진입 이후 방향을 수정하거나 사업을 접을 생각을 하는 와중에, 이 양적 펀드는 고립된 길을 걷고 있습니다.
 
5월, 환팡은 대규모 모델을 개발하는 독립적인 신규 조직의 이름을 "심도구색(深度求索)"이라고 정하고, 진정한 인간 수준의 인공지능을 만드는 데 집중할 것이라고 강조했습니다. 그들의 목표는 단순히 ChatGPT를 복제하는 것이 아니라 범용 인공지능(AGI)의 더 많은 미지의 수수께끼를 연구하고 밝히는 것입니다.
 
뿐만 아니라, 희소한 인재에 크게 의존해야 하는 이 분야에서 환팡은 집념을 가진 사람들을 모으려 하고 있으며, 그들이 가장 강력한 무기라고 생각하는 ‘집단적 호기심’을 내세우고 있습니다.
 
양적 투자 분야에서 환팡은 수천억 위안 규모에 도달한 "최고의 펀드"입니다. 하지만 이번 AI 물결로 주목받게 된 것은 꽤나 극적인 일입니다.
 
중국 내 클라우드 업체들의 고성능 GPU 칩 부족이 중국 생성형 AI 탄생을 제약하는 가장 직접적인 요인으로 작용할 때, 《차이징 11인(财经十一人)》 보도에 따르면 1만 개 이상의 GPU를 보유한 국내 기업은 5곳 미만입니다. 몇몇 주요 대기업 외에도, 환팡이라는 양적 펀드 회사가 포함되어 있습니다. 일반적으로 1만 개의 Nvidia A100 칩은 자체 대규모 모델을 훈련하기 위한 컴퓨팅 파워 기준점으로 간주됩니다.
 
사실 인공지능 분야에서 거의 주목받지 못했던 이 회사는 이미 은밀한 AI 거물이었습니다. 2019년 환팡은 AI 회사를 설립했고, 자체 개발한 딥러닝 훈련 플랫폼 "반딧불이 1호(萤火一号)"에 총 2억 위안에 가까운 금액을 투자하여 1,100개의 GPU를 탑재했습니다. 2년 후, "반딧불이 2호"에 대한 투자는 10억 위안으로 증가했으며, 약 1만 개의 Nvidia A100 그래픽 카드를 탑재했습니다.
 
이는 단순히 컴퓨팅 파워 측면에서 환팡이 많은 대기업보다 훨씬 먼저 ChatGPT 개발에 필요한 진입 티켓을 확보했다는 것을 의미합니다.
 
다만, 대규모 모델은 컴퓨팅 파워, 알고리즘, 데이터에 크게 의존하기 때문에 5천만 달러의 초기 자금이 필요하고, 한 번 훈련하는 데 수천만 달러가 필요하며, 수백억 달러 규모의 회사가 아니라면 꾸준히 추격하기 어렵습니다. 이러한 어려움 속에서도 환팡은 매우 낙관적입니다. 창립자 량원펑은 “우리가 이 일을 하고 싶고, 할 수 있다면, 우리가 가장 적합한 사람들 중 하나”라고 말했습니다.
 
이러한 수수께끼 같은 낙관론은 환팡의 독특한 성장 경로에서 비롯됩니다.
 
양적 투자는 미국에서 유래한 것으로, 중국 주요 양적 펀드의 창립 멤버들은 대부분 미국 또는 유럽 헤지펀드에서 경력을 쌓았습니다. 하지만 환팡은 예외입니다. 환팡은 완전히 현지 인력으로 시작하여 스스로 성장했습니다.
 
설립된 지 6년 만인 2021년, 환팡은 수천억 위안 규모에 도달하여 "양적 투자 4대 천왕" 중 하나로 불리게 되었습니다.
 
외부인의 시각으로 시장에 진입한 성장 경로는 환팡을 끊임없이 판을 흔드는 자처럼 만들었습니다. 많은 업계 관계자들은 환팡이 "연구 개발 시스템, 제품, 판매 등 모든 면에서 항상 새로운 방식으로 업계에 진입하고 있다"고 말했습니다.
 
한 주요 양적 펀드 창립자는 환팡이 "수년간 기존의 정해진 길을 따르지 않고", "자신들이 원하는 방식대로" 나아가고 있다고 평가하며, "다소 이단적이거나 논란이 되더라도 당당하게 말하고 자신의 생각대로 행동한다"고 덧붙였습니다.
 
환팡의 성장 비결에 대해 내부에서는 "경험은 부족하지만 잠재력이 있는 사람들을 채용하고, 혁신이 일어날 수 있는 조직 구조와 기업 문화를 구축했기 때문"이라고 말하며, 이것이 대규모 모델 스타트업이 대기업과 경쟁할 수 있는 비결이라고 생각합니다.
 
하지만 더 중요한 비밀은 환팡의 창립자인 량원펑에게서 비롯될 수 있습니다.
 
량원펑은 저장대학교에서 인공지능을 공부할 때부터 "인공지능이 세상을 바꿀 것"이라고 확신했지만, 2008년 당시에는 인정받지 못하는 집념이었습니다.
 
졸업 후 그는 주변 사람들처럼 대기업에서 프로그래머로 일하는 대신, 청두의 값싼 임대 주택에 숨어 여러 시나리오를 시도하는 과정에서 좌절을 반복적으로 겪었습니다. 결국 가장 복잡한 시나리오 중 하나인 금융 분야에 진입하여 환팡을 설립했습니다.
 
흥미로운 점은 초기 몇 년 동안, 같은 괴짜 성향으로 선전의 도시 빈민가에서 "실현 불가능한" 비행체를 만들던 친구가 그에게 합류하자고 제안했다는 것입니다. 나중에 이 친구는 수천억 달러 규모의 회사를 만들었는데, 바로 DJI(대강)입니다.
 
따라서 대규모 모델 개발과 필연적으로 관련된 자금, 인력, 컴퓨팅 파워 등의 주제 외에도, 우리는 환팡의 창립자인 량원펑과 혁신을 가능하게 하는 조직 구조와 인간의 광기가 얼마나 오래 지속될 수 있는지에 대해 특별히 이야기를 나누었습니다.
창업 10여 년 만에, 좀처럼 모습을 드러내지 않았던 "기술 오타쿠"형 창립자가 처음으로 공개 인터뷰에 응한 것입니다.
 
공교롭게도 환팡은 4월 11일 대규모 모델 개발 발표 당시, 프랑스 누벨바그 감독 프랑수아 트뤼포가 젊은 감독들에게 했던 말, 즉 "미친 듯이 야심을 품고 미친 듯이 진실해야 한다"를 인용했습니다.
 
다음은 인터뷰 내용입니다.

량원펑

 

"가장 중요하고 어려운 일을 하라"

 

연구와 탐색

「암류」: 얼마 전, 환팡에서 대규모 모델을 개발하기로 발표했습니다. 양적 펀드가 왜 이런 일을 하는 건가요?
 
량원펑(梁文锋): 저희가 대규모 모델을 만드는 것은 양적 분석이나 금융과는 직접적인 관련이 없습니다. 이 일을 위해 '심도구색(深度求索-DeepSeek)'이라는 새로운 회사를 독립적으로 설립했습니다. 환팡의 핵심 인력 중에는 인공지능 분야에서 일한 사람들이 많습니다. 처음에는 다양한 시나리오를 시도했지만, 결국 매우 복잡한 금융 분야에 진입했습니다. 범용 인공지능(AGI)은 다음으로 가장 어려운 일 중 하나일 수 있으며, 그래서 저희에게는 왜 해야 하는가의 문제가 아니라 어떻게 해야 하는가의 문제입니다.
 
「암류」: 자체적으로 대형 모델을 훈련할 건가요, 아니면 금융과 같은 특정 산업 분야의 대형 모델을 만들 건가요?
 
량원펑: 저희는 범용 인공지능, 즉 AGI를 만들고자 합니다. 언어 대형 모델은 AGI로 가는 필수적인 경로일 수 있으며, AGI의 초기 특징을 갖추고 있기에 여기에서 시작할 것입니다. 이후에는 시각과 같은 분야도 다룰 것입니다.
 
「암류」: 대기업들이 시장에 진입하면서, 많은 스타트업들은 범용 대형 모델만을 개발하려는 큰 방향을 포기했습니다.
 
량원펑: 저희는 모델을 기반으로 하는 응용 프로그램을 너무 일찍 설계하지 않을 것이며, 대형 모델 자체에 집중할 것입니다. (chatGPT와는 다른 LLM모델을 만들겠다는 의미인 듯.)
 
「암류」: 많은 사람들이 대기업들이 공감대를 형성한 후 시장에 진입하는 것은 좋은 시점이 아니라고 생각합니다.
 
량원펑: 지금 보기에는 대기업이든 스타트업이든 단기간에 경쟁사를 압도할 기술적 우위를 확보하기는 어렵습니다. OpenAI가 길을 제시했고, 공개된 논문과 코드를 기반으로 하기 때문에 늦어도 내년이면 대기업과 스타트업 모두 자체 언어 모델을 개발할 것입니다. 대기업과 스타트업 모두 기회가 있습니다. 기존의 특정 분야 시나리오는 스타트업이 장악하고 있지 않기 때문에 이 단계에서는 스타트업에게 불리합니다. 하지만 이러한 시나리오는 결국 분산되고 파편화된 작은 수요이기 때문에 유연한 스타트업 조직에 더 적합합니다. 장기적으로 보면 대형 모델 응용의 진입 장벽은 점점 낮아질 것이므로, 스타트업은 앞으로 20년 안에 언제든 시장에 진입할 기회가 있습니다. 저희의 목표는 특정 분야나 응용 프로그램을 만드는 것이 아니라 연구와 탐색을 하는 것입니다.
 
「암류」: 왜 "연구와 탐색"이라고 정의하셨나요?
 
량원펑: 호기심에서 비롯된 것입니다. 멀리 보자면 몇 가지 추측을 검증하고 싶습니다. 예를 들어, 인간 지능의 본질이 언어일 수 있고, 인간의 사고 과정이 언어적 과정일 수 있다는 것입니다. 생각하고 있다고 믿지만, 실제로는 머릿속에서 언어를 짜내고 있을 수 있습니다. 이는 언어 대형 모델에서 인간과 유사한 인공지능(AGI)이 탄생할 수 있다는 것을 의미합니다. 가까이에서 보면 GPT4에는 아직 해결되지 않은 미스터리가 많이 있습니다. 이를 복제하는 동시에 연구를 통해 그 비밀을 밝히고자 합니다.
 
「암류」: 하지만 연구에는 더 큰 비용이 따릅니다.
 
량원펑: 단순 복제만 한다면 공개된 논문이나 오픈 소스 코드를 기반으로 적은 횟수만 훈련하거나 미세 조정만 하면 되므로 비용이 매우 낮습니다. 반면, 연구는 다양한 실험과 비교를 해야 하므로 더 많은 컴퓨팅 성능이 필요하고 인력 요구 수준도 높아 비용이 더 많이 듭니다.
 
「암류」: 그렇다면 연구 자금은 어디에서 나오나요?
 
량원펑: 환팡은 저희의 투자자 중 하나이며, 충분한 연구 개발 예산을 가지고 있습니다. 또한 매년 수억 위안의 기부 예산도 있는데, 이전에는 공익 기관에 기부했지만 필요하다면 일부 조정할 수도 있습니다.
 
「암류」: 하지만 기초 대형 모델을 개발하려면 2~3억 달러 없이는 판에 뛰어들 수도 없는데, 어떻게 지속적인 투자를 감당할 수 있나요?
 
량원펑: 저희도 다양한 투자자를 찾고 있습니다. 접촉해 본 결과, 많은 VC(벤처캐피털)들이 연구에 대한 우려를 가지고 있는 것 같습니다. 그들은 투자 회수를 원하며 가능한 한 빨리 제품을 상용화하기를 바라지만, 저희는 연구를 우선시하는 방식으로 진행하고 있어 VC로부터 자금을 유치하기가 어렵습니다. 하지만 저희는 컴퓨팅 파워와 엔지니어 팀을 가지고 있으므로, 이미 절반의 카드를 확보한 것과 같습니다.
 
「암류」: 사업 모델에 대한 어떤 추론이나 구상이 있나요?
 
량원펑: 현재 생각하고 있는 것은 훈련 결과를 대부분 공개 공유하여 상업화와 결합하는 것입니다. 우리는 소수의 사람과 기업만이 기술을 독점하는 것이 아니라, 더 많은 사람, 심지어 작은 앱에서도 저렴한 비용으로 대형 모델을 사용할 수 있기를 바랍니다.
 
「암류」: 일부 대기업들도 나중에 서비스를 제공할 텐데, 차별화되는 부분은 무엇인가요?
 
량원펑: 대기업의 모델은 자사 플랫폼이나 생태계와 묶일 수 있지만, 저희는 완전히 자유롭습니다.
 
「암류」: 어쨌든 상업적인 회사가 무한 투자가 필요한 연구 탐색을 한다는 것은 다소 미친 짓입니다.
 
량원펑: 반드시 상업적인 이유를 찾아야 한다면 없을 겁니다. 타산이 맞지 않으니까요. 상업적인 관점에서 볼 때 기초 연구는 투자 대비 수익률이 매우 낮습니다. OpenAI 초기 투자자들은 돈을 투자할 때 얼마나 많은 수익을 돌려받을지 생각한 것이 아니라, 진심으로 이 일을 하고 싶었던 것입니다. 저희는 지금 이 일을 하고 싶고, 능력이 있으며, 이 시점에서 우리가 가장 적합한 사람들 중 하나라고 확신합니다.
 

"가슴 뛰는 일은 단순한 돈으로 평가할 수 없을지도 모릅니다."

 
「암류」: GPU는 이번 ChatGPT 창업 열풍의 희소 자원인데, 2021년에 이미 선견지명을 가지고 만 장을 확보했습니다. 왜인가요?
 
량원펑: 사실 처음에는 한 장의 GPU로 시작해서 2015년에는 100장, 2019년에는 1000장, 그리고 만 장까지 점진적으로 늘어났습니다. 몇백 장까지는 IDC에 위탁 관리했지만, 규모가 커지자 위탁 관리가 더 이상 요구를 충족할 수 없게 되어 자체 데이터 센터를 구축하기 시작했습니다. 많은 사람들은 여기에 알려지지 않은 사업적 논리가 있을 것이라고 생각하지만, 실제로는 호기심에서 비롯된 것입니다.
 
「암류」: 어떤 호기심인가요?
 
량원펑: AI 능력의 한계에 대한 호기심입니다. 많은 외부인들에게는 ChatGPT 열풍이 큰 충격이지만, 업계 사람들에게는 2012년 AlexNet이 가져온 충격이 이미 새로운 시대를 열었습니다. AlexNet은 당시 다른 모델보다 오류율이 훨씬 낮아 수십 년간 잠자고 있던 신경망 연구를 부활시켰습니다. 구체적인 기술 방향은 계속 바뀌었지만, 모델, 데이터, 컴퓨팅 파워 이 세 가지 조합은 변하지 않았습니다. 특히 2020년 OpenAI가 GPT3를 발표한 후에는 방향이 분명해졌습니다. 많은 컴퓨팅 파워가 필요했던 것입니다. 하지만 2021년, 우리가 '반딧불이 2호'를 구축할 때만 해도 대부분의 사람들은 이해하지 못했습니다.
 
「암류」: 그래서 2012년부터 컴퓨팅 파워 확보에 관심을 갖기 시작했나요?
 
량원펑: 연구원에게는 컴퓨팅 파워에 대한 갈증이 끝없이 이어집니다. 소규모 실험을 한 후에는 항상 더 큰 규모의 실험을 하고 싶어합니다. 그 후에는 가능한 많은 컴퓨팅 파워를 구축하려는 의식적인 노력을 했습니다.
 
「암류」: 많은 사람들은 이 컴퓨터 클러스터가 양적 투자 사업(주식시장에서 AI로 주가와 투자 흐름을 분석해 실제 투자를 하는 것을 말하는 듯)에서 머신러닝을 사용하여 가격 예측을 하는 데 사용될 것이라고 생각합니다.
 
량원펑: 단순한 양적 투자만 한다면 적은 수의 GPU로도 목적을 달성할 수 있습니다. 우리는 투자 외에도 많은 연구를 했고, 어떤 패러다임이 전체 금융 시장을 완벽하게 설명할 수 있는지, 더 간결한 표현 방식이 있는지, 서로 다른 패러다임의 능력의 한계는 어디인지, 이러한 패러다임이 더 광범위하게 적용될 수 있는지 등을 더 알고 싶어합니다.
 
「암류」: 하지만 이 과정은 돈을 많이 쓰는 행위이기도 합니다.
 
량원펑: 가슴 뛰는 일은 단순한 돈으로 평가할 수 없을지도 모릅니다. 집에 피아노를 사는 것처럼, 살 여유가 있고 그 위에서 연주하고 싶어하는 사람들이 있기 때문입니다.
 
「암류」: GPU는 보통 20%의 속도로 감가상각됩니다.
 
량원펑: 정확하게 계산해 보지는 않았지만, 그 정도는 아닐 것입니다. Nvidia의 GPU는 귀중한 물건이므로 오래된 카드라도 여전히 많은 사람들이 사용하고 있습니다. 이전에 퇴역한 구형 GPU를 중고로 처리할 때 꽤 높은 가격을 받았고, 큰 손해를 보지 않았습니다.
 
「암류」: 컴퓨터 클러스터를 구축하려면 유지보수 비용, 인건비, 심지어 전기 요금까지 상당한 지출이 필요합니다.
 
량원펑: 전기 요금과 유지보수 비용은 실제로 매우 낮습니다. 이러한 지출은 매년 하드웨어 가격의 약 1%에 불과합니다. 인건비는 적지 않지만, 인건비는 미래에 대한 투자이며 회사의 가장 큰 자산입니다. 저희가 선택한 사람들은 비교적 소박하고 호기심이 있으며, 여기에서 연구를 할 기회를 얻습니다.
 
「암류」: 2021년, 환팡은 아시아 태평양 지역에서 A100 GPU를 가장 먼저 받은 회사 중 하나입니다. 왜 일부 클라우드 회사보다 빨랐나요?
 
량원펑: 저희는 새로운 GPU에 대한 사전 연구, 테스트 및 계획을 오래전부터 해왔습니다. 일부 클라우드 회사의 경우, 제 생각에는 이전에는 수요가 분산되어 있었고 2022년 자율 주행 분야에서 기계를 임대하여 훈련을 시키려는 수요가 생기면서 지불 능력이 생기자 클라우드 회사들이 인프라를 구축하기 시작했습니다. 대기업은 단순한 연구나 훈련을 하기가 어렵고, 사업적 요구에 더 많이 좌우될 것입니다.
 
「암류」: 대형 모델 경쟁 구도를 어떻게 보시나요?
 
량원펑: 백테크 대기업이 분명히 유리하지만, 빠르게 응용하지 못하면 빅테크 기업도 지속적으로 유지하기 어려울 것입니다. 결과가 더 빨리 필요하기 때문입니다. 선두적인 스타트업 중에도 기술적으로 탄탄한 곳들이 있지만, 기존의 AI 스타트업과 마찬가지로 상업화라는 어려운 과제에 직면하게 될 것입니다.
 
「암류」: 일부 사람들은 양적 펀드가 AI를 강조하는 것이 다른 사업을 위한 거품이라고 생각할 것입니다.
 
량원펑: 하지만 저희 양적 펀드는 이미 거의 외부 자금을 모집하지 않습니다.
 
「암류」: 누가 AI 신봉자이고 누가 투기꾼인지 어떻게 구별하나요?
 
량원펑: 신봉자들은 이전에도 여기에 있었고 앞으로도 여기에 있을 것입니다. 그들은 단기 임대가 아니라 대량으로 GPU를 구매하거나 클라우드 회사와 장기 계약을 맺을 것입니다.
 

투자자들에게 딥시크를 설명하는 모습.

 

혁신이 실제로 일어나도록 만드는 방법

"혁신은 종종 스스로 생겨나는 것이지, 의도적으로 계획하거나 가르쳐서 되는 것이 아닙니다."

 
「암류」: 딥시크 팀의 채용 진행 상황은 어떻습니까?
 
량원펑: 초기 팀은 이미 구성되었으며, 초기에는 인력이 부족하므로 환팡에서 임시로 일부 인원을 차출할 것입니다. 작년 말 ChatGPT 3.5가 인기를 끌었을 때부터 채용을 시작했지만, 여전히 더 많은 사람이 필요합니다.
 
「암류」: 대형 모델 창업에 필요한 인재도 부족한데, 일부 투자자들은 적합한 인재들이 OpenAI, Facebook AI Research 등 거대 기업의 AI 연구소에만 있다고 말합니다. 해외에서 그런 인재를 영입할 계획이 있나요?
 
량원펑: 단기 목표를 추구한다면 경험이 있는 기존 인력을 찾는 것이 옳습니다. 하지만 장기적으로 보면 경험은 그렇게 중요하지 않습니다. 기초 능력, 창의성, 열정 등이 더 중요합니다. 이러한 관점에서 보면 국내에도 적합한 후보자가 많습니다.
 
「암류」: 왜 경험이 그렇게 중요하지 않다고 생각하시나요?
 
량원펑: 반드시 해당 일을 해본 사람만이 그 일을 할 수 있는 것은 아닙니다. 환팡의 채용 원칙 중 하나는 경험이 아닌 능력을 보는 것입니다. 우리의 핵심 기술 직책은 주로 신입 또는 졸업 후 1~2년 된 사람들로 채워집니다.
 
「암류」: 혁신적인 사업에서 경험이 방해가 된다고 생각하시나요?
 
량원펑: 어떤 일을 할 때, 경험이 있는 사람은 즉시 "이렇게 해야 한다"고 말하겠지만, 경험이 없는 사람은 반복적으로 탐색하고, 어떻게 해야 하는지 신중하게 생각한 후, 현재 상황에 맞는 해결책을 찾을 것입니다.
 
「암류」: 금융 분야 경험이 전혀 없던 외지인이었던 환팡이 몇 년 만에 업계 선두에 설 수 있었던 이유 중 하나가 이 채용 원칙인가요?
 
량원펑: 저희 핵심 팀은 저 자신을 포함하여 처음에는 양적 투자 경험이 없었습니다. 이것은 매우 특이한 점입니다. 성공 비결이라고 말할 수는 없지만, 환팡의 문화 중 하나입니다. 경험이 있는 사람을 의도적으로 피하지는 않지만, 능력에 더 중점을 둡니다. 예를 들어 판매 직책을 보겠습니다. 우리 회사의 주요 판매 담당자 두 명은 모두 이 업계의 초보자입니다. 한 명은 원래 독일 기계류 해외 무역 업무를 했고, 다른 한 명은 증권사에서 백엔드 코드를 작성했습니다. 이들은 업계에 진입할 때 경험도, 자원도, 축적된 것도 없었습니다. 하지만 지금 우리 회사는 아마도 직접 판매를 주로 하는 유일한 대형 사모펀드일 것입니다. 직접 판매는 중개인에게 수수료를 지급할 필요가 없으므로, 동일한 규모와 실적에서 이익률이 더 높습니다. 많은 회사들이 우리를 모방하려고 시도하지만 성공하지 못했습니다.
 
「암류」: 왜 많은 회사들이 당신들을 모방하려고 시도했지만 성공하지 못했나요?
 
량원펑: 그것만으로는 혁신을 일으키기에 충분하지 않기 때문입니다. 그것은 회사의 문화 및 관리와 일치해야 합니다. 사실, 그들은 첫해에는 아무것도 해내지 못했고, 2년째에 되어서야 약간의 성과를 내기 시작했습니다. 하지만 우리 회사의 평가 기준은 일반 회사와는 다릅니다. 우리는 KPI도 없고, 소위 임무라는 것도 없습니다.
 
「암류」: 그렇다면 당신들의 평가 기준은 무엇인가요?
 
량원펑: 우리는 일반 회사처럼 고객 주문량을 중시하지 않습니다. 우리 회사의 영업 담당자가 판매하는 양과 수당은 처음부터 정해져 있는 것이 아니라, 영업 담당자가 자신의 네트워크를 확장하고, 더 많은 사람을 만나고, 더 큰 영향력을 창출하도록 장려합니다. 왜냐하면 고객에게 신뢰받는 정직한 영업 담당자는 단기간에 고객에게 주문하도록 설득할 수 없을지라도, 당신이 그를 믿을 수 있는 사람이라고 느끼게 만들 수 있기 때문입니다.
 
「암류」: 적합한 사람을 선발한 후, 어떻게 그가 업무에 몰입하도록 만들 수 있나요?
 
량원펑: 중요한 일을 맡기고, 그를 간섭하지 않습니다. 그가 스스로 해결책을 찾고, 자신의 역량을 발휘하도록 합니다. 사실, 회사의 DNA는 모방하기 어렵습니다. 예를 들어, 경험이 없는 사람을 채용할 때 그의 잠재력을 어떻게 판단하고, 그를 성장시키기 위해 어떻게 해야 하는지 등은 직접적으로 모방할 수 없습니다.
 
「암류」: 혁신적인 조직을 만드는 데 필요한 조건은 무엇이라고 생각하십니까?
 
량원펑: 저희가 내린 결론은 혁신에는 가능한 한 적은 간섭과 관리가 필요하며, 모든 사람이 자유롭게 역량을 발휘하고 시행착오를 겪을 기회가 있어야 한다는 것입니다. 혁신은 종종 스스로 생겨나는 것이지, 의도적으로 계획하거나 가르쳐서 되는 것이 아닙니다.
 
「암류」: 이는 매우 파격적인 관리 방식인데, 이런 상황에서 어떻게 직원이 효율적으로 일하고 당신이 원하는 방향으로 나아가는지 확인할 수 있나요?
 
량원펑: 채용 시 가치관이 일치하는지 확인하고, 기업 문화를 통해 보조를 맞추도록 합니다. 물론, 우리는 성문화된 기업 문화를 갖고 있지 않습니다. 왜냐하면 모든 성문화된 것들은 혁신을 저해할 수 있기 때문입니다. 대부분의 경우, 관리자가 모범을 보입니다. 어떤 일이 발생했을 때 관리자가 어떻게 의사 결정을 내리느냐가 일종의 기준이 됩니다.
 
「암류」: 이번 대규모 모델 경쟁에서 스타트업에 더 적합한 혁신적인 조직 구조가 빅테크와의 경쟁에서 돌파구가 될 수 있다고 생각하시나요?
 
량원펑: 교과서적인 방법론으로 스타트업을 분석하면, 현재 그들이 하는 일은 살아남을 수 없는 일입니다. 하지만 시장은 변화합니다. 진정한 결정 요인은 기존의 규칙과 조건이 아니라, 변화에 적응하고 조정하는 능력입니다. 많은 대기업은 조직 구조가 빠르게 대응하고 빠르게 일을 처리할 수 없으며, 과거의 경험과 관성이 그들을 묶어버리기 쉽습니다. 하지만 이번 AI 물결 속에서 새로운 회사들이 반드시 탄생할 것입니다.
 

중국 CCTV 자료화면

 

진정한 광기

"혁신은 비싸고 비효율적이며 때로는 낭비를 동반합니다."

 
「암류」: 이런 일을 하는 데 가장 흥분되는 점은 무엇인가요?
 
량원펑: 우리의 추측이 사실인지 알아내는 것입니다. 만약 맞다면 매우 흥분될 것입니다.
 
「암류」: 이번 대규모 모델 채용에서 반드시 확인하는 조건은 무엇인가요?
 
량원펑: 열정, 탄탄한 기초 능력입니다. 다른 것들은 그다지 중요하지 않습니다.
 
「암류」: 이런 사람들을 찾기 쉽나요?
 
량원펑: 그들은 일반적으로 열정을 드러냅니다. 왜냐하면 그들은 이 일을 정말로 하고 싶어 하므로, 이러한 사람들은 종종 당신을 찾고 있습니다.
 
「암류」: 대규모 모델은 끝없이 투자해야 하는 일일 수 있는데, 그에 따른 대가가 걱정되지 않나요?
 
량원펑: 혁신은 비싸고 비효율적이며 때로는 낭비를 동반합니다. 그래서 경제가 일정 수준으로 발전해야 혁신이 가능해집니다. 매우 가난할 때나 혁신이 동력으로 작용하지 않는 산업에서는 비용과 효율성이 매우 중요합니다. OpenAI도 많은 돈을 쏟아부은 후에야 결과가 나왔습니다.
 
「암류」: 당신들이 매우 미친 짓을 하고 있다고 생각하나요?
 
량원펑: 미친 짓인지는 모르겠지만, 이 세상에는 논리로 설명할 수 없는 일들이 많이 있습니다. 많은 프로그래머들이 오픈 소스 커뮤니티에 열정적으로 기여하고, 하루 종일 지쳤는데도 코드를 기여합니다.
 
「암류」: 그 안에는 일종의 정신적 보상이 있을 것입니다.
 
량원펑: 마치 50km를 도보로 완주하고 나면 온몸이 마비된 듯하지만 정신적으로는 매우 만족스러운 것과 비슷합니다.
 
「암류」: 호기심에서 비롯된 광기가 계속 이어질 수 있다고 생각하시나요?
 
량원펑: 모든 사람이 평생 미칠 수는 없지만, 대부분의 사람들은 젊은 시절에는 어떤 목적을 가지고 있지 않아도 몰두하여 어떤 일을 할 수 있습니다.
 
https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

疯狂的幻方:一家隐形AI巨头的大模型之路

务必要疯狂地怀抱雄心,且还要疯狂地真诚。

mp.weixin.qq.com

 
** 다음은 2024년 7월 17일 같은 매체와의 인터뷰 전문입니다. 원문 링크는 아래에 달았습니다.
 

딥시크는 이미 2024년 상반기부터 중국에서 주목을 받았다.

DeepSeek의 비밀: 더욱 극단적인 중국 기술 이상주의 이야기

원작: 위리리(于丽丽)
편집: 류징(刘旌)
 
중국 내 7개 대규모 모델 스타트업 중에서 DeepSeek(深度求索)는 가장 조용하지만, 항상 예상을 뛰어넘는 방식으로 사람들의 기억에 남습니다.
 
1년 전, 이러한 예상 밖의 행보는 양적 투자 헤지펀드 거물인 환팡(幻方)의 지원에서 비롯되었습니다. DeepSeek는 대기업 외에 유일하게 1만 장의 A100 칩을 확보한 회사였습니다. 1년 후에는 중국 대규모 모델 가격 전쟁의 시발점이 된 회사가 되었습니다.
 
AI의 폭격이 연일 이어지던 5월, DeepSeek는 단숨에 유명해졌습니다. 그 이유는 DeepSeek V2라는 오픈 소스 모델을 출시했기 때문입니다. 이 모델은 백만 토큰당 1위안에 불과한 추론 비용이라는 전례 없는 가성비를 제공했습니다. 이는 Llama3 70B 모델의 약 7분의 1, GPT-4 터보 모델의 70분의 1 수준입니다.
 
DeepSeek는 순식간에 "AI계의 핀둬둬(拼多多, 테무 등 중국의 저가 온라인 쇼핑몰을 운영하는 업체)"라는 칭호를 얻었고, 바이두, 텐센트, 알리바바 등 대기업들도 속속 가격 인하에 나섰습니다. 이로 인해 중국 대규모 모델 가격 전쟁이 발발했습니다.
 
하지만 이 팽배한 분위기는 다음과 같은 사실을 가리고 있습니다. 많은 대기업들이 돈을 쏟아부어 보조금을 지급하는 것과는 달리, DeepSeek는 수익을 내고 있다는 것입니다.
 
이러한 성공의 이면에는 DeepSeek의 전방위적인 모델 아키텍처 혁신이 있습니다. DeepSeek는 MLA(Multi-head Latent Attention)라는 새로운 다중 헤드 잠재적 주의 메커니즘 아키텍처를 제안하여 메모리 점유율을 과거에 가장 많이 사용되던 MHA(Multi-Head Attention) 아키텍처의 5%~13% 수준으로 낮췄습니다. 동시에 DeepSeek 고유의 DeepSeekMoESparse 구조는 계산량을 극대화하여 궁극적으로 비용을 절감했습니다.
 
실리콘밸리에서는 DeepSeek를 "동쪽에서 온 신비로운 힘"이라고 부릅니다. SemiAnalysis의 수석 분석가는 DeepSeek V2 논문이 "올해 최고의 논문일 수 있다"고 평가했습니다. OpenAI의 전 직원 앤드류 카(Andrew Carr)는 논문이 "놀라운 지혜로 가득 차 있다"고 평가하고, 자신의 모델에 DeepSeek의 훈련 설정을 적용했습니다. OpenAI의 전 정책 담당자이자 Anthropic의 공동 창업자인 잭 클라크(Jack Clark)는 DeepSeek가 "수수께끼 같은 천재들을 고용했다"고 평가하면서 중국에서 제조된 대규모 모델이 "드론과 전기 자동차처럼 간과할 수 없는 힘이 될 것"이라고 전망했습니다.
 
실리콘밸리가 주도하는 AI 물결 속에서 이는 이례적인 상황입니다. 많은 업계 관계자들은 이러한 강력한 반향이 아키텍처 수준의 혁신에서 비롯되었으며, 이는 중국 대규모 모델 회사뿐만 아니라 전 세계 오픈 소스 기반 대규모 모델에서도 보기 드문 시도라고 말합니다. 한 AI 연구원은 어텐션 아키텍처가 제안된 지 수년 동안 성공적으로 수정된 적이 거의 없으며, 대규모 검증은 더욱이 불가능하다고 말했습니다. "이것은 의사 결정을 내릴 때 아예 고려조차 하지 못하는 생각입니다. 왜냐하면 대부분의 사람들은 자신감이 부족하기 때문입니다."
 
반면, 중국산 대규모 모델이 아키텍처 수준의 혁신에 거의 발을 들여놓지 않았던 이유는 미국이 0에서 1을 만드는 기술 혁신에 더 능숙하고, 중국은 1에서 10으로의 응용 혁신에 더 능숙하다는 고정관념을 적극적으로 깨려는 사람이 거의 없었기 때문이기도 합니다. 게다가 이러한 행위는 매우 비효율적입니다. 새로운 세대의 모델은 몇 달 안에 자연스럽게 누군가가 만들 것이며, 중국 회사는 따라하고 응용에 집중하면 됩니다. 모델 구조를 혁신한다는 것은 따를 경로가 없고, 수많은 실패를 겪어야 하며, 시간과 경제적 비용이 막대하다는 것을 의미합니다.
 
DeepSeek는 분명 역행자입니다. 대규모 모델 기술이 필연적으로 수렴하고, 추종하는 것이 더 현명한 지름길이라는 소리가 팽배한 가운데, DeepSeek는 "돌아가는 길"에서 축적되는 가치를 중시하며, 중국의 대규모 모델 개발자가 응용 혁신 외에도 글로벌 기술 혁신의 흐름에 동참할 수 있다고 생각합니다.
 
DeepSeek의 많은 결정은 남들과 다릅니다. 현재까지 7개 중국 대규모 모델 스타트업 중에서 DeepSeek는 "두 마리 토끼를 다 잡으려"는 노선을 포기하고 연구와 기술에만 집중한 유일한 회사이며, toC(소비자 대상) 응용 프로그램을 개발하지 않은 유일한 회사입니다. 또한 상업화를 전면적으로 고려하지 않고 오픈 소스 노선을 고수했으며, 자금 조달조차 하지 않은 유일한 회사입니다. 이로 인해 DeepSeek는 종종 경쟁의 장에서 잊혀지지만, 다른 한편에서는 커뮤니티에서 사용자들의 "자발적인 홍보"로 입소문이 나곤 합니다.
 
DeepSeek는 어떻게 탄생했을까요? 이에 대한 답을 찾기 위해 우리는 좀처럼 모습을 드러내지 않는 DeepSeek 창립자 량원펑(梁文锋)과 인터뷰를 했습니다.
 
환팡 시대부터 기술 연구에 몰두해 온 80년대생 창립자는 DeepSeek 시대에도 여전히 그의 조용한 행보를 이어가고 있으며, 모든 연구원과 마찬가지로 매일 "논문을 읽고, 코드를 작성하고, 그룹 토론에 참여"합니다.
 
많은 양적 펀드 창립자들이 해외 헤지펀드 경력을 가지고 있고, 물리학이나 수학 등의 전공 출신인 것과는 달리, 량원펑은 순수 국내파이며, 저장대학교 전자공학과 인공지능 전공을 했습니다.
 
많은 업계 관계자들과 DeepSeek 연구원들은 량원펑이 현재 중국 AI 분야에서 매우 드물게 "강력한 인프라 엔지니어링 능력과 모델 연구 능력을 겸비하고 자원을 동원할 수 있으며", "높은 곳에서 정확한 판단을 내릴 수 있을 뿐만 아니라, 세부적인 면에서도 일선 연구원보다 뛰어난 사람"이라고 말합니다. 또한 량원펑은 "놀라운 학습 능력"을 가지고 있으며, "사장이라기보다는 오히려 괴짜에 가깝다"고 평가합니다.
 
이번 인터뷰는 매우 특별한 기회였습니다. 인터뷰에서 기술 이상주의자인 그는 현재 중국 과학 기술계에서 특히 부족한 목소리를 내주었습니다. 그는 "이익"보다 "옳고 그름"을 우선시하며, 시대적 관성을 인식하고, "창의적 혁신"을 실천해야 한다고 촉구했습니다.
 
1년 전, DeepSeek가 처음 시장에 뛰어들었을 때 우리는 량원펑과 첫 번째 인터뷰를 했습니다: 《미친 환팡: 숨겨진 AI 거물의 대규모 모델 개발 여정》. 당시 "미친 듯이 야심을 품고 미친 듯이 간절해야 한다"는 말은 그저 아름다운 구호였지만, 1년이 지난 지금 그것은 하나의 행동으로 바뀌고 있습니다.
 
다음은 인터뷰 내용입니다.
 

소련 인공위성 스푸트니크가 미국에 주었던 충격에 비교되는 딥시크 쇼크.

 

 가격 전쟁의 첫 발포는 어떻게 시작되었나?

「암류」: DeepSeek V2 모델 출시 후, 대규모 모델 가격 전쟁이라는 격렬한 폭풍우가 몰아쳤습니다. 일부에서는 당신들을 업계의 메기라고 부릅니다.
 
량원펑: 우리는 의도적으로 메기가 되려 한 것이 아니라, 실수로 메기가 되었습니다.
 
「암류」: 이 결과가 예상 밖이었나요?
 
량원펑: 매우 예상 밖이었습니다. 가격에 대한 반응이 그렇게 민감할 줄은 몰랐습니다. 우리는 그저 자신의 속도에 맞춰 일을 하고, 비용을 계산하여 가격을 책정했습니다. 우리의 원칙은 손해를 보지 않고, 폭리를 취하지 않는 것입니다. 이 가격은 비용에 약간의 이윤을 더한 것입니다.
 
「암류」: 5일 후 즈푸AI(智谱AI)가 따라왔고, 그 다음에는 바이트댄스, 알리바바, 바이두, 텐센트 등 대기업들이 뒤따랐습니다.
 
량원펑: 즈푸AI가 가격을 낮춘 것은 입문용 제품이었고, 우리와 동급의 모델은 여전히 가격이 비쌌습니다. 바이트댄스가 진정으로 처음으로 가격을 따라 낮춘 기업입니다. 플래그십 모델을 우리와 같은 가격으로 낮추면서 다른 대기업들이 가격을 인하하도록 촉발했습니다. 대기업들의 모델 비용은 우리보다 훨씬 높기 때문에, 손해를 보면서 이런 일을 할 것이라고 예상하지 못했습니다. 결국에는 인터넷 시대의 돈을 쏟아붓는 보조금 지급 방식이 되었습니다.
 
「암류」: 외부에서 보기에는 가격 인하가 사용자를 확보하기 위한 것처럼 보입니다. 인터넷 시대의 가격 전쟁이 보통 그렇죠.
 
량원펑: 사용자 확보가 우리의 주요 목적은 아닙니다. 우리가 가격을 낮춘 이유는 한편으로는 차세대 모델 구조를 탐색하는 과정에서 비용이 먼저 절감되었기 때문이고, 다른 한편으로는 API든 AI든 모든 사람이 저렴하게 이용할 수 있는 것이 되어야 한다고 생각했기 때문입니다.
 
「암류」: 이전에는 대부분의 중국 회사가 이 세대의 Llama 구조를 그대로 복제하여 응용 프로그램을 만들었습니다. 왜 모델 구조부터 시작했나요?
 
량원펑: 응용 프로그램을 만드는 것이 목표라면, Llama 구조를 사용하여 제품을 빠르게 출시하는 것이 합리적인 선택입니다. 하지만 우리의 목표는 AGI이기 때문에, 제한된 자원 하에서 더 강력한 모델 능력을 구현하려면 새로운 모델 구조를 연구해야 합니다. 이것은 더 큰 모델로 확장하기 위해 필요한 기초 연구 중 하나입니다. 모델 구조 외에도 데이터 구성 방법, 모델을 인간처럼 만드는 방법 등 많은 연구를 수행했으며, 이 모든 것이 우리가 출시한 모델에 반영되어 있습니다. 또한 Llama 구조는 훈련 효율성과 추론 비용 면에서 이미 해외 선진 수준과 2세대 정도의 격차가 있을 것으로 추정됩니다.
 
「암류」: 이러한 격차는 주로 어디에서 발생하나요?
 
량원펑: 먼저 훈련 효율성에 차이가 있습니다. 우리의 추정으로는 국내 최고 수준과 해외 최고 수준을 비교했을 때, 모델 구조와 훈련 역학 면에서 약 2배 정도의 격차가 있을 수 있습니다. 이 차이만으로도 동일한 효과를 달성하려면 2배의 컴퓨팅 파워를 소비해야 합니다. 또한 데이터 효율성 면에서도 약 2배 정도의 격차가 있을 수 있습니다. 즉, 동일한 효과를 달성하려면 2배의 훈련 데이터와 컴퓨팅 파워를 소비해야 합니다. 합치면 4배의 컴퓨팅 파워를 더 소비해야 합니다. 우리가 해야 할 일은 이러한 격차를 끊임없이 줄이는 것입니다.
 
「암류」: 대부분의 중국 회사는 모델과 응용 프로그램 모두를 하려고 하지만, DeepSeek는 왜 현재 연구 탐색에만 집중하고 있나요?
 
량원펑: 지금 가장 중요한 것은 글로벌 혁신의 흐름에 동참하는 것이라고 생각하기 때문입니다. 지난 수년간 중국 기업들은 남들이 기술 혁신을 하면 가져와서 응용하여 수익을 창출하는 것에 익숙해졌지만, 이것은 당연한 것이 아닙니다. 이번 물결에서 우리의 출발점은 기회를 틈타 돈을 버는 것이 아니라, 기술의 최전선에 서서 전체 생태계 발전을 촉진하는 것입니다.
 
「암류」: 인터넷 및 모바일 인터넷 시대에 많은 사람들이 갖게 된 관성은 미국이 기술 혁신에 능숙하고, 중국이 응용에 더 능숙하다는 것입니다.
 
량원펑: 경제가 발전함에 따라 중국도 점차적으로 기여자가 되어야지, 계속해서 무임승차만 할 수는 없다고 생각합니다. 지난 30여 년간의 IT 혁명에서 우리는 진정한 기술 혁신에 거의 참여하지 못했습니다. 우리는 무어의 법칙이 하늘에서 떨어져 18개월마다 더 나은 하드웨어와 소프트웨어가 나올 것이라고 기대하는 것에 익숙해졌습니다. 스케일링 법칙도 그렇게 취급되고 있습니다. 하지만 사실 이것은 서구 주도의 기술 커뮤니티가 수세대에 걸쳐 끊임없이 만들어낸 결과이며, 우리는 이전에는 이 과정에 참여하지 않았기 때문에 그 존재를 간과했던 것입니다.
 

진정한 격차는 1년 또는 2년이 아니라, 창의적인 것과 모방적인 것의 차이

「암류」: 왜 DeepSeek V2가 실리콘밸리의 많은 사람들을 놀라게 했나요?
 
량원펑: 미국에서는 매일 엄청난 양의 혁신이 일어나고 있으며, 이것은 그저 평범한 것 중 하나일 뿐입니다. 그들이 놀란 이유는 이것이 중국 회사가 혁신 기여자로서 그들의 게임에 참여했기 때문입니다. 대부분의 중국 회사는 혁신보다는 추종하는 데 익숙합니다.
 
「암류」: 하지만 이러한 선택은 중국이라는 맥락에서 보면 지나치게 사치스러울 수 있습니다. 대규모 모델은 막대한 투자가 필요한 게임이므로, 모든 회사가 상업화를 먼저 고려하지 않고 혁신 연구에만 집중할 여력이 있는 것은 아닙니다.
 
량원펑: 혁신 비용이 결코 저렴하지 않고, 과거에 남들이 하던 것을 가져다 쓰던 관성이 있었던 것은 과거의 국정 상황과 관련이 있습니다. 하지만 지금 중국의 경제 규모나 바이트댄스, 텐센트 같은 대기업의 이익을 보면 전 세계적으로 결코 낮지 않습니다. 우리가 혁신에 부족한 것은 분명히 자본이 아니라 자신감과 고밀도 인재를 조직하여 효과적인 혁신을 달성하는 방법을 모르는 것입니다.
 
「암류」: 왜 중국 회사들은, 돈이 부족하지 않은 대기업까지도 빠른 상업화를 최우선으로 생각하는 경향이 있나요?
 
량원펑: 지난 30년 동안 우리는 돈 버는 것만을 강조했고, 혁신은 간과했습니다. 혁신은 전적으로 상업적인 동기에 의해서만 이루어지는 것이 아니라, 호기심과 창조적인 욕구도 필요합니다. 우리는 과거의 관성에 얽매여 있을 뿐이며, 그것은 일시적인 것입니다.
 
「암류」: 하지만 당신들은 영리 단체이지, 공익 연구 기관이 아닙니다. 혁신을 선택하고 오픈 소스로 공유한다면, 어디에서 경쟁 우위를 확보할 수 있나요? 5월에 있었던 MLA 아키텍처의 혁신도 다른 회사들이 빠르게 복제하지 않을까요?
 
량원펑: 파괴적인 기술 앞에서 폐쇄적으로 형성한 경쟁 우위는 일시적입니다. OpenAI가 폐쇄적이라고 해도 다른 사람들이 추월하는 것을 막을 수 없습니다. 따라서 우리 팀은 가치를 축적합니다. 우리 동료들은 이 과정에서 성장하고 많은 노하우를 축적합니다. 혁신적인 조직과 문화를 만드는 것이 우리의 경쟁 우위입니다. 오픈 소스를 하고 논문을 발표하는 것은 실제로 아무것도 잃는 것이 아닙니다. 기술자에게는 다른 사람이 따라 하는 것이 매우 성취감 있는 일입니다. 사실, 오픈 소스는 상업적 행위라기보다 문화적 행위에 가깝습니다. 주는 것은 일종의 추가적인 영광입니다. 회사가 그렇게 하면 문화적인 매력도 생길 것입니다.
 
「암류」: 주샤오후(朱啸虎, 중국의 유명 벤처 투자자)와 같은 시장 신념파의 견해를 어떻게 생각하십니까?
 
량원펑: 주샤오후는 논리적인 사람이지만 그의 전략은 빠르게 돈을 벌고자 하는 회사에 더 적합합니다. 반면, 미국에서 가장 돈을 잘 버는 회사는 모두 오랜 기간에 걸쳐 성장한 첨단 기술 회사입니다.
 
「암류」: 하지만 대규모 모델 개발에서 기술적 우위만으로는 절대적인 우위를 형성하기 어렵습니다. 당신들이 더 크게 거는 것은 무엇인가요?
 
량원펑: 우리가 보는 것은 중국 AI가 영원히 추종자의 위치에 머무를 수 없다는 것입니다. 우리는 중국 AI와 미국 간에 1~2년의 격차가 있다고 말하지만, 진정한 격차는 창의적인 것과 모방적인 것의 차이입니다. 이 점이 바뀌지 않으면 중국은 영원히 추종자에 불과할 것이므로, 어느 정도의 탐색은 피할 수 없습니다. Nvidia의 선도는 단지 한 회사의 노력이 아니라, 서구 기술 커뮤니티와 산업 전체의 공동 노력의 결과입니다. 그들은 차세대 기술 트렌드를 파악하고 로드맵을 가지고 있습니다. 중국 AI의 발전도 마찬가지로 그러한 생태계를 필요로 합니다. 많은 국산 칩이 발전하지 못하는 이유는 관련 기술 커뮤니티가 부족하고, 2차적인 정보만 가지고 있기 때문입니다. 그래서 중국에서는 누군가가 반드시 기술의 최전선에 나서야 합니다.
 

나무위키 화면. 딥시크의 검열 문제를 보여준다.

더 많은 투자가 항상 더 많은 혁신을 가져오는 것은 아닙니다.

「암류」: 현재 DeepSeek는 OpenAI 초기 단계의 이상주의적인 분위기를 가지고 있으며, 오픈 소스이기도 합니다. 나중에 폐쇄적으로 전환할 계획이 있나요? OpenAI와 Mistral 모두 오픈 소스에서 폐쇄 소스로 전환한 적이 있습니다.
 
량원펑: 우리는 폐쇄 소스로 전환하지 않을 것입니다. 우리는 강력한 기술 생태계를 먼저 만드는 것이 더 중요하다고 생각합니다.
 
「암류」: 자금 조달 계획이 있나요? 일부 언론 보도에 따르면 환팡은 DeepSeek를 분사 상장시킬 계획을 가지고 있으며, 실리콘밸리의 AI 스타트업들도 결국에는 대기업과 협력하는 경우가 많습니다.
 
량원펑: 단기적으로 자금 조달 계획은 없습니다. 우리의 문제는 돈이 아니라 고급 칩의 수입 금지입니다.
 
「암류」: 많은 사람들이 AGI를 만드는 것과 양적 투자를 하는 것은 완전히 다른 두 가지 일이라고 생각합니다. 양적 투자는 조용히 진행할 수 있지만, AGI는 더 많은 홍보와 협력이 필요하므로, 투자를 늘릴 수 있습니다.
 
량원펑: 더 많은 투자가 항상 더 많은 혁신을 가져오는 것은 아닙니다. 그렇지 않다면 대기업이 모든 혁신을 독점할 수 있을 것입니다.
 
「암류」: 현재 응용 프로그램을 개발하지 않는 이유는 운영 노하우가 부족하기 때문인가요?
 
량원펑: 현재 단계는 기술 혁신의 폭발기이지, 응용 프로그램의 폭발기가 아니라고 생각합니다. 장기적으로 우리는 업계에서 우리의 기술과 생산물을 직접 사용하고, 우리는 기초 모델과 첨단 혁신만을 담당하고, 다른 회사는 DeepSeek을 기반으로 toB 및 toC 비즈니스를 구축하는 생태계를 형성하고 싶습니다. 완전한 산업 상류 및 하류를 형성할 수 있다면, 우리가 직접 응용 프로그램을 만들 필요는 없습니다. 물론 필요하다면 응용 프로그램을 만드는 데도 어려움이 없지만, 연구와 기술 혁신은 항상 우리의 최우선 과제입니다.
 
「암류」: API를 선택한다면, 왜 대기업이 아닌 DeepSeek를 선택해야 할까요?
 
량원펑: 미래 사회는 전문화된 분업 사회가 될 가능성이 높습니다. 기초 대규모 모델에는 지속적인 혁신이 필요하지만, 대기업은 능력의 한계가 있으며, 반드시 그것에 적합한 것은 아닙니다.
 
「암류」: 하지만 기술이 정말로 격차를 벌릴 수 있나요? 당신도 절대적인 기술 비밀은 없다고 말했잖아요.
 
량원펑: 기술에 비밀은 없지만, 재설정에는 시간과 비용이 필요합니다. Nvidia의 그래픽 카드는 이론적으로 기술적인 비밀이 전혀 없으므로 복제하기 쉽지만, 팀을 재구성하고 차세대 기술을 따라잡는 데는 시간이 필요하므로 실제로는 여전히 상당한 진입 장벽이 있습니다.
 
「암류」: 당신들의 가격 인하 후 바이트댄스가 가장 먼저 대응했는데, 이는 바이트댄스가 어떤 위협을 느꼈다는 것을 의미합니다. 스타트업이 대기업과 경쟁하는 새로운 해결책을 어떻게 생각하십니까?
 
량원펑: 솔직히 우리는 그 일에 별로 신경 쓰지 않았습니다. 그저 부수적으로 한 일입니다. 클라우드 서비스를 제공하는 것은 우리의 주요 목표가 아닙니다. 우리의 목표는 여전히 AGI를 실현하는 것입니다. 현재 새로운 해결책은 보이지 않지만, 대기업도 뚜렷한 우위를 점하고 있지는 않습니다. 대기업은 기존의 사용자를 가지고 있지만, 그들의 현금 흐름 사업도 부담이 되어 언제든 파괴될 대상이 될 수 있습니다.
 
「암류」: DeepSeek 외에 다른 6개 대규모 모델 스타트업의 최종 운명을 어떻게 보십니까?
 
량원펑: 2~3개 회사가 살아남을 수 있을 것입니다. 현재 모두 돈을 태우는 단계에 있기 때문에, 자기 포지셔닝이 명확하고 운영을 더 세분화할 수 있는 회사가 살아남을 가능성이 더 큽니다. 다른 회사는 변화를 겪을 것입니다. 가치 있는 것은 사라지지 않지만 다른 방식으로 나타날 것입니다.
 
「암류」: 환팡 시대에 경쟁에 대처하는 자세는 "마이웨이"로 평가되었고, 다른 기업과의 비교에 별로 신경 쓰지 않았습니다. 경쟁에 대한 당신의 생각은 무엇인가요?
 
량원펑: 내가 자주 생각하는 것은 어떤 것이 사회의 운영 효율성을 높일 수 있는지, 그리고 당신이 그 산업 분업 체인에서 잘하는 위치를 찾을 수 있는지입니다. 최종적으로 사회 효율성을 높이는 데 도움이 된다면 그것은 가치가 있습니다. 중간 과정의 많은 부분은 일시적인 것이며, 지나치게 관심을 두면 혼란스러워질 것입니다.
 

"수수께끼 같은" 일을 하는 젊은이들

 
「암류」: OpenAI의 전 정책 담당자이자 Anthropic의 공동 창립자인 잭 클라크는 DeepSeek가 "수수께끼 같은 천재들을 고용했다"고 말했습니다. DeepSeek v2를 만든 사람들은 어떤 사람들인가요?
 
량원펑: 특별한 천재는 없습니다. 모두 최고 명문 대학의 졸업생, 아직 졸업하지 않은 박사 4, 5년 차 인턴, 그리고 졸업한 지 몇 년 안 된 젊은이들입니다.
 
「암류」: 많은 대규모 모델 회사가 해외에서 인재를 영입하는 데 집착하고 있는데, 많은 사람들은 이 분야의 상위 50명의 최고 인재가 중국 회사에 없을 것이라고 생각합니다. 당신들의 인재는 어디에서 왔나요?
 
량원펑: V2 모델 개발에는 해외에서 돌아온 인력이 없으며, 모두 국내파입니다. 상위 50명의 최고 인재가 중국에 없을 수도 있지만, 우리는 스스로 그런 사람들을 만들 수 있을지도 모릅니다.
 
「암류」: 이번 MLA 혁신은 어떻게 이루어졌나요? 아이디어가 처음에는 한 젊은 연구원의 개인적인 관심에서 비롯되었다고 들었습니다.
 
량원펑: 어텐션 아키텍처의 주요 변화 법칙을 요약한 후, 그는 갑자기 대체 방안을 설계하는 아이디어를 떠올렸습니다. 하지만 아이디어에서 현실화되기까지는 긴 과정이 있었습니다. 우리는 이를 위해 팀을 구성하고 몇 달 동안 실행했습니다.
 
「암류」: 이러한 발산적인 영감의 탄생은 당신들의 완전히 혁신적인 조직 구조와 큰 관련이 있습니다. 환팡 시대부터 당신들은 목표나 임무를 위에서부터 지정하는 경우가 거의 없었습니다. 하지만 불확실성이 가득한 최첨단 탐색인 AGI는 관리적인 측면에서 더 많은 것이 필요하지 않나요?
 
량원펑: DeepSeek도 완전히 상향식으로 운영됩니다. 또한 우리는 일반적으로 사전 분업을 하지 않고 자연스러운 분업을 합니다. 모든 사람은 고유한 성장 경험을 가지고 있으며, 스스로 아이디어를 가지고 있으므로 강요할 필요가 없습니다. 탐색 과정에서 문제가 생기면 스스로 사람들을 모아 토론할 것입니다. 하지만 아이디어가 잠재력을 보여주면 우리는 위에서부터 자원을 할당할 것입니다.
 
「암류」: DeepSeek는 GPU와 인력 동원에 매우 유연하다고 들었습니다.
 
량원펑: 우리 각자는 GPU와 인력 동원에 대한 제한이 없습니다. 아이디어가 있으면 누구든 승인 없이 언제든지 훈련 클러스터의 GPU를 호출할 수 있습니다. 또한 계층 구조와 부서 간의 벽이 없으므로, 상대방도 관심이 있다면 자유롭게 누구든 호출할 수 있습니다.
 
「암류」: 이러한 느슨한 관리 방식은 강력한 열정으로 움직이는 사람들을 선별했기 때문에 가능한 것입니다. 당신들은 세부적인 면에서 인재를 채용하는 데 능숙하여 기존의 평가 지표에서 우수한 사람들이 선발될 수 있다고 들었습니다.
 
량원펑: 우리의 인재 선발 기준은 언제나 열정과 호기심이었습니다. 그래서 많은 사람들이 독특한 경험을 가지고 있고 매우 흥미롭습니다. 많은 사람들이 연구에 대한 열정이 돈에 대한 관심보다 훨씬 큽니다.
 
「암류」: 트랜스포머는 Google의 AI 연구소에서 탄생했고, ChatGPT는 OpenAI에서 탄생했습니다. 대기업의 AI 연구소와 스타트업이 혁신을 창출하는 데 있어 어떤 차이가 있다고 생각하십니까?
 
량원펑: Google 연구소든 OpenAI든 심지어 중국 대기업의 AI 연구소든 모두 매우 가치가 있습니다. 결국 OpenAI가 결과물을 만들어낸 것은 역사적인 우연일 수도 있습니다.
 
「암류」: 혁신은 대부분 우연인가요? 당신들의 사무실 공간 중앙에 있는 회의실 양쪽에는 마음대로 열 수 있는 문이 설치되어 있습니다. 당신들 동료들은 이것이 우연을 위한 여지를 남겨둔 것이라고 말했습니다. 트랜스포머 탄생 과정에서도 우연히 지나가던 사람이 이야기를 듣고 참여하여 결국 그것을 범용 프레임워크로 만든 이야기가 있습니다.
 
량원펑: 혁신은 우선 신념의 문제라고 생각합니다. 왜 실리콘밸리에는 혁신 정신이 그렇게 강할까요? 가장 큰 이유는 담대하기 때문입니다. ChatGPT가 나왔을 때 국내에서는 첨단 혁신을 하는 것에 대한 자신감이 부족했습니다. 투자자부터 대기업까지 모두 격차가 너무 크다고 생각하고 응용에 집중하려고 했습니다. 하지만 혁신에는 우선 자신감이 필요합니다. 이러한 자신감은 일반적으로 젊은이들에게서 더 뚜렷하게 나타납니다.
 
「암류」: 하지만 당신들은 자금 조달에 참여하지 않고, 외부적으로 거의 발언하지 않기 때문에, 사회적 인지도는 자금 조달 활동이 활발한 회사에 비해 당연히 낮습니다. DeepSeek가 대규모 모델을 개발하는 사람들에게 가장 선호되는 선택이라는 것을 어떻게 확인할 수 있습니까?
 
량원펑: 우리가 가장 어려운 일을 하고 있기 때문입니다. 최고의 인재를 끌어들이려면 세상에서 가장 어려운 문제를 해결하는 데 도전해야 합니다. 사실, 최고의 인재는 중국에서 저평가되고 있습니다. 왜냐하면 사회 전체적으로 핵심 혁신이 너무 적어 그들이 인정받을 기회가 없기 때문입니다. 우리는 가장 어려운 일을 하고 있기 때문에 그것이 그들에게 매력적으로 작용합니다.
 
「암류」: 얼마 전 OpenAI 발표에서 GPT-5는 나오지 않았습니다. 많은 사람들은 이것이 기술 곡선이 분명히 느려지고 있다는 것을 의미한다고 생각하며, 스케일링 법칙에 의문을 제기하기 시작했습니다. 어떻게 생각하시나요?
 
량원펑: 우리는 낙관적인 입장이며, 전체 업계가 예상에 부합한다고 생각합니다. OpenAI도 신이 아니므로, 계속해서 앞장설 수는 없습니다.
 
「암류」: AGI는 언제쯤 실현될 것이라고 생각하시나요? DeepSeek V2를 발표하기 전에 코드 생성 및 수학 모델을 발표했고, Dense 모델에서 MoE로 전환하기도 했습니다. 당신들의 AGI 로드맵에는 어떤 좌표가 있나요?
 
량원펑: 2년, 5년 또는 10년이 될 수도 있지만, 어쨌든 우리가 살아 있는 동안에는 실현될 것입니다. 로드맵에 대해서는 회사 내부에서도 통일된 의견이 없습니다. 하지만 우리는 세 가지 방향에 확실히 투자했습니다. 첫째, 수학과 코드, 둘째, 다중 모드, 셋째, 자연어 자체입니다. 수학과 코드는 AGI의 자연스러운 실험장과 같으며, 바둑처럼 폐쇄적이고 검증 가능한 시스템이므로 자기 학습을 통해 높은 수준의 지능을 달성할 수 있을 것입니다. 다른 한편으로는 다중 모드를 통해 인간의 실제 세계에서 학습하는 것도 AGI에 필요할 수 있습니다. 우리는 모든 가능성에 대해 열려 있습니다.
 
「암류」: 대규모 모델의 최종 형태는 어떠할 것이라고 생각하시나요?
 
량원펑: 기초 모델과 기초 서비스를 전문적으로 제공하는 회사가 생겨나고, 긴 사슬의 전문화된 분업이 이루어질 것입니다. 더 많은 사람들이 그것을 기반으로 사회의 다양한 요구를 충족하게 될 것입니다.
 

모든 공식은 이전 세대의 산물이다.

 
「암류」: 지난 한 해 동안 중국의 대규모 모델 스타트업에는 많은 변화가 있었습니다. 예를 들어, 작년 초에 매우 활발했던 왕후이원(王慧文)이 사업에서 손을 떼고, 나중에 합류한 회사들도 차별화를 보이기 시작했습니다.
 
량원펑: 왕후이원은 모든 손실을 스스로 감수하면서 다른 사람들이 무사히 손을 떼도록 했습니다. 그는 자신에게 가장 불리하지만 모두에게 좋은 선택을 했기 때문에, 그는 매우 관대한 사람이며 그 점이 존경스럽습니다.
 
「암류」: 현재 당신의 에너지는 어디에 가장 많이 사용되고 있나요?
 
량원펑: 차세대 대규모 모델을 연구하는 데 대부분의 에너지를 쏟고 있습니다. 아직 해결되지 않은 문제가 많습니다.
 
「암류」: 다른 대규모 모델 스타트업들은 기술이 영원한 우위를 가져다주지 못한다는 것을 알고 있으므로, 기술적 우위를 제품에 적용하는 것이 중요하다고 생각합니다. DeepSeek가 모델 연구에 집중하는 이유는 모델 능력이 아직 충분하지 않기 때문인가요?
 
량원펑: 모든 공식은 이전 세대의 산물이며, 미래에는 적용되지 않을 수도 있습니다. 인터넷의 비즈니스 논리를 사용하여 미래 AI의 수익 모델을 논하는 것은 마화텅(马化腾, 텐센트 창업자)이 창업할 때, 제너럴 일렉트릭과 코카콜라에 대해 논하는 것과 같습니다. 어쩌면 어리석은 일일 수도 있습니다.
 
「암류」: 과거 환팡은 강력한 기술과 혁신 DNA를 가지고 있었으며, 성장도 비교적 순조로웠습니다. 이것이 당신이 낙관적인 이유인가요?
 
량원펑: 환팡은 어느 정도 기술 주도형 혁신에 대한 우리의 자신감을 강화했지만, 모든 것이 순탄한 것은 아니었습니다. 우리는 긴 축적 과정을 거쳤습니다. 외부에서 보는 것은 환팡의 2015년 이후의 모습이지만, 사실 우리는 16년 동안 노력했습니다.
 
「암류」: 창의적 혁신에 대한 주제로 돌아가서, 지금 경제가 침체 국면에 접어들고 있고, 자본도 냉각기에 접어들었습니다. 이것이 창의적 혁신에 더 많은 제약을 가할까요?
 
량원펑: 나는 꼭 그렇다고 생각하지는 않습니다. 중국 산업 구조의 조정은 핵심 기술 혁신에 더 많이 의존하게 될 것입니다. 많은 사람들이 과거에 빠른 돈을 버는 것이 시대의 운에서 비롯되었을 수 있다는 것을 깨닫게 되면, 진정한 혁신을 위해 더 많은 노력을 기울이려고 할 것입니다.
 
「암류」: 그래서 이 일에 대해서도 낙관적인 입장이신가요?
 
량원펑: 나는 1980년대에 광둥의 5선 도시에서 자랐습니다. 나의 아버지는 초등학교 선생님이셨고, 1990년대에 광둥에는 돈을 벌 기회가 많았기 때문에 많은 학부모들이 우리 집에 찾아와서 공부는 쓸모없다고 말했습니다. 하지만 지금 돌이켜보면 관념이 바뀌었습니다. 돈을 벌기가 어려워졌기 때문에 택시 운전 기회조차 없을 수도 있습니다. 한 세대의 시간이면 바뀌는 것입니다.
앞으로 핵심 혁신은 점점 더 많아질 것입니다. 지금은 아직 이해하기 어려울 수도 있습니다. 왜냐하면 사회 전체가 사실에 의해 교육받아야 하기 때문입니다. 이 사회가 핵심 혁신을 하는 사람들을 성공시키면 집단적인 생각이 바뀔 것입니다. 우리는 단지 많은 사례와 과정을 더 필요로 할 뿐입니다.
 
편집: 야오난(姚楠)
 
https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

揭秘DeepSeek:一个更极致的中国技术理想主义故事

做贡献者,而非搭便车者。

mp.weixin.qq.com

 

반응형

관련글 더보기