중국 AI 기업의 효율적 모델 축소 기술이 주목받아
중국의 인공지능(AI) 기업 딥서치(DeepSeek)는 올해 초 챗봇 R1을 출시하면서 큰 주목을 받았습니다. 특히 이 챗봇이 세계적으로 유명한 AI 기업들이 개발한 챗봇들과 맞먹는 성능을 보였음에도 불구하고, 훨씬 적은 컴퓨터 전력과 비용으로 개발되었다는 점에 관심이 집중되었습니다. 이 소식 이후 서부 기술 기업들의 주가는 폭락했으며, AI 모델을 운영하는 칩을 판매하는 엔비디아(Nvidia)는 역사상 단일 기업으로서 가장 많은 주가 가치를 하루 만에 잃었습니다. 딥서치의 성공에 대한 일부 관심은 의혹으로 비껴갔습니다. 소스들은 딥서치가 오픈AI(OpenAI)의 독점 모델 o1에서 허가 없이 지식을 획득했다고 주장했습니다. 이 과정은 '증류' 또는 '지식 증류'라는 기술을 사용했다고 합니다. 이러한 가능성은 AI 업계에 큰 충격을 줬다는 뉴스 보도가 많았지만, 실제로 증류는 이미 10년 동안 컴퓨터 과학 연구의 주제로 다뤄져 왔으며, 대형 기술 기업들도 자체 모델을 효율화하기 위해 활용해 왔습니다. “증류는 현재 기업들이 모델을 더 효율적으로 만드는 데 있어 가장 중요한 도구 중 하나입니다,” 펜실베이니아 대학 워튼 스쿨에서 증류를 연구하는 에릭 보이크-아드세라(Enric Boix-Adsera) 연구원은 말했습니다. 증류의 개념은 2015년 구글의 제프리 힌턴(Geoffrey Hinton), 2024년 노벨상 수상자로 알려진 AI의 대부,을 포함한 세 연구원이 발표한 논문에서 시작되었습니다. 당시 연구원들은 여러 모델을 결합하여 성능을 개선하는 앙상블(ensemble) 모델을 자주 사용했으나, 모든 모델을 동시에 실행하는 것은 매우 번거롭고 비쌌습니다. 힌턴과 함께 논문을 공동 저술한 구글 딥마인드(Google DeepMind)의 주요 과학자 오리올 비냐르스(Oriol Vinyals)는 “강아지를 여우와 혼동하는 것과 강아지를 피자와 혼동하는 것이 같은 벌을 받는다는 문제점을 발견했습니다. 우리는 큰 모델이 잘못된 답변의 정도를 구분할 수 있는 정보를 가지고 있다고 생각했습니다.” 힌턴은 이를 '어두운 지식(dark knowledge)'이라고 불렀으며, 우주론의 어두운 물질에 비유했습니다. 비냐르스는 큰 교사 모델이 작은 학생 모델에게 이미지 카테고리를 구분하는 확률을 전달하는 방법을 개발했습니다. 예를 들어, 한 모델은 특정 이미지가 강아지일 가능성이 30%, 고양이일 가능성이 20%, 소일 가능성이 5%, 자동차일 가능성이 0.5%라고 판단했습니다. 이렇게 확률을 제공함으로써, 교사 모델은 학생 모델에게 강아지와 고양이는 유사하지만, 소와는 좀 다르고, 자동차와는 매우 다르다는 것을 효과적으로 알려주었습니다. 이 정보는 학생 모델이 이미지를 더 효율적으로 식별하는 데 도움이 됐습니다. 결과적으로 큰 복잡한 모델이 거의 정확도를 손상시키지 않고 더 간결한 형태로 축소될 수 있었습니다. 증류의 개념은 당장 널리 받아들여지지 않았습니다. 초기 논문은 학회에서 거절당했고, 비냐르스는 다른 주제로 연구 방향을 변경했습니다. 하지만 증류는 중요한 시기에 등장했습니다. 당시 엔지니어들은 신경망에게 더 많은 훈련 데이터를 제공할수록 그 성능이 향상된다는 사실을 발견하고 있었습니다. 모델의 크기와 능력은 급속히 커졌지만, 운영 비용 역시 그 크기와 비례해 상승했습니다. 많은 연구원들이 더 작은 모델을 만드는 방법으로 증류에 주목하기 시작했습니다. 2018년 구글 연구원들은 강력한 언어 모델 BERT를 공개했습니다. 이 모델은 구글이 수십억 건의 웹 검색을 처리하는 데 활용되었지만, 크고 비싸게 운영될 필요가 있었습니다. 이듬해 다른 개발자들은 BERT를 기반으로 더 작은 버전인 디스틸버트(DistilBERT)를 개발해 비즈니스와 연구 분야에서 널리 사용되기 시작했습니다. 증류는 점차 보편화되었으며, 현재 구글, 오픈AI, 아마존 등의 기업들이 서비스로 제공하고 있습니다. 초기 증류 논문은 아직 arxiv.org 사전 출판 서버에만 게재되었지만, 25,000회 이상 인용되었습니다. 증류는 교사 모델의 내부 구조에 접근해야 하므로, 오픈AI의 o1 같은 폐쇄 소스 모델에서 제3자가 비밀리에 데이터를 증류하는 것은 불가능합니다. 그러나 학생 모델은 교사 모델에게 특정 질문을 던지고 그 답변을 활용해 자신의 모델을 훈련시키는 방식으로 많은 것을 배울 수 있습니다. 이는 거의 소크라테스식 접근법으로 볼 수 있습니다. 한편, 다른 연구원들은 새로운 응용 분야를 찾는데 주력하고 있습니다. 올해 1월 캘리포니아 대학 버클리分校의 노바스카이(NovaSky) 연구팀은 증류가 복잡한 질문에 대해 다단계 사고 과정을 사용하는 모델을 훈련시키는 데 잘 작동한다는 것을 보여주었습니다. 이 연구팀은 완전 오픈 소스인 Sky-T1 모델을 $450 미만의 비용으로 훈련시켜, 훨씬 더 큰 오픈 소스 모델과 유사한 결과를 달성했습니다. “증류가 이 설정에서 얼마나 잘 작동하는지 정말로 놀랐습니다. 증류는 AI의 근본적인 기술입니다,” 노바스카이 팀의 공동 리더인 버클리 대학 박사과정생 리 다천성(Dacheng Li)은 말했습니다. 증류 기술의 발전과 적용은 AI 모델의 크기를 줄이고, 비용을 절감하면서도 성능을 유지하거나 개선하는 데 큰 역할을 하고 있습니다. 이는 기업들이 AI를 더욱 효율적으로 활용할 수 있게 하는 중요한 도구로 간주되며, 딥서치의 R1 챗봇 성공은 이러한 기술의 가능성을 다시 한번 확인시켜주는 사례입니다. 딥서치의 성공은 단순히 새로운 기술을 발견한 것이 아니라, 이미 널리 알려진 증류 기법을 창의적으로 활용한 결과라는 평가가 많습니다.