인셉션 랩, 고속 코드 생성을 위한 메르cury 모델 발표
인셉션 랩스는 '머큐리'라는 확산 기반 언어 모델을 발표하여 고속 코드 생성 분야에 혁신을 가져왔습니다. 이 모델은 일반적인 자동 회귀 방법과 달리 병렬 토큰 생성을 통해 처리 속도를 크게 향상시키고 있습니다. 생성형 인공지능과 코드생성의 도전 생성형 인공지능(AI)이 소프트웨어 개발 분야에서 큰 영향을 미치며, 간단한 오토 컴플리션부터 복잡한 소프트웨어 솔루션까지 다양한 코딩 작업을 자동화하고 있습니다. 그러나 전통적인 언어 모델은 대부분 자동 회귀 방법을 사용하여 한 토큰씩 예측하기 때문에, 본질적 제약으로 인해 처리속도와 지연 시간 문제가 발생합니다. 특히 코딩 애플리케이션에서는 이러한 순차적인 생성이 효율성을 저하시켜 실시간 상호작용 환경이나 즉각적인 응답이 필요한 시나리오에서 도전 과제를 제공합니다. 기존의 속도 최적화 모델인 GPT-4o와 Claude 3.5 Haiku가 어느 정도 성능 향상을 보였지만, 토큰 단위로 생성하는 근본적인 한계는 여전히 존재합니다. 현재 AI 기반 코딩 도우미의 상태와 속도 제한 현재 주요 AI 기반 코딩 도우미들은 자동 회귀 트랜스포머 아키텍처를 주로 사용하며, GPT-4o Mini, Claude 3.5 Haiku, Gemini 2.0 Flash Lite, Codestral 등은 표준 코딩 벤치마크에서 뛰어난 결과를 보여주고 있습니다. 그러나 이들 모델의 순차적인 특성은 속도 면에서 한계를 가집니다. 자동 회귀 모델은 현대 GPU 하드웨어에서 초당 50~200 토큰의 처리량을 달성하지만, 고성능, 상호작용, 지연 시간이 중요한 코딩 작업에서는 여전히 제약을 받습니다. 머큐리 소개: 고성능 코딩을 위한 확산 기반 LLM 인셉션 랩스 연구원들은 머큐리, 이른바 '확산 기반 대규모 언어 모델(LLM)' 가족을 소개하며, 코딩 애플리케이션을 위해 특별히 최적화된 모델을 선보였습니다. 머큐리 코더는 머큐리 코더 미니와 머큐리 코더 스몰 두 가지 변형으로 구성되며, 트랜스포머 기반 아키텍처와 병렬 토큰 생성을 결합하여 컴퓨팅 효율성과 전반적인 처리량을 크게 높였습니다. 독립적으로 수행된 아티피셜리티 분석에 따르면, 머큐리 코더 모델은 뛰어난 성능을 보여주었습니다. 머큐리 코더 미니는 초당 1,109 토큰의 처리량을 달성했으며, 이는 기존 자동 회귀 모델보다 훨씬 빠릅니다. 머큐리 코더 스몰은 초당 737 토큰의 처리량을 보여주어, 속도와 코딩 정확성 사이에서 우수한 균형을 이루고 있습니다. 머큐리의 병렬 토큰 생성 메커니즘 머큐리 모델은 초기 무작위 노이즈에서 일관된 데이터로 반복적으로 세밀하게 개선하는 확산 과정을 활용합니다. 전통적인 모델과 달리, 머큐리 모델은 각 반복 과정에서 여러 토큰을 동시에 개선하여 GPU 활용률을 크게 최적화합니다. 훈련 과정에서는 웹 크롤링, 합성 데이터, 및 프로퍼티 리포지토리에서 수집된 수조 개의 토큰으로 구성된 데이터셋을 사용했습니다. 확산 훈련 프로토콜은 청정 데이터에 점진적으로 노이즈를 추가하는 전방 과정과 이 노이즈가 있는 데이터를 점진적으로 제거하는 역방향 과정을 포함합니다. 특히, 머큐리는 simultaneously adjusting tokens (토큰的同时调整)을 가능하게 하는 노이즈 제거 확산 손실을 사용하여 병렬화를 강화합니다. 또한, 머큐리 모델은 기존 자동 회귀 모델에서 흔히 사용되는 제로샷과 페어샷 학습 등의 프롬프팅 방법을 통합하여 기존 코딩 워크플로우와 원활하게 연동됩니다. 벤치마크 정확도: 머큐리 모델의 우수성 벤치마크 테스트에서, 머큐리 코더 스몰은 HumanEval (표준 Python 코딩 벤치마크)에서 90.0%의 정확도를, MultiPL-E (C++, Java, JavaScript, PHP, Bash, TypeScript 등 다중 언어 벤치마크)에서 76.2%의 정확도를 달성했습니다. 머큐리 코더 미니 역시 HumanEval에서 88.0%, MultiPL-E에서 74.1%의 우수한 성능을 보여주었습니다. fill-in-the-middle 코딩 작업, 오토 컴플리션과 상호작용 코딩에 필수적인 작업에서, 머큐리 코더 스몰은 Codestral 2501(82.5%)을 능가하는 평균 84.8%의 정확도를 기록하며 주목받았습니다. 더욱이, Copilot Arena 플랫폼을 통한 실제 사용자 평가에서도, 머큐리 코더 미니는 GPT-4o Mini와 Gemini 1.5 Flash를 제치고 전체 2위를 차지하며 가장 낮은 평균 지연 시간 25밀리초를 기록했습니다. 메인 포인트: 고 처리량, 정확도, 워크플로우 호환성 머큐리 모델은 고속 처리량, 정확도, 그리고 기존 코딩 워크플로우와의 호환성을 통해 코딩 도우미 시장에서 새로운 기준을 설정하고 있습니다. 특히, MultiPL-E 벤치마크에서 머큐리 코더 스몰은 C++에서 82.0%, Java에서 80.1%, JavaScript에서 83.9%, PHP에서 78.3%, Bash에서 50.1%, TypeScript에서 82.6%의 정확도를 보여주어, 다양한 프로그래밍 언어에서도 뛰어난 성능을 인정받았습니다. 업계 전문가들의 평가와 회사 프로필 업계 전문가들은 머큐리의 등장을 긍정적으로 평가하며, 이 모델이 코딩 도우미 분야에서 새로운 패러다임을 제시하고 있다고 강조합니다. 인셉션 랩스는 AI 기반 코딩 도우미의 혁신을 이끄는 선두 주자로, 독창적인 기술과 뛰어난 성능으로 주목받고 있습니다. 머큐리 모델은 이미 여러 기업과 개발자 커뮤니티에서 시험되고 있으며, 그 성능과 효율성이 입증되고 있습니다. 이 연구의 모든 공로는 이 프로젝트의 연구원들에게 돌아갑니다. 인셉션 랩스의 Twitter를 팔로우하거나 100k+ ML SubReddit에 참여하고, 뉴스레터 구독을 통해 최신 정보를 얻으실 수 있습니다.