구글, 딥마인드 지미니 확산 모델로 LLM 시대 개막
지난 달, 구글 딥마인드는 새로운 AI 도구와 혁신과 함께 실험적 연구 모델인 제미니 확산을 공개했습니다. 이 모델은 확산 기반 접근법을 사용하여 텍스트를 생성하며, 전통적으로는 GPT와 제미니 같은 대형 언어 모델(LLM)들이 순차적으로 각 단어를 생성하는 자기회귀 접근법을 사용해왔습니다. 확산 언어 모델(DLM 또는 dLLM)은 이미지 생성에서 더 많이 사용되는 방법으로, 무작위 노이즈에서 시작하여 점진적으로 이를 일관된 출력으로 정제합니다. 이 접근법은 생성 속도를 크게 향상시키며, 일관성과 정확성을 개선할 수 있습니다. 자기회귀 vs. 확산 자기회귀 접근법은 텍스트를 순차적으로 생성하며, 각 토큰은 이전 토큰에 기반하여 예측됩니다. 이 방법은 강한 일관성과 맥락 추적을 보장하지만, 특히 장문 콘텐츠에서는 계산적으로 부담스럽고 느릴 수 있습니다. 반면, 확산 모델은 무작위 노이즈에서 시작하여 이를 점진적으로 일관된 출력으로 정제합니다. 텍스트 블록을 병렬로 처리할 수 있어 전체 문단이나 문장을 훨씬 빠른 속도로 생성할 수 있습니다. 제미니 확산은 초당 1,000~2,000 토큰을 생성할 수 있다고 알려져 있으며, 이는 제미니 2.5 플래시의 평균 출력 속도 272.4 토큰/초와 비교하면 큰 차이를 보입니다. 또한, 생성 과정 중 오류를 수정할 수 있어 정확성이 향상되고 환상 현상(hallucinations)이 줄어듭니다. 그러나 세부 정확성과 토큰 수준의 제어력에서는 약간의 교환 효과가 있을 수 있습니다. 확산 기반 텍스트 생성의 작동 방식 훈련 과정에서 DLM은 문장에 노이즈를 점진적으로 추가하여 원래 문장이 완전히 인식할 수 없는 상태까지 변형됩니다. 그런 다음, 모델은 이 과정을 역으로 진행하여 노이즈가 적용된 문장을 단계별로 원래 형태로 복원하도록 학습합니다. 이 과정은 다양한 샘플과 노이즈 수준으로 수백만 번 반복되어, 모델이 신뢰할 수 있는 노이즈 제거 기능을 학습하게 됩니다. 성능 벤치마크 구글은 제미니 확산의 성능이 제미니 2.0 플래시-라이트와 비슷하다고 발표했습니다. 여러 벤치마크를 통해 두 모델의 성능을 비교한 결과, 제미니 확산은 코딩과 수학 테스트에서 우수한 성능을 보였지만, 제미니 2.0 플래시-라이트는 추론, 과학 지식, 다국어 능력에서 조금 더 우월했습니다. | 벤치마크 유형 | 제미니 확산 | 제미니 2.0 플래시-라이트 | | --- | --- | --- | | LiveCodeBench (v6) | 30.9% | 28.5% | | BigCodeBench | 45.4% | 45.8% | | LBPP (v2) | 56.8% | 56.0% | | SWE-Bench Verified* | 22.9% | 28.5% | | HumanEval | 89.6% | 90.2% | | MBPP | 76.0% | 75.8% | | GPQA Diamond | 40.4% | 56.5% | | AIME 2025 | 23.3% | 20.0% | | BIG-Bench Extra Hard | 15.0% | 21.0% | | Global MMLU (Lite) | 69.1% | 79.0% | 단일 턴 편집만 가능한 비대화형 평가, 최대 프롬프트 길이는 32K입니다. 제미니 확산의 테스트 벤처비트는 제미니 확산 실험 데모에 접근할 수 있었으며, 가장 먼저 눈에 띈 점은 속도였습니다. 구글이 제안한 프롬프트를 사용하여 Xylophone와 Planet Tac Toe와 같은 인터랙티브 HTML 앱을 구축할 때, 각 요청은 3초 미만으로 완료되었습니다. 초당 600~1,300 토큰을 생성하는 속도를 보였습니다. 실제 응용 프로그램을 테스트하기 위해 다음과 같은 프롬프트를 사용해 비디오 채팅 인터페이스를 구축해 보았습니다: "비디오 채팅 애플리케이션의 인터페이스를 만드세요. 이 인터페이스는 내 기기의 카메라에 접근하여 그 출력을 표시하는 미리보기 창과, 내 기기의 마이크로부터 실시간으로 소리 수준을 측정하는 사운드 레벨 미터를 포함해야 합니다." 2초 미만으로 제미니 확산은 동작하는 인터페이스를 생성했으며, 비디오 미리보기 창과 오디오 미터가 포함되어 있었습니다. 기업 활용 사례 즉각적인 응답 시간이 필요한 모든 응용 프로그램은 DLM 기술로부터 혜택을 받을 수 있습니다. 이에는 실시간 및 저 지연 시간 응용 프로그램, 대화형 AI와 챗봇, 실시간 전사 및 번역, IDE 자동완성 및 코딩 지원 등이 포함됩니다. 구글 딥마인드의 연구 과학자인 브렌던 오도노휴는 "인라인 편집, 예를 들어 텍스트의 일부를 선택하여 현장에서 변경하는 작업에서 확산 모델은 자기회귀 모델과는 다르게 적용될 수 있다"라고 말했습니다. DLM은 비인과적 추론을 제공하는 양방향 주의 메커니즘 덕분에 추론, 수학, 코딩 문제에서도 우위를 보입니다. 업계 관계자의 평가 확산 기반 언어 생성은 아직 초기 단계에 있지만, 언어 모델 구축 방식을 변화시킬 잠재력을 가지고 있습니다. 자기회귀 모델보다 훨씬 빠른 텍스트 생성 속도와 오류 수정 능력은 결국 더 정확한 결과를 생산할 수 있게 할 것입니다. 제미니 확산은 메르쿠리(Inception Labs 개발)와 LLaDa(GSAI의 오픈소스 모델)와 같은 성장하는 DLM 생태계에 참여하고 있으며, 이 모델들은 전통적인 자기회귀 아키텍처의 대안으로 병렬 처리와 확장성을 제공합니다. 이러한 모델들의 발전은 언어 모델의 미래를 밝혀줄 것으로 기대됩니다.