Back to Headlines

谷歌发布Genie 3:一句话生成可实时互动的3D虚拟世界

3일 전

구글 딥마인드는 8월 5일 세계 모델 ‘지니 3(Genie 3)’을 공개하며, 텍스트나 이미지 입력 하나로 실시간 3D 가상 세계를 생성하고 사용자 및 AI 에이전트가 상호작용할 수 있는 기술을 선보였다. 기존의 게임처럼 사전 제작된 콘텐츠가 아닌, “비오는 사이버펑크 도시”나 “햇살 가득한 판타지 숲” 같은 문장만으로도 즉각적으로 환경을 생성해 탐색과 조작이 가능하다. 지니 3의 핵심은 실시간성과 장시간 일관성이다. 이전 버전인 지니 2는 10~20초간의 제한된 상호작용과 360p 해상도에 그쳤지만, 지니 3는 720p, 24fps로 원활한 실시간 작동이 가능하며 수분 단위의 지속적 상호작용이 가능해졌다. 특히, 환경 상태를 기억하는 능력이 도입됐다. 예를 들어, 벽에 그림을 그린 후 떠나도 다시 돌아오면 그림이 그대로 유지되는 식으로, 시각적 기억이 일관성을 유지한다. 이는 전통적인 모델이 장시간 운영 시 내용이 흐려지거나 모순되는 문제를 해결한 점에서 큰 진전이다. 또한 ‘프롬프트 가능 세계 이벤트’ 기능을 도입해, 사용자가 중간에 “사슴 무리 추가”나 “天鹅绒 조끼를 입은 고릴라 등장”처럼 새로운 지시를 내리면 환경이 즉각 반응해 변화한다. 이는 단순 탐색을 넘어 창의적 실험과 자유로운 조작이 가능한 ‘사막 모드’ 같은 경험을 가능하게 한다. 딥마인드는 지니 3의 진정한 목적을 일반 인공지능(AGI) 개발에 두고 있다. 이를 통해 다양한 3D 환경에서 자연어 지시를 따르는 AI 에이전트인 SIMA를 훈련시키고, 실제 로봇이나 자율 시스템의 학습 환경으로 활용할 계획이다. 하지만 현재까지는 한계도 크다. 에이전트의 행동 범위 제한, 복잡한 다중 에이전트 상호작용 처리 어려움, 실제 지리적 정확도 부족, 텍스트 렌더링 불량 등이 문제다. 또한, 현재는 공개되지 않고 연구자와 창작가들만 제한된 예비 버전을 사용할 수 있다. 지니 3는 아직 ‘전지적 사고’를 구현하진 못하지만, 실시간, 지속적, 창의적인 가상 세계 생성이라는 새로운 기준을 세우며, 미래의 AGI와 실세계 적용 기술의 길을 밝히고 있다.

Related Links

谷歌发布Genie 3:一句话生成可实时互动的3D虚拟世界 | 헤드라인 | HyperAI초신경