딥마인드, 실제 환경 없이도 다이아몬드를 채굴하는 AI 에이전트 '드림어 4' 개발
구글 딥마인드는 복잡한 환경에서 장기적인 과제를 해결할 수 있는 새로운 AI 에이전트 '드림어 4(Dreamer 4)'를 개발했다. 이 에이전트는 실제 게임을 플레이하지 않고, 단지 기존의 인간 플레이 영상만으로도 마인크래프트에서 다이아몬드를 채굴하는 데 성공했다. 이는 AI가 현실 세계의 로봇처럼 실패하거나 손상될 위험이 있는 훈련을 피하고, 내부의 '세계 모델(world model)'에서 상상 속에서 학습할 수 있음을 보여주는 중요한 진전이다. 드림어 4는 대규모 트랜스포머 기반 모델로, 인간의 마인크래프트 플레이 영상만을 사용해 세계의 물리적 동작과 상호작용(예: 블록 파괴, 도구 사용, 조합 등)을 학습한다. 이후 강화학습을 통해 상상 속 시나리오에서 다양한 행동을 시험하고 최적화한다. 이 과정에서 모델은 단 몇백 시간의 동작 데이터만으로도 일반화된 지식을 습득하며, 단일 GPU에서 실시간으로 시뮬레이션을 수행할 수 있다. 기존의 비디오 생성 모델(예: 베오, 소라)은 비현실적인 속도로 동작해 에이전트 훈련용 시뮬레이터로 활용하기 어렵지만, 드림어 4는 효율적인 아키텍처와 '숏컷 포싱(Shortcut Forcing)' 기법을 통해 예측 정확도를 높이고 생성 속도를 25배 이상 향상시켰다. 연구팀은 향후 장기 기억과 언어 이해 기능을 추가해 인간과 협업할 수 있는 에이전트로 발전시키고, 인터넷의 일반 영상 데이터를 활용해 물리 세계에 대한 일반 지식을 습득하는 방향으로 연구를 확장할 계획이다. 이는 로봇이 집안일이나 공장 작업을 안전하고 효율적으로 수행할 수 있는 기반을 마련할 전망이다.