Command Palette

Search for a command to run...

13일 전

루미네: 3D 오픈 월드에서 일반화 에이전트를 구축하기 위한 오픈 레시피

루미네: 3D 오픈 월드에서 일반화 에이전트를 구축하기 위한 오픈 레시피

초록

우리는 실시간으로 도전적인 3D 오픈월드 환경에서 수시간에 걸친 복잡한 미션을 수행할 수 있는 일반화된 에이전트를 개발하기 위한 최초의 오픈 레시피인 'Lumine'을 소개한다. Lumine는 시각-언어 모델을 기반으로 하여, 인지, 추론, 행동을 종단 간(end-to-end)으로 통합하는 인간과 유사한 상호작용 패러다임을 채택한다. 이 모델은 초당 5회(raw pixel 입력 처리)의 속도로 입력을 처리하여 초당 30회에 달하는 정밀한 키보드-마우스 명령을 생성하며, 필요할 때만 적응적으로 추론을 활성화한다. Lumine는 '젠신 임팩트(Genshin Impact)'에서 학습되었으며, 인간 수준의 효율로 5시간 분량의 몬드스타트 주요 스토리라인을 성공적으로 완수하였으며, 자연어 지시에 따라 수집, 전투, 퍼즐 해결, NPC 상호작용 등 다양한 작업을 3D 오픈월드 탐험과 2D GUI 조작 모두에서 수행할 수 있다. 또한 도메인 내 성능뿐 아니라, 강력한 제로샷(Zero-shot) 교차 게임 일반화 능력도 보여준다. 특별한 피니팅(Fine-tuning) 없이도 '위더링 웨이브스(Wuthering Waves)'에서 100분 분량의 미션과 '혼카이: 스타레일(Honkai: Star Rail)'의 전체 5시간 분량 첫 장을 성공적으로 수행하였다. 이러한 유망한 결과들은 Lumine가 서로 다른 세계와 상호작용 동역학 속에서도 효과적으로 작동함을 입증하며, 개방형 환경에서의 일반화 에이전트 실현에 있어 구체적인 도약을 나타낸다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
루미네: 3D 오픈 월드에서 일반화 에이전트를 구축하기 위한 오픈 레시피 | 연구 논문 | HyperAI초신경