Command Palette
Search for a command to run...

要約
我々は、現実世界の複雑な3Dオープンワールド環境において、数時間に及ぶ高度なミッションをリアルタイムで遂行できる汎用エージェントの開発を可能にする、初めてのオープンソースの手法「Lumine」を紹介する。Lumineは、視覚言語モデルを基盤として、知覚・推論・行動をエンドツーエンドで統合する人間のようなインタラクションパラダイムを採用している。本手法は5Hzで入力される生のピクセルデータを処理し、30Hzのキーボード・マウス操作を高精度で生成するとともに、必要に応じてのみ推論を動的に呼び出す。Genshin Impact内で訓練されたLumineは、人間レベルの効率で5時間に及ぶモンドシュタットのメインストーリーを完遂し、自然言語指令に従って、収集、戦闘、パズル解決、NPCとの対話といった多様なタスクを、3Dオープンワールド探索と2D GUI操作の両方で実行可能である。さらに、領域内での性能に加え、Lumineは強力なゼロショット跨ゲーム一般化能力を示している。微調整なしに、Wuthering Wavesにおける100分間のミッションおよびHonkai: Star Railの初章全5時間のミッションを達成した。これらの有望な結果は、Lumineが異なる世界観とインタラクションダイナミクスにおいても有効であることを示しており、開放的環境における汎用エージェント実現に向けた実質的な一歩を示している。