Command Palette

Search for a command to run...

13日前

ルミネ:3Dオープンワールドにおける汎用エージェント構築のためのオープンレシピ

ルミネ:3Dオープンワールドにおける汎用エージェント構築のためのオープンレシピ

要約

我々は、現実世界の複雑な3Dオープンワールド環境において、数時間に及ぶ高度なミッションをリアルタイムで遂行できる汎用エージェントの開発を可能にする、初めてのオープンソースの手法「Lumine」を紹介する。Lumineは、視覚言語モデルを基盤として、知覚・推論・行動をエンドツーエンドで統合する人間のようなインタラクションパラダイムを採用している。本手法は5Hzで入力される生のピクセルデータを処理し、30Hzのキーボード・マウス操作を高精度で生成するとともに、必要に応じてのみ推論を動的に呼び出す。Genshin Impact内で訓練されたLumineは、人間レベルの効率で5時間に及ぶモンドシュタットのメインストーリーを完遂し、自然言語指令に従って、収集、戦闘、パズル解決、NPCとの対話といった多様なタスクを、3Dオープンワールド探索と2D GUI操作の両方で実行可能である。さらに、領域内での性能に加え、Lumineは強力なゼロショット跨ゲーム一般化能力を示している。微調整なしに、Wuthering Wavesにおける100分間のミッションおよびHonkai: Star Railの初章全5時間のミッションを達成した。これらの有望な結果は、Lumineが異なる世界観とインタラクションダイナミクスにおいても有効であることを示しており、開放的環境における汎用エージェント実現に向けた実質的な一歩を示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ルミネ:3Dオープンワールドにおける汎用エージェント構築のためのオープンレシピ | 論文 | HyperAI超神経