
我々は、長期記憶を備えた新しいマルチモーダルエージェントフレームワーク「M3-Agent」を紹介する。M3-Agentは、人間と同様に、リアルタイムの視覚的および聴覚的入力を処理し、その情報をもとに長期記憶を構築・更新できる。エピソード記憶に加え、意味記憶も獲得するため、時間の経過とともに世界知識を蓄積することが可能である。その記憶はエンティティ中心のマルチモーダル形式で構造化されており、環境に対するより深く一貫した理解を実現する。指示が与えられると、M3-Agentは自律的に複数ターンにわたる反復的推論を実行し、記憶から関連情報を検索してタスクを達成する。マルチモーダルエージェントにおける記憶の有効性および記憶に基づく推論能力を評価するため、我々は新しい長時間動画質問応答ベンチマーク「M3-Bench」を構築した。M3-Benchは、ロボット視点から新たに撮影された100本のリアルワールド動画(M3-Bench-robot)と、多様なシナリオにわたる929本のウェブ由来動画(M3-Bench-web)から構成されている。人間理解、一般知識の抽出、クロスモーダル推論といったエージェント応用に不可欠な能力を検証するための質問-回答ペアを付加的にアノテーションした。実験結果から、強化学習により訓練されたM3-Agentは、Gemini-1.5-proとGPT-4oを用いたプロンプティングベースの強力なベースラインを上回り、それぞれM3-Bench-robot、M3-Bench-web、VideoMME-longにおいて6.7%、7.7%、5.3%高い精度を達成した。本研究は、より人間らしい長期記憶を持つマルチモーダルエージェントの実現に向けた進展をもたらし、実用的な設計に関する洞察を提供する。モデル、コード、データは以下のURLから公開されている:https://github.com/bytedance-seed/m3-agent