초록

우리는 장기 기억을 갖춘 새로운 다중모달 에이전트 프레임워크인 M3-Agent를 소개한다. 인간과 마찬가지로 M3-Agent는 실시간 시각 및 청각 입력을 처리하여 장기 기억을 구축하고 지속적으로 업데이트할 수 있다. 사건 기억(episodic memory)을 넘어서, 의미 기억(semantic memory)을 형성함으로써 시간이 지남에 따라 세계에 대한 지식을 축적할 수 있다. M3-Agent의 기억은 실체 중심(entity-centric)이며 다중모달 형식으로 구성되어 있어 환경에 대한 깊이 있고 일관성 있는 이해를 가능하게 한다. 지시(instruction)가 주어지면, M3-Agent는 자율적으로 다단계 반복적 추론을 수행하고 기억에서 관련 정보를 검색하여 작업을 완수한다. 다중모달 에이전트의 기억 효과성과 기억 기반 추론 능력을 평가하기 위해, 우리는 새로운 장시간 영상 질의응답 기준(M3-Bench)을 개발했다. M3-Bench는 로봇 시점에서 새로 촬영한 100개의 실생활 영상(M3-Bench-robot)과 다양한 시나리오에서 수집한 929개의 웹 기반 영상(M3-Bench-web)으로 구성된다. 이 기준은 인간 이해, 일반 지식 추출, 다중모달 추론과 같은 에이전트 응용에 필수적인 핵심 능력을 평가할 수 있도록 설계된 질문-답변 쌍을 포함한다. 실험 결과, 강화학습을 통해 훈련된 M3-Agent는 Gemini-1.5-pro와 GPT-4o를 사용하는 프롬프팅 기반 강력한 기준 모델보다 우수한 성능을 보였으며, 각각 M3-Bench-robot, M3-Bench-web, VideoMME-long에서 정확도가 6.7%, 7.7%, 5.3% 더 높았다. 본 연구는 다중모달 에이전트가 인간과 유사한 장기 기억을 갖도록 발전시키는 데 기여하며, 실용적인 설계에 대한 통찰을 제공한다. 모델, 코드 및 데이터는 다음 링크에서 공개된다: https://github.com/bytedance-seed/m3-agent

소스 PDF 코드 보기