Command Palette
Search for a command to run...
보는 것, 듣는 것, 기억하는 것, 그리고 추론하는 것: 장기 기억을 갖춘 다중 모달 에이전트
보는 것, 듣는 것, 기억하는 것, 그리고 추론하는 것: 장기 기억을 갖춘 다중 모달 에이전트
Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li
초록
우리는 장기 기억을 갖춘 새로운 다중모달 에이전트 프레임워크인 M3-Agent를 소개한다. 인간과 마찬가지로 M3-Agent는 실시간 시각 및 청각 입력을 처리하여 장기 기억을 구축하고 지속적으로 업데이트할 수 있다. 사건 기억(episodic memory)을 넘어서, 의미 기억(semantic memory)을 형성함으로써 시간이 지남에 따라 세계에 대한 지식을 축적할 수 있다. M3-Agent의 기억은 실체 중심(entity-centric)이며 다중모달 형식으로 구성되어 있어 환경에 대한 깊이 있고 일관성 있는 이해를 가능하게 한다. 지시(instruction)가 주어지면, M3-Agent는 자율적으로 다단계 반복적 추론을 수행하고 기억에서 관련 정보를 검색하여 작업을 완수한다. 다중모달 에이전트의 기억 효과성과 기억 기반 추론 능력을 평가하기 위해, 우리는 새로운 장시간 영상 질의응답 기준(M3-Bench)을 개발했다. M3-Bench는 로봇 시점에서 새로 촬영한 100개의 실생활 영상(M3-Bench-robot)과 다양한 시나리오에서 수집한 929개의 웹 기반 영상(M3-Bench-web)으로 구성된다. 이 기준은 인간 이해, 일반 지식 추출, 다중모달 추론과 같은 에이전트 응용에 필수적인 핵심 능력을 평가할 수 있도록 설계된 질문-답변 쌍을 포함한다. 실험 결과, 강화학습을 통해 훈련된 M3-Agent는 Gemini-1.5-pro와 GPT-4o를 사용하는 프롬프팅 기반 강력한 기준 모델보다 우수한 성능을 보였으며, 각각 M3-Bench-robot, M3-Bench-web, VideoMME-long에서 정확도가 6.7%, 7.7%, 5.3% 더 높았다. 본 연구는 다중모달 에이전트가 인간과 유사한 장기 기억을 갖도록 발전시키는 데 기여하며, 실용적인 설계에 대한 통찰을 제공한다. 모델, 코드 및 데이터는 다음 링크에서 공개된다: https://github.com/bytedance-seed/m3-agent