HyperAIHyperAI

Command Palette

Search for a command to run...

보는 것, 듣는 것, 기억하는 것, 그리고 추론하는 것: 장기 기억을 갖춘 다중 모달 에이전트

Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li

초록

우리는 장기 기억을 갖춘 새로운 다중모달 에이전트 프레임워크인 M3-Agent를 소개한다. 인간과 마찬가지로 M3-Agent는 실시간 시각 및 청각 입력을 처리하여 장기 기억을 구축하고 지속적으로 업데이트할 수 있다. 사건 기억(episodic memory)을 넘어서, 의미 기억(semantic memory)을 형성함으로써 시간이 지남에 따라 세계에 대한 지식을 축적할 수 있다. M3-Agent의 기억은 실체 중심(entity-centric)이며 다중모달 형식으로 구성되어 있어 환경에 대한 깊이 있고 일관성 있는 이해를 가능하게 한다. 지시(instruction)가 주어지면, M3-Agent는 자율적으로 다단계 반복적 추론을 수행하고 기억에서 관련 정보를 검색하여 작업을 완수한다. 다중모달 에이전트의 기억 효과성과 기억 기반 추론 능력을 평가하기 위해, 우리는 새로운 장시간 영상 질의응답 기준(M3-Bench)을 개발했다. M3-Bench는 로봇 시점에서 새로 촬영한 100개의 실생활 영상(M3-Bench-robot)과 다양한 시나리오에서 수집한 929개의 웹 기반 영상(M3-Bench-web)으로 구성된다. 이 기준은 인간 이해, 일반 지식 추출, 다중모달 추론과 같은 에이전트 응용에 필수적인 핵심 능력을 평가할 수 있도록 설계된 질문-답변 쌍을 포함한다. 실험 결과, 강화학습을 통해 훈련된 M3-Agent는 Gemini-1.5-pro와 GPT-4o를 사용하는 프롬프팅 기반 강력한 기준 모델보다 우수한 성능을 보였으며, 각각 M3-Bench-robot, M3-Bench-web, VideoMME-long에서 정확도가 6.7%, 7.7%, 5.3% 더 높았다. 본 연구는 다중모달 에이전트가 인간과 유사한 장기 기억을 갖도록 발전시키는 데 기여하며, 실용적인 설계에 대한 통찰을 제공한다. 모델, 코드 및 데이터는 다음 링크에서 공개된다: https://github.com/bytedance-seed/m3-agent


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp