16일 전

MMCTAgent: 복합 시각 추론을 위한 다중 모달 비판적 사고 에이전트 프레임워크

Somnath Kumar, Yash Gadhia, Tanuja Ganu, Akshay Nambi
MMCTAgent: 복합 시각 추론을 위한 다중 모달 비판적 사고 에이전트 프레임워크
초록

최근 다중 모달 대규모 언어 모델(MLLM)의 발전은 시각과 언어를 결합한 작업에서 성능을 크게 향상시켰다. 그러나 세부적인 다중 모달 이해, 복잡한 작업의 이해, 그리고 다중 모달 정보에 대한 추론 측면에서는 여전히 도전 과제가 남아 있다. 본 논문은 이러한 복잡한 시각 추론 작업에서 현재 MLLM의 내재적 한계를 극복하기 위해 설계된 새로운 다중 모달 비판적 사고 에이전트 프레임워크인 MMCTAgent를 제안한다. 인간의 인지 과정과 비판적 사고를 영감으로 삼아, MMCTAgent는 반복적으로 다중 모달 정보를 분석하고, 질문을 분해하며, 전략을 계획하고, 동적으로 추론을 진화시킨다. 또한, 시각 기반의 비평가(visual critic)를 정의하고 작업에 특화된 평가 기준을 식별하는 새로운 접근법을 통해 최종 답변의 검증과 자기 반성과 같은 비판적 사고 요소를 통합함으로써 의사결정 능력을 강화한다. 다양한 이미지 및 비디오 이해 벤치마크에서 철저한 평가를 수행한 결과, 비평가를 포함하거나 제외한 MMCTAgent가 기초 MLLM 및 기타 도구 보강 파이프라인을 모두 상회함을 입증하였다.

MMCTAgent: 복합 시각 추론을 위한 다중 모달 비판적 사고 에이전트 프레임워크 | 최신 연구 논문 | HyperAI초신경