17일 전

하이드라: 동적 복합 시각적 추론을 위한 하이퍼 에이전트

Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi
하이드라: 동적 복합 시각적 추론을 위한 하이퍼 에이전트
초록

최근 시각적 추론(VR) 분야에서 대규모 시각-언어 모델(VLM)의 도움을 받아 큰 진전이 있었으나, 여전히 대규모 데이터셋에 대한 접근이 필요하고, 높은 계산 비용과 일반화 능력의 제한 등 여러 도전 과제에 직면해 있다. 구성형 시각적 추론 접근법은 효과적인 전략으로 부상하고 있으나, 계획 수립이나 추론 과정을 수행하기 위해 대규모 언어 모델(LLM)에 내재된 보편적 지식에 크게 의존하며, 이러한 결정이 시각적 추론 과정에 미치는 영향을 고려하지 않는다는 한계가 있다. 이로 인해 오류 발생이나 추론 절차의 실패가 발생할 수 있다. 이러한 문제를 해결하기 위해, 신뢰성 높고 점진적으로 발전하는 일반화 추론을 가능하게 하는 다단계 동적 구성형 시각적 추론 프레임워크인 HYDRA를 제안한다. HYDRA는 계획기(planner), 강화학습(RL) 에이전트를 통한 인지 제어기 역할을 수행하는 모듈, 그리고 추론기(reasoner)의 세 가지 핵심 모듈을 통합하고 있다. 계획기와 추론기 모듈은 LLM을 활용하여 선택된 지시문(instruction)으로부터 지시 샘플과 실행 가능한 코드를 생성하며, RL 에이전트는 이들 모듈과 동적으로 상호작용하여, 피드백 루프를 통해 저장된 이전 상태 정보를 기반으로 최적의 지시 샘플을 선택하는 고수준 결정을 내린다. 이러한 유연한 설계는 추론 과정 중 수신한 이전 피드백을 바탕으로 행동을 조정할 수 있게 하여, 보다 신뢰성 높은 추론 결과를 도출하고, 궁극적으로 전체적인 효율성을 향상시킨다. 제안된 프레임워크는 네 가지 널리 사용되는 데이터셋에서 다양한 VR 작업에서 최신 기술 수준의 성능을 보여주었다.

하이드라: 동적 복합 시각적 추론을 위한 하이퍼 에이전트 | 최신 연구 논문 | HyperAI초신경