HyperAIHyperAI

Command Palette

Search for a command to run...

잠재적 은닉 시각적 추론

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

초록

대규모 다중모달 모델(LMMs)은 상당한 진전을 이루었지만, 여전히 주로 텍스트 중심이며 핵심 추론 매체로 언어에 의존하고 있다. 이로 인해 시각적인 요소가 주된 추론 작업을 처리하는 데 한계가 있다. 최근의 접근 방식들은 보조 이미지, 깊이 맵, 또는 이미지 클립을 사용해 중간 단계의 시각 정보를 감독함으로써 이 문제를 해결하려고 시도해왔다. 그러나 이러한 전략들은 ‘유용한’ 시각적 추상화가 어떤 모습이어야 하는지에 대해 제한적인 사전 지식(prior)을 강요하며, 높은 레이블링 비용을 수반하고, 다양한 작업 간 일반화 능력이 낮다는 문제를 안고 있다. 이 핵심적 한계를 극복하기 위해, 우리는 명시적 감독 없이도 LMM이 시각 추론 토큰을 자발적으로 탐지하고 활용할 수 있도록 훈련하는, 작업에 독립적인 메커니즘을 제안한다. 이러한 토큰들은 전역적으로 주목하고, 작업에 따라 적응적으로 이미지를 재인코딩함으로써, 수작업으로 설계된 감독 없이도 관련된 시각 정보를 효과적으로 추출할 수 있게 한다. 제안하는 방법은 직접적인 미세조정보다 우수한 성능을 보이며, 중간 추상화를 명확히 정의하기 어려운 경우에도 포함된 다양한 시각 중심 작업에서 최신 기술 수준의 성능을 달성한다. 또한 다중 작업 지시 조정(multi-task instruction tuning)에 대해서도 우수한 일반화 능력을 보여준다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
잠재적 은닉 시각적 추론 | 문서 | HyperAI초신경