Discord에서 논의하기

8달 전

다중모달 표현

이미지 이해

Heeji Yoon Jaewoo Jung Junwan Kim Hyungyu Choi Heeseong Shin Sangbeom Lim Honggyu An Chaehyun Kim Jisang Han Donghyun Kim

초록

시각 지시 조정(visual instruction tuning)을 통해 훈련된 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 다양한 작업에서 뛰어난 성능을 달성하고 있으나, 객체 수세기나 공간적 추론과 같은 시각 중심 작업에서는 여전히 한계를 보이고 있다. 본 연구에서는 이러한 성능 격차를 주로 텍스트 중심의 감독 방식에 기인한다고 보며, 이는 시각 경로에 대한 간접적인 지침만 제공함으로써 MLLMs가 훈련 과정에서 세부적인 시각 정보를 무시하게 만든다고 분석한다. 본 논문에서는 사전 훈련된 시각 기반 모델(Vision Foundation Models, VFMs)의 내부 시각 표현과 MLLMs의 내부 시각 표현을 일치시키는 간단하면서도 효과적인 정규화 전략인 VIsual Representation ALignment (VIRAL)을 제안한다. 본 전략은 이러한 일치를 명시적으로 강제함으로써, 모델이 입력 시각 인코더로부터 중요한 시각 정보를 유지하는 동시에 VFMs로부터 추가적인 시각 지식을 보완할 수 있도록 한다. 이를 통해 복잡한 시각 입력에 대한 추론 능력이 향상된다. 실험 결과, 널리 사용되는 다중모달 벤치마크에서 모든 작업에 걸쳐 일관된 성능 향상이 확인되었다. 더불어, 본 프레임워크의 핵심 설계 선택 사항을 검증하기 위해 철저한 제거 실험(ablation studies)를 수행하였다. 본 연구는 단순한 발견이지만, MLLMs 훈련 시 시각 정보를 효과적으로 통합하는 데 중요한 방향성을 제시한다고 믿는다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

8달 전

다중모달 표현

이미지 이해

Heeji Yoon Jaewoo Jung Junwan Kim Hyungyu Choi Heeseong Shin Sangbeom Lim Honggyu An Chaehyun Kim Jisang Han Donghyun Kim

초록

시각 지시 조정(visual instruction tuning)을 통해 훈련된 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 다양한 작업에서 뛰어난 성능을 달성하고 있으나, 객체 수세기나 공간적 추론과 같은 시각 중심 작업에서는 여전히 한계를 보이고 있다. 본 연구에서는 이러한 성능 격차를 주로 텍스트 중심의 감독 방식에 기인한다고 보며, 이는 시각 경로에 대한 간접적인 지침만 제공함으로써 MLLMs가 훈련 과정에서 세부적인 시각 정보를 무시하게 만든다고 분석한다. 본 논문에서는 사전 훈련된 시각 기반 모델(Vision Foundation Models, VFMs)의 내부 시각 표현과 MLLMs의 내부 시각 표현을 일치시키는 간단하면서도 효과적인 정규화 전략인 VIsual Representation ALignment (VIRAL)을 제안한다. 본 전략은 이러한 일치를 명시적으로 강제함으로써, 모델이 입력 시각 인코더로부터 중요한 시각 정보를 유지하는 동시에 VFMs로부터 추가적인 시각 지식을 보완할 수 있도록 한다. 이를 통해 복잡한 시각 입력에 대한 추론 능력이 향상된다. 실험 결과, 널리 사용되는 다중모달 벤치마크에서 모든 작업에 걸쳐 일관된 성능 향상이 확인되었다. 더불어, 본 프레임워크의 핵심 설계 선택 사항을 검증하기 위해 철저한 제거 실험(ablation studies)를 수행하였다. 본 연구는 단순한 발견이지만, MLLMs 훈련 시 시각 정보를 효과적으로 통합하는 데 중요한 방향성을 제시한다고 믿는다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

다중모달 대규모 언어 모델을 위한 시각적 표현 정렬 | 문서 | HyperAI초신경