Command Palette
Search for a command to run...
Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

초록
인지적으로 타당한 수준의 데이터로 시각-언어 모델을 훈련시키는 것은 다중모달 정보를 어떻게 통합할 것인지에 대한 재고가 필요하다. 2025년 베이비LM 챌린지의 비전 트랙 제한 조건 내에서, 우리는 다음과 같은 특징을 가진 경량 디코더 기반 아키텍처를 제안한다. (1) 언어적 및 시각적 신호의 적응형 융합을 위한 토큰 단위 동적 게이팅, (2) 제한된 시각 정보의 활용도를 극대화하기 위한 특징 조절과 채널 주의 메커니즘, 그리고 (3) 시각적 지문(visual grounding)을 위한 보조 대조적 목적 함수이다. BLiMP, BLiMP Supplement, EWoK, Winoground, VQA 등 다섯 가지 벤치마크에서의 평가 결과, 기존 다중모달 기준 모델들과 비교해 경쟁력 있거나 더 우수한 성능을 나타냈다. 특히 주목할 점은, 명시적 감독 없이도 동적 게이팅이 해석 가능한 패턴을 탐지하였으며, 내용어(content words)에는 시각적 신호를, 기능어(function words)에는 언어적 신호를 선호함을 보였다. 챌린지의 제약 조건(예: 전역 이미지 임베딩으로 인한 정보 병목 현상, 데이터셋 분할에 따른 훈련 불안정성 등)이 존재함을 확인했지만, 본 연구는 동적 게이팅이 제한된 환경에서도 효율적인 다중모달 학습을 위한 강력한 도구임을 입증하였으며, 해석 가능성과 성능을 동시에 제공함으로써, 엄격한 제약 조건 하에서도 뛰어난 잠재력을 보여주었다.