Command Palette

Search for a command to run...

한 달 전

학습을 향해: 저자원 시각-언어 모델링을 위한 토큰별 동적 게이팅

Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

학습을 향해: 저자원 시각-언어 모델링을 위한 토큰별 동적 게이팅

초록

인지적으로 타당한 수준의 데이터로 시각-언어 모델을 훈련시키는 것은 다중모달 정보를 어떻게 통합할 것인지에 대한 재고가 필요하다. 2025년 베이비LM 챌린지의 비전 트랙 제한 조건 내에서, 우리는 다음과 같은 특징을 가진 경량 디코더 기반 아키텍처를 제안한다. (1) 언어적 및 시각적 신호의 적응형 융합을 위한 토큰 단위 동적 게이팅, (2) 제한된 시각 정보의 활용도를 극대화하기 위한 특징 조절과 채널 주의 메커니즘, 그리고 (3) 시각적 지문(visual grounding)을 위한 보조 대조적 목적 함수이다. BLiMP, BLiMP Supplement, EWoK, Winoground, VQA 등 다섯 가지 벤치마크에서의 평가 결과, 기존 다중모달 기준 모델들과 비교해 경쟁력 있거나 더 우수한 성능을 나타냈다. 특히 주목할 점은, 명시적 감독 없이도 동적 게이팅이 해석 가능한 패턴을 탐지하였으며, 내용어(content words)에는 시각적 신호를, 기능어(function words)에는 언어적 신호를 선호함을 보였다. 챌린지의 제약 조건(예: 전역 이미지 임베딩으로 인한 정보 병목 현상, 데이터셋 분할에 따른 훈련 불안정성 등)이 존재함을 확인했지만, 본 연구는 동적 게이팅이 제한된 환경에서도 효율적인 다중모달 학습을 위한 강력한 도구임을 입증하였으며, 해석 가능성과 성능을 동시에 제공함으로써, 엄격한 제약 조건 하에서도 뛰어난 잠재력을 보여주었다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
학습을 향해: 저자원 시각-언어 모델링을 위한 토큰별 동적 게이팅 | 연구 논문 | HyperAI초신경