Command Palette

Search for a command to run...

16일 전

픽셀에서 단어로 — 대규모 환경에서의 원천적 시각-언어 원시적 요소로의 도전

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

픽셀에서 단어로 — 대규모 환경에서의 원천적 시각-언어 원시적 요소로의 도전

초록

내비브 비전-언어 모델(Native Vision-Language Models, VLMs)은 진화하는 모델 아키텍처와 훈련 패러다임에 따라, 전통적인 모듈형 VLMs에 대한 주목받는 대안으로 부상하고 있다. 그러나 이 모델의 광범위한 탐색과 확산을 둘러싼 두 가지 지속적인 도전 과제가 여전히 남아 있다. 첫째, 내비브 VLMs가 모듈형 모델과 구분되는 근본적인 제약 조건은 무엇이며, 이러한 장벽은 어느 정도 극복될 수 있는가? 둘째, 내비브 VLM 연구를 어떻게 더 접근 가능하고 민주화할 수 있을까? 이를 통해 분야 내 발전을 가속화할 수 있는가? 본 논문에서는 이러한 과제를 명확히 하고, 내비브 VLM을 구축하기 위한 지침 원칙을 제시한다. 구체적으로, 하나의 내비브 VLM 원천(primitive)은 다음 세 가지 조건을 충족해야 한다: (i) 공통된 의미 공간 내에서 픽셀 표현과 단어 표현을 효과적으로 정렬해야 한다; (ii) 이전에 별도로 존재하던 비전 및 언어 모듈의 강점을 원활하게 통합해야 한다; (iii) 통합된 비전-언어 인코딩, 정렬, 추론을 지원하는 다양한 교차 모달 특성을 내재적으로 구현해야 한다. 따라서 우리는 이러한 기본 원칙에 기반해 새로운 내비브 VLM 계열인 NEO를 제안한다. NEO는 다양한 실제 시나리오에서 최상위 수준의 모듈형 대안과 경쟁 가능한 성능을 발휘할 수 있으며, 단 390만 개의 이미지-텍스트 예시만으로도 시각 인지 능력을 처음부터 효율적으로 학습한다. 또한, 복잡하고 단일 구조의 모델 내에서 시각-언어 간 충돌을 최소화하는 데 성공했다. 우리는 NEO를 확장 가능하고 강력한 내비브 VLM의 기반으로 위치지으며, 재사용 가능한 풍부한 구성 요소들을 제공함으로써 비용 효율적이고 확장 가능한 생태계를 조성할 수 있도록 했다. 본 연구의 코드와 모델은 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/EvolvingLMMs-Lab/NEO.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
픽셀에서 단어로 — 대규모 환경에서의 원천적 시각-언어 원시적 요소로의 도전 | 연구 논문 | HyperAI초신경