Command Palette

Search for a command to run...

3달 전

메테오르: 대규모 언어 및 비전 모델을 위한 리터럴 탐색을 위한 맴바 기반 접근법

Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

메테오르: 대규모 언어 및 비전 모델을 위한 리터럴 탐색을 위한 맴바 기반 접근법

초록

대규모 언어 및 비전 모델(LLVMs)의 급속한 발전은 시각적 지시 조정(visual instruction tuning)의 진보에 기인하고 있다. 최근 공개 소스 LLVMs는 고품질의 시각적 지시 조정 데이터셋을 수집하고, 추가적인 비전 인코더나 다수의 컴퓨터 비전 모델을 활용함으로써 고성능 폐쇄형 LLVMs와의 성능 격차를 좁히는 데 성공하였다. 이러한 발전은 다양한 능력을 갖추기 위해 요구되는 다각적 정보, 즉 기본적인 이미지 이해, 일상적인 상식 및 객체가 아닌 개념(예: 차트, 다이어그램, 기호, 표지판, 수학 문제 등)에 관한 현실 세계 지식, 그리고 복잡한 질문을 해결하기 위한 단계별 절차를 포함한다. 이러한 다각적 정보를 기반으로, 우리는 새로운 효율적인 LLVM인 Mamba 기반의 추론 경로 탐색(Meteor)을 제안한다. 이 모델은 다각적 추론을 활용하여 이해 및 답변 능력을 향상시킨다. 풍부한 정보를 포함하는 긴 추론을 임베딩하기 위해, 선형 시간 복잡도로 순차적 데이터를 처리할 수 있는 Mamba 아키텍처를 사용한다. 또한 추론의 탐색(traversal of rationale)이라는 새로운 개념을 도입하여 추론을 효율적으로 임베딩할 수 있도록 한다. 이후 백본 다중모달 언어 모델(Multimodal Language Model, MLM)은 추론을 활용하여 답변을 생성하도록 학습된다. 이러한 절차를 통해 Meteor는 모델 크기 확장 없이도 추가적인 비전 인코더나 컴퓨터 비전 모델을 사용하지 않고도, 다양한 능력을 요구하는 다수의 평가 벤치마크에서 시각-언어 성능에서 두드러진 개선을 달성하였다.

코드 저장소

byungkwanlee/meteor
공식
pytorch
GitHub에서 언급됨

벤치마크

벤치마크방법론지표
visual-question-answering-on-mm-vetMeteor
GPT-4 score: 57.3
Params: 7B

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
메테오르: 대규모 언어 및 비전 모델을 위한 리터럴 탐색을 위한 맴바 기반 접근법 | 연구 논문 | HyperAI초신경