Discord에서 논의하기

8달 전

텍스트에서 이미지 생성

이미지 설명

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan

초록

시각 콘텐츠의 이해와 생성을 동시에 수행할 수 있는 통합 다중모달 대규모 언어 모델(LLM)은 막대한 잠재력을 지닌다. 그러나 기존 오픈소스 모델들은 이러한 두 가지 능력 사이에 성능 상의 트레이드오프를 겪는 경향이 있다. 우리는 하이브리드 이미지 토크나이저와 철저하게 구성된 훈련 전략을 결합함으로써 이 갈등을 크게 완화하는 단순하고 확장 가능한 통합 프레임워크인 Manzano를 제안한다. 하나의 공통된 시각 인코더가 두 개의 경량 어댑터에 공급되며, 이는 공통적인 의미 공간 내에서 이미지-텍스트 이해를 위한 연속형 임베딩과 텍스트-이미지 생성을 위한 이산형 토큰을 생성한다. 통합된 자기회귀형 LLM은 텍스트와 이미지 토큰 형태로 고수준 의미를 예측하고, 보조적인 확산 디코더가 이미지 토큰을 픽셀로 변환한다. 이 아키텍처와 이해 및 생성 데이터에 대한 통합 훈련 전략을 결합함으로써, 두 능력의 확장 가능한 공동 학습이 가능해진다. Manzano는 통합 모델 중에서 최고 수준의 성능을 달성하며, 특히 텍스트 중심 평가에서 전문가 모델과 경쟁력을 갖추고 있다. 우리의 연구 결과는 작업 간 충돌이 최소화되었으며, 모델 크기를 확장할수록 일관된 성능 향상이 이루어짐을 보여주며, 하이브리드 토크나이저를 채택한 설계 선택의 타당성을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

8달 전

텍스트에서 이미지 생성

이미지 설명

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan

초록

시각 콘텐츠의 이해와 생성을 동시에 수행할 수 있는 통합 다중모달 대규모 언어 모델(LLM)은 막대한 잠재력을 지닌다. 그러나 기존 오픈소스 모델들은 이러한 두 가지 능력 사이에 성능 상의 트레이드오프를 겪는 경향이 있다. 우리는 하이브리드 이미지 토크나이저와 철저하게 구성된 훈련 전략을 결합함으로써 이 갈등을 크게 완화하는 단순하고 확장 가능한 통합 프레임워크인 Manzano를 제안한다. 하나의 공통된 시각 인코더가 두 개의 경량 어댑터에 공급되며, 이는 공통적인 의미 공간 내에서 이미지-텍스트 이해를 위한 연속형 임베딩과 텍스트-이미지 생성을 위한 이산형 토큰을 생성한다. 통합된 자기회귀형 LLM은 텍스트와 이미지 토큰 형태로 고수준 의미를 예측하고, 보조적인 확산 디코더가 이미지 토큰을 픽셀로 변환한다. 이 아키텍처와 이해 및 생성 데이터에 대한 통합 훈련 전략을 결합함으로써, 두 능력의 확장 가능한 공동 학습이 가능해진다. Manzano는 통합 모델 중에서 최고 수준의 성능을 달성하며, 특히 텍스트 중심 평가에서 전문가 모델과 경쟁력을 갖추고 있다. 우리의 연구 결과는 작업 간 충돌이 최소화되었으며, 모델 크기를 확장할수록 일관된 성능 향상이 이루어짐을 보여주며, 하이브리드 토크나이저를 채택한 설계 선택의 타당성을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

만자노: 하이브리드 비전 토큰라이저를 갖춘 간단하고 확장 가능한 통합 다중모달 모델 | 문서 | HyperAI초신경