2달 전

L-Verse: 이미지와 텍스트 간 양방향 생성

Taehoon Kim; Gwangmo Song; Sihaeng Lee; Sangyun Kim; Yewon Seo; Soonyoung Lee; Seung Hwan Kim; Honglak Lee; Kyunghoon Bae
L-Verse: 이미지와 텍스트 간 양방향 생성
초록

자연어의 장거리 상호작용을 학습하는 것 이상으로, 트랜스포머는 그 강력함과 확장성으로 인해 많은 시각적 작업에서 사실상의 표준이 되고 있습니다. 특히 이미지와 텍스트 간의 크로스 모달 작업에서 벡터 양자화 변분 오토인코더(VQ-VAE)가 원시 RGB 이미지를 특징 벡터 시퀀스로 변환하기 위해 널리 사용되고 있습니다. 이미지와 텍스트 사이의 상관관계를 더 잘 활용하기 위해, 우리는 L-Verse라는 새로운 아키텍처를 제안합니다. 이 아키텍처는 특징 증강 변분 오토인코더(AugVAE)와 양방향 자동 회귀 트랜스포머(BiART)로 구성되어 이미지-텍스트 생성과 텍스트-이미지 생성에 사용됩니다. 우리의 AugVAE는 ImageNet1K 검증 세트에서 최신 수준의 재구성 성능을 보여주며, 야외에서 본 적 없는 이미지에 대한 견고성을 갖추고 있습니다. 다른 모델들과 달리, BiART는 이미지(또는 텍스트)를 조건부 참조와 생성 대상으로 구별할 수 있습니다. L-Verse는 미세 조정(finetuning)이나 추가적인 객체 감지 프레임워크 없이도 직접 이미지-텍스트 또는 텍스트-이미지 생성에 사용될 수 있습니다. MS-COCO 캡션 데이터셋에서의 정량적 및 정성적 실험 결과, L-Verse는 이미지-텍스트 생성과 텍스트-이미지 생성 모두에서 기존 방법들보다 뛰어난 성능을 보였습니다. 또한 우리는 L-Verse 아키텍처의 확장성을 Conceptual Captions 데이터셋에서 평가하고 일반 도메인에서의 양방향 시각-언어 표현 학습 초기 결과를 제시합니다.

L-Verse: 이미지와 텍스트 간 양방향 생성 | 최신 연구 논문 | HyperAI초신경