2ヶ月前
L-Verse: 画像とテキストの双方向生成
Taehoon Kim; Gwangmo Song; Sihaeng Lee; Sangyun Kim; Yewon Seo; Soonyoung Lee; Seung Hwan Kim; Honglak Lee; Kyunghoon Bae

要約
自然言語の長距離相互作用を学習するだけでなく、トランスフォーマーはその力とスケーラビリティにより、多くのビジョンタスクにおいて事実上の標準となっています。特に画像とテキスト間のクロスモーダルタスクでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)が広く使用されており、生のRGB画像を特徴ベクトルの系列に変換するために活用されています。画像とテキストの相関関係をより効果的に利用するために、私たちはL-Verseという新しいアーキテクチャを提案します。このアーキテクチャは、特徴量強化型変分オートエンコーダ(AugVAE)と双方向自己回帰トランスフォーマー(BiART)から構成され、画像からテキストへの生成やテキストから画像への生成に使用されます。私たちのAugVAEはImageNet1K検証セットで最先端の再構築性能を示しており、未知の画像に対する堅牢性も確認されています。他のモデルとは異なり、BiARTは画像(またはテキスト)を条件付き参照として区別し、生成目標として扱うことができます。L-Verseは微調整や追加の物体検出フレームワークなしで直接画像からテキストへの生成やテキストから画像への生成に使用できます。MS-COCOキャプションでの定量的および定性的実験において、L-Verseは両方のタスクで以前の手法に対して印象的な結果を示しています。さらに、L-VerseアーキテクチャのスケーラビリティをConceptual Captionsで評価し、一般ドメインにおける双方向ビジョン言語表現学習の初期結果を提示しています。