
要約
画像キャプション生成タスクにおいて、学習時にCLIPモデルと追加のテキストデータのみを使用し、追加のキャプション付き画像は使用しない方法を検討します。当方針は、CLIPが視覚的埋め込みとテキスト的埋め込みを類似させるように訓練されているという事実に依存しています。したがって、CLIPのテキスト的埋め込みをテキストに戻す方法を学ぶだけでよく、これは凍結されたCLIPテキストエンコーダーのデコーダーを学習することで達成できます。しかし、この直感は「ほぼ正確」であり、それは埋め込み空間間のギャップがあるためです。そこで、学習中にノイズ注入を行うことでこのギャップを修正することを提案します。我々は4つのベンチマーク(スタイル転送も含む)で最先端のゼロショット画像キャプション生成を示すことで、当方針の有効性を証明します。コード、データ、およびモデルはGitHub上で公開されています。