17日前

ClipCap:画像キャプション生成のためのCLIPプレフィックス

Ron Mokady, Amir Hertz, Amit H. Bermano
ClipCap:画像キャプション生成のためのCLIPプレフィックス
要約

画像キャプション生成は、視覚言語理解における基本的なタスクであり、入力画像に対して意味のあるテキスト形式のキャプションを予測するものである。本論文では、このタスクに取り組むためのシンプルなアプローチを提示する。我々は、単純なマッピングネットワークを用いてCLIPのエンコーディングをキャプションのプレフィックスとして用い、その後、言語モデルを微調整して画像キャプションを生成する。最近提案されたCLIPモデルは、テキスト文脈とともに学習された豊富な意味的特徴を備えており、視覚言語認識において非常に有効である。本研究の核心的なアイデアは、事前学習済みの言語モデル(GPT2)と組み合わせることで、視覚的データおよびテキストデータの両方に対する広範な理解を獲得できる点にある。その結果、本手法は比較的短時間の訓練で、十分な性能を持つキャプション生成モデルを構築可能である。追加のアノテーションや事前学習を必要とせず、大規模かつ多様なデータセットに対して意味のあるキャプションを効率的に生成できる。驚くべきことに、マッピングネットワークのみを訓練し、CLIPモデルおよび言語モデルを固定した状態でも本手法は良好な性能を発揮する。これにより、トレーニング可能なパラメータ数が少なく、軽量なアーキテクチャが実現可能となる。定量的評価を通じて、本モデルが挑戦的なConceptual Captionsおよびnocapsデータセットにおいて、最先端の手法と同等の性能を達成していることを示した。一方で、本手法は構造が単純で、高速かつ軽量である。コードは以下のURLで公開されている:https://github.com/rmokady/CLIP_prefix_caption。

ClipCap:画像キャプション生成のためのCLIPプレフィックス | 最新論文 | HyperAI超神経