17日前
GRIT:二重視覚特徴を用いた高速かつ高精度な画像キャプション生成Transformer
Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani

要約
画像キャプション生成における現在の最先端手法は、オブジェクトレベルの情報を提供するため、領域ベースの特徴量を活用している。このような特徴量は、Faster R-CNNなどのオブジェクト検出器によって抽出されることが一般的である。しかし、これらの手法には、文脈情報の欠如、誤検出のリスク、高コストな計算負荷といった課題が存在する。前二者の問題は、グリッドベースの特徴量を併用することで解決できる可能性がある。しかしながら、これらの二種類の特徴量をどのように抽出し、融合するかについては、まだ明確な手法が確立されていない。本論文では、グリッド特徴量と領域特徴量の両方を効果的に活用してより優れたキャプションを生成する、Transformerのみで構成されたニューラルアーキテクチャ「GRIT(Grid- and Region-based Image captioning Transformer)」を提案する。GRITは従来のCNNベースの検出器の代わりにDETRベースの検出器を採用することで、計算速度を大幅に向上させている。さらに、Transformerのみで構成される一貫性のある設計により、モデルのエンドツーエンド学習が可能となる。この革新的なアーキテクチャと二種類の視覚特徴量の統合により、顕著な性能向上が達成された。複数の画像キャプションベンチマークにおける実験結果から、GRITは従来手法に比べて推論精度および速度の両面で優れた性能を示した。