
要約
私たちは、画像内の注目すべき領域を自然言語で局所化および説明する必要がある密なキャプショニングタスクを紹介します。この密なキャプショニングタスクは、説明が単一の単語で構成される場合、物体検出を一般化し、予測された1つの領域が全体の画像をカバーする場合、画像キャプショニングに対応します。局所化と説明タスクを統合して処理するために、私たちは単一の効率的な前向きパスで画像を処理し、外部の領域提案を必要とせず、最適化の一回のループでエンドツーエンドで学習できる完全畳み込み局所化ネットワーク(FCLN)アーキテクチャを提案します。このアーキテクチャは、畳み込みニューラルネットワーク(Convolutional Network)、新しい密な局所化層(dense localization layer)、およびラベルシーケンスを生成する再帰型ニューラルネットワーク言語モデル(Recurrent Neural Network language model)から構成されています。私たちはVisual Genomeデータセット上でネットワークを評価しました。このデータセットには94,000枚の画像と4,100,000個の領域基準のキャプションが含まれています。生成設定と検索設定の両方において、現在の最先端アプローチに基づくベースラインと比較して、速度と精度の向上が観察されました。