13日前

意味認識型シーン認識

Alejandro López-Cifuentes, Marcos Escudero-Viñolo, Jesús Bescós, Álvaro García-Martín
意味認識型シーン認識
要約

シーン認識は現在、コンピュータビジョン分野における最も挑戦的な研究分野の一つである。その理由の一つは、クラス間の曖昧性に起因するものである。複数のシーンクラスの画像は、類似した物体を共有しており、これによりクラス間の混同が生じる。特に、特定のシーンクラスの画像が著しく異なる場合、この問題はさらに悪化する。畳み込みニューラルネットワーク(CNN)は、シーン認識における性能向上に大きく寄与しているものの、オブジェクト認識や画像認識といった他の認識タスクと比べて、依然として性能は大きく劣っている。本論文では、エンドツーエンドのマルチモーダルCNNを用いた新しいシーン認識アプローチを提案する。このアプローチは、アテンションモジュールを介して画像情報と文脈情報を統合する。文脈情報としてセマンティックセグメンテーションを用い、RGB画像から抽出された特徴量を、セマンティック表現にエンコードされた情報(シーンに含まれるオブジェクトやストッフ、およびそれらの相対的位置)に基づいてゲート処理する。このゲート処理により、代表的なシーンコンテンツの学習が強化され、CNNの受容場の焦点がそれらの領域へ再調整されることで、シーンの曖昧性の解消が図られる。本研究では、公開されている4つのデータセットを用いた実験により、提案手法が他の最先端手法を上回る性能を達成するとともに、ネットワークパラメータ数を大幅に削減できることを示した。本論文で使用したすべてのコードおよびデータは、https://github.com/vpulab/Semantic-Aware-Scene-Recognition にて公開されている。