6ヶ月前

概要

シーン認識は現在、コンピュータビジョン分野における最も挑戦的な研究分野の一つである。その理由の一つは、クラス間の曖昧性に起因するものである。複数のシーンクラスの画像は、類似した物体を共有しており、これによりクラス間の混同が生じる。特に、特定のシーンクラスの画像が著しく異なる場合、この問題はさらに悪化する。畳み込みニューラルネットワーク（CNN）は、シーン認識における性能向上に大きく寄与しているものの、オブジェクト認識や画像認識といった他の認識タスクと比べて、依然として性能は大きく劣っている。本論文では、エンドツーエンドのマルチモーダルCNNを用いた新しいシーン認識アプローチを提案する。このアプローチは、アテンションモジュールを介して画像情報と文脈情報を統合する。文脈情報としてセマンティックセグメンテーションを用い、RGB画像から抽出された特徴量を、セマンティック表現にエンコードされた情報（シーンに含まれるオブジェクトやストッフ、およびそれらの相対的位置）に基づいてゲート処理する。このゲート処理により、代表的なシーンコンテンツの学習が強化され、CNNの受容場の焦点がそれらの領域へ再調整されることで、シーンの曖昧性の解消が図られる。本研究では、公開されている4つのデータセットを用いた実験により、提案手法が他の最先端手法を上回る性能を達成するとともに、ネットワークパラメータ数を大幅に削減できることを示した。本論文で使用したすべてのコードおよびデータは、https://github.com/vpulab/Semantic-Aware-Scene-Recognition にて公開されている。

ソースPDF