HyperAIHyperAI

Command Palette

Search for a command to run...

意味認識型シーン認識

Alejandro López-Cifuentes Marcos Escudero-Viñolo Jesús Bescós Álvaro García-Martín

概要

シーン認識は現在、コンピュータビジョン分野における最も挑戦的な研究分野の一つである。その理由の一つは、クラス間の曖昧性に起因するものである。複数のシーンクラスの画像は、類似した物体を共有しており、これによりクラス間の混同が生じる。特に、特定のシーンクラスの画像が著しく異なる場合、この問題はさらに悪化する。畳み込みニューラルネットワーク(CNN)は、シーン認識における性能向上に大きく寄与しているものの、オブジェクト認識や画像認識といった他の認識タスクと比べて、依然として性能は大きく劣っている。本論文では、エンドツーエンドのマルチモーダルCNNを用いた新しいシーン認識アプローチを提案する。このアプローチは、アテンションモジュールを介して画像情報と文脈情報を統合する。文脈情報としてセマンティックセグメンテーションを用い、RGB画像から抽出された特徴量を、セマンティック表現にエンコードされた情報(シーンに含まれるオブジェクトやストッフ、およびそれらの相対的位置)に基づいてゲート処理する。このゲート処理により、代表的なシーンコンテンツの学習が強化され、CNNの受容場の焦点がそれらの領域へ再調整されることで、シーンの曖昧性の解消が図られる。本研究では、公開されている4つのデータセットを用いた実験により、提案手法が他の最先端手法を上回る性能を達成するとともに、ネットワークパラメータ数を大幅に削減できることを示した。本論文で使用したすべてのコードおよびデータは、https://github.com/vpulab/Semantic-Aware-Scene-Recognition にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています