2ヶ月前

FOSNet: シーン認識のためのエンドツーエンドで学習可能な深層ニューラルネットワーク

Hongje Seong; Junhyuk Hyun; Euntai Kim
FOSNet: シーン認識のためのエンドツーエンドで学習可能な深層ニューラルネットワーク
要約

シーン認識は、画像が撮影された場所のカテゴリーを予測することを目指す画像認識の問題である。本論文では、畳み込みニューラルネットワーク(CNN)を使用した新しいシーン認識手法を提案する。提案手法は、与えられた画像内の物体情報とシーン情報の融合に基づいており、CNNフレームワークはFOS(fusion of object and scene)Netと名付けられている。さらに、FOSNetの学習とシーン認識性能の向上のために、新しい損失関数であるシーン一貫性損失(SCL: scene coherence loss)を開発した。提案されたSCLは、「シーネネス」(sceneness)が広がり、画像全体でシーンクラスが変化しないというシーンの独自の特性に基づいている。提案されたFOSNetは、最も人気のある3つのシーン認識データセットで実験され、2つのデータセットにおいて最先端の性能を達成した:Places 2では60.14%、MIT室内67では90.37%である。また、SUN 397においては第2位の性能である77.28%を達成した。

FOSNet: シーン認識のためのエンドツーエンドで学習可能な深層ニューラルネットワーク | 最新論文 | HyperAI超神経