
コンボリューショナルニューラルネットワーク(CNN)は、さまざまなコンピュータビジョンタスクにおいて顕著な成功を収めてきたが、室内シーンの認識はその複雑な構成ゆえに依然として大きな課題を抱えている。したがって、シーン内の意味情報(セマンティック情報)を効果的に活用することは、室内シーン認識の進展において重要な課題となっている。しかし、現行のアプローチでは、セマンティックセグメンテーションの精度が制限要因となっており、意味情報の活用が主に補助ラベル付けや共起統計のレベルにとどまっている。その結果、シーン内の意味要素間の文脈的関係を直接的に探索する試みは依然として少ない。本論文では、シーン内部の意味情報から直接出発する「セマンティック領域関係モデル」(Semantic Region Relationship Model, SRRM)を提案する。具体的には、意味の曖昧性がもたらす悪影響を適応的かつ効率的に軽減するアプローチを採用し、セマンティック領域間の関係をモデル化することでシーン認識を実現する。さらに、シーンに含まれる情報をより包括的に活用するため、提案するSRRMをPlacesCNNモジュールと組み合わせ、統合的セマンティック領域関係モデル(Combined Semantic Region Relation Model, CSRRM)を構築した。また、両者の補完的な情報を効果的に探索するための新しい情報統合アプローチを提案した。CSRRMは、再トレーニングを行わずとも、MIT Indoor 67、縮小版Places365データセット、SUN RGB-Dの各データセットにおいて、既存の最先端(SOTA)手法を大きく上回る性能を達成した。コードは以下のURLで公開されている:https://github.com/ChuanxinSong/SRRM