
要約
単一のパノラマ画像から3次元の部屋レイアウトを予測する新たなエンド・トゥ・エンドアプローチを提案する。最近の最先端手法と比較して、本手法はマンハッタン・ワールド(Manhattan World)環境に限定されず、直角をなさない垂直な壁や曲面を有する部屋——すなわちアトランタ・ワールド(Atlanta World)モデルに従う部屋——の再構成も可能である。本手法では、元の重力方向に整列したパノラマ画像を、カメラの上方と下方に位置する2つの水平面に投影する。この表現形式により、床面図上の2次元の部屋フットプリントと部屋の高さという形で、アトランタ・ワールドの3次元境界面を復元するためのすべての情報が符号化される。3次元レイアウトの予測にあたっては、長距離の幾何学的パターンを捉えるために再帰型ニューラルネットワーク(RNN)を活用し、ドメイン固有の知識に基づくカスタマイズされた学習戦略を採用したエンコーダ・デコーダ型のニューラルネットワークアーキテクチャを提案する。実験結果から、特に複雑な壁配置や曲線状の壁フットプリントを持つケースにおいて、既存の最先端手法を上回る予測精度を達成することが示された。