
要約
私たちは、室内360度パノラマの包括的理解に使用されるLatent Horizontal Feature(LHFeat)を用いた多機能かつ効率的なフレームワークであるHoHoNetを提案します。コンパクトなLHFeatは特徴量を垂直方向に平滑化し、部屋のレイアウト再構築における列単位のモダリティモデリングで成功を収めています。HoHoNetは以下の2つの重要な点で進歩しています。第一に、深層アーキテクチャが再設計され、より高速に動作し精度も向上しました。第二に、新しいhorizon-to-denseモジュールを提案しており、これにより列単位の出力形状制約が緩和され、LHFeatからピクセル単位での高密度予測が可能になりました。HoHoNetは高速です:ResNet-50とResNet-34バックボーンを使用して、高解像度の$512 \times 1024$パノラマから密集したモダリティをモデル化する際には、それぞれ52 FPSと110 FPSで動作します。また、HoHoNetは精度も高いです。レイアウト推定とセマンティックセグメンテーションのタスクにおいて、HoHoNetは現行の最先端技術と同等の結果を達成しています。密集深度推定では、HoHoNetはこれまでのすべての先行研究よりも大幅に優れた性能を示しています。