16日前
FreDSNet:高速フーリエ畳み込みを用いた単眼深度推定とセマンティックセグメンテーションの同時推定
Bruno Berenguel-Baeta, Jesus Bermudez-Cameo, Jose J. Guerrero

要約
本研究では、単一のパノラマ画像から室内環境の意味的3次元理解を実現する深層学習手法であるFreDSNetを提案する。オムニディレクショナル画像は、環境全体に対する360度の文脈情報を提供するため、シーン理解の課題解決において特有の利点を有している。しかし、オムニディレクショナル画像固有の特性により、物体の正確な検出・セグメンテーションや良好な深度推定を実現することが困難な問題が生じる。この課題を克服するため、周波数領域における畳み込みを活用することで、各畳み込み層における受容 field を広げた。このアプローチにより、オムニディレクショナル画像に含まれる全体的な文脈情報を効果的に活用できる。FreDSNetは、高速フーリエ畳み込みを用いて、単一のパノラマ画像からモノクロナル深度推定と意味的セグメンテーションを同時に実現する初のネットワークである。実験の結果、FreDSNetは意味的セグメンテーションおよび深度推定において、従来の最先端手法と同等の性能を達成することが明らかになった。FreDSNetのコードは、https://github.com/Sbrunoberenguel/FreDSNet にて公開されている。