3ヶ月前

インスタンスとシーンをイン・ザ・ループで統合した意味的シーン補完

Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan-Yee Lin, Xiaogang Wang, Hongsheng Li
インスタンスとシーンをイン・ザ・ループで統合した意味的シーン補完
要約

セマンティックシーン補完(Semantic Scene Completion)は、単一視点の深度画像またはRGBD画像から、正確なボクセル単位の意味情報を有する完全な3Dシーンを再構成することを目的としている。これは屋内シーン理解において極めて重要でありながらも、困難な課題である。本研究では、インスタンスレベルおよびシーンレベルの両方のセマンティック情報を活用する新しいフレームワークである「Scene-Instance-Scene Network(SISNet)」を提案する。本手法は、意味カテゴリが混同しやすい近接物体の細粒度の形状詳細を推論する能力を有している。本研究の鍵となる洞察は、入力画像そのものではなく、粗いレベルで補完されたセマンティックシーンからインスタンスを分離することにより、インスタンスと全体シーンの再構成をガイドすることにある。SISNetは、シーンからインスタンスへの(SI)およびインスタンスからシーンへの(IS)反復的セマンティック補完を実行する。具体的には、SIプロセスにより、物体の周囲環境情報を効果的にエンコードし、シーンからインスタンスを分離可能となる。また、各インスタンスはより高い解像度のボクセル表現に変換され、細部を捉えることが可能となる。一方、ISプロセスにより、細粒度のインスタンス情報を3Dシーンに再統合し、より正確なセマンティックシーン補完を実現する。このような反復メカニズムを用いることで、シーン補完とインスタンス補完が相互に補完し合い、より高い補完精度を達成する。広範な実験結果から、本手法は実データ(NYU、NYUCAD)および合成データ(SUNCG-RGBD)の両方において、最先端手法を一貫して上回ることが示された。コードおよび補足資料は、\url{https://github.com/yjcaimeow/SISNet}にて公開される予定である。