2ヶ月前
非対称アノテーションを使用したリアルタイムの同時セマンティックセグメンテーションと深度推定
Vladimir Nekrasov; Thanuja Dharmasiri; Andrew Spek; Tom Drummond; Chunhua Shen; Ian Reid

要約
ロボット工学における深層学習モデルの展開は、一般的なGPUカードを使用しても難易度が高いタスクである。本研究では、その中でも特に以下の3つの課題に焦点を当てている。すなわち、i) 単一のモデルで複数のタスクを同時に実行するための適応(本研究では、シーンの幾何学的および意味的な理解に不可欠な深度推定とセマンティックセグメンテーションを考慮している)、ii) リアルタイムでの処理、iii) 各モダリティごとに注釈数が異なる非対称データセットの使用である。最初の2つの課題を克服するために、最近提案されたリアルタイムセマンティックセグメンテーションネットワークを適応させ、さらに浮動小数点演算の回数を削減する変更を行った。第3の課題に対しては、強力な「教師」ネットワークへのアクセスがあるという前提のもとで、ハード知識蒸留に基づく単純な解決策を採用した。我々のシステムは簡単に拡張でき、単一のモデルで複数のタスクやデータセットを同時に処理できることが示されている。具体的には、屋内と屋外での深度推定とセグメンテーションを同一モデルで行うことができる。定量的に評価すると、640x480入力に対して1回の順方向伝播が13ミリ秒と6.5 GFLOPsしかかからないにもかかわらず、現在の最先端アプローチに匹敵する(またはそれ以上の)結果を得ている。この効率性により、我々のネットワークからの原始的な予測結果を直接SemanticFusionフレームワークに組み込むことができ、シーンの高密度3Dセマンティック再構築が可能となる。