ZeroFlow: Distillationを用いたスケーラブルなシーンフロー

シーンフロー推定は、時間的に連続する点群間の3次元運動場を記述するタスクである。最先端の手法では強力な事前情報とテスト時の最適化技術が使用されるが、フルサイズの点群を処理するために数十秒かかるため、リアルタイムアプリケーション(例:オープンワールドオブジェクト検出)でのコンピュータビジョンプリミティブとして使用することはできない。一方、フィードフォワード手法は大幅に高速で、フルサイズの点群に対して数十〜数百ミリ秒で動作するが、高価な人的監督が必要となる。これらの制限に対処するために、我々は「Scene Flow via Distillation」(シーンフローバイディスティレーション)と呼ばれる単純かつ拡張可能なディスティレーションフレームワークを提案する。このフレームワークでは、ラベルなしの最適化方法を使用して疑似ラベルを作成し、フィードフォワードモデルの教師あり学習を行う。我々が提案したこのフレームワークの具体例であるZeroFlowは、Argoverse 2 自教師シーンフローチャレンジにおいて最新の性能を達成しながら、完全に人的ラベルなしで大規模かつ多様な未ラベルデータでのみ訓練することで高い成果を上げている。テスト時には、フルサイズの点群に対してラベルなしの最新最適化ベース手法よりも1000倍以上高速(34 FPS 対 0.028 FPS)であり、未ラベルデータでの訓練コストも人的アノテーションに比べて1000倍以上安価(\$394 対 約 \$750,000)である。さらなる研究を促進するため、我々はコード、学習済みモデルの重み、およびArgoverse 2 とWaymo Openデータセット用の高品質な疑似ラベルをhttps://vedder.io/zeroflow.htmlにて公開している。