
要約
単眼画像の連続シーケンスから3次元シーンフローを推定する手法は、シンプルで経済的なデータ収集セットアップが可能なことから、近年注目が集まっている。しかしながら、この問題は極めて不適切(ill-posed)であるため、現行の手法の精度は限界に達しており、特に効率的かつリアルタイム処理が可能な手法においてその限界が顕著である。本論文では、自己教師学習(self-supervised learning)に基づくマルチフレーム単眼シーンフローネットワークを提案する。従来のネットワークを上回る精度を実現しつつも、リアルタイム処理の効率性を維持している。高度な二フレームベースライン(split-decoder構造を採用)を基盤として、本研究では以下の三つの貢献を提示する:(i) 三フレーム入力と畳み込みLSTM(convolutional LSTM)接続を用いたマルチフレームモデル、(ii) 隠蔽領域(occlusion)を考慮したセンサス損失(occlusion-aware census loss)により精度の向上を図る、(iii) 学習の安定性を高めるための勾配分離戦略(gradient detaching strategy)。KITTIデータセットにおける実験結果から、自己教師学習に基づく単眼シーンフロー手法の中で、最先端の精度を達成した。