
要約
地平線は、コンピュータビジョンにおける画像処理やシーン理解の多くのタスクにおいて重要な幾何学的特徴です。例えば、自動車の自律走行やドライバー支援では、3D再構築の精度向上や動的環境の意味論的解釈に利用することができます。単一画像に対するアルゴリズムとデータセットは存在していますが、ビデオシーケンスからの地平線推定という問題には十分な注目が払われていませんでした。本論文では、畳み込みニューラルネットワーク(CNN)がビデオシーケンスによって課される時間的一貫性を活用し、地平線推定の精度を向上させ、分散を低減する方法を示します。時間的に一貫した地平線推定のために、改良された残差畳み込みLSTMを使用した新しいCNNアーキテクチャを提案します。また、安定した学習と正確な結果を確保するための適応的な損失関数も提案します。さらに、72のビデオシーケンスにわたる43699枚の画像に対して精密な地平線ラベルが含まれるKITTIデータセットの拡張版を紹介します。包括的な評価により、提案手法が既存手法よりも一貫して優れた性能を達成することが確認されました。