17日前

MiniNet:リアルタイム非教師あり単眼深度推定のための極めて軽量な畳み込みニューラルネットワーク

Jun Liu, Qing Li, Rui Cao, Wenming Tang, Guoping Qiu
MiniNet:リアルタイム非教師あり単眼深度推定のための極めて軽量な畳み込みニューラルネットワーク
要約

単一画像からの深度推定は、機械が世界をよりよく認識できるよう、もう一つの次元の情報を提供するため、魅力的な研究テーマである。近年、深層学習が単眼深度推定において有効な手法として登場している。一方で、ラベル付きデータの取得には費用がかかるため、近年のトレンドとして、教師あり学習から教師なし学習への移行が進んでおり、単眼深度推定の実現が進められている。しかし、高い深度推定精度を達成できる大多数の教師なし学習手法は、深層ネットワークアーキテクチャを必要とし、ストレージやメモリ容量が限られた組み込みデバイス上で実行するには過度に重く複雑になってしまう。この問題に対処するために、我々は再帰モジュールを組み込んだ新たな強力なネットワークを提案する。このネットワークは深層ネットワークに匹敵する性能を実現しつつ、実時間かつ高精度な動画シーケンスからの教師なし単眼深度推定を可能にする極めて軽量なサイズを維持している。さらに、関連するエンコーダ層からの特徴を効率的に融合し、モデルパラメータ数を最小限に抑えつつ特徴マップの空間サイズを回復する新しい効率的なアップサンプルブロックも提案する。本手法の有効性はKITTIデータセットを用いた広範な実験により検証された。提案モデルは単一GPU上で約110フレーム/秒(fps)、単一CPU上で37fps、Raspberry Pi 3上で2fpsの速度で実行可能であり、最先端モデルと比較して、モデルパラメータ数がほぼ33分の1にまで削減されたにもかかわらず、より高い深度推定精度を達成している。筆者らの知る限り、本研究は、実時間で教師なし単眼深度推定を実現するための極めて軽量なニューラルネットワークとして、単眼動画シーケンス上で学習された最初のモデルであり、低コストの組み込みデバイス上に深層学習に基づくリアルタイムな教師なし単眼深度推定を実装する可能性を開くものである。