16日前

より良い一般化のため:PoseNetを用いない同時深度・姿勢学習

Wang Zhao, Shaohui Liu, Yezhi Shu, Yong-Jin Liu
より良い一般化のため:PoseNetを用いない同時深度・姿勢学習
要約

本研究では、自己教師付き同時深度・ポーズ推定におけるスケール不整合という根本的な問題に取り組む。既存の大多数の手法は、すべての入力サンプルにおいて深度とポーズのスケールが一貫して学習可能であると仮定しているが、この仮定は学習問題を難しくし、室内環境や長時間視覚オドメトリ(visual odometry)アプリケーションにおいて性能の低下と一般化能力の制限を引き起こす。この問題に対処するため、我々はネットワークによる推定からスケールを明示的に分離する新しいシステムを提案する。PoseNetアーキテクチャに依存するのではなく、本手法は密な光流(dense optical flow)対応関係から基本行列(fundamental matrix)を直接解くことで相対姿勢を復元し、2視点トリアングレーションモジュールを用いてスケール不確定な3次元構造を復元する。その後、得られたトリアングレート点群と深度予測のスケールを一致させ、変換された深度マップを用いて深度誤差の計算および密な再投影チェックを行う。本システムは全体としてエンドツーエンドで共同学習が可能である。広範な実験の結果、本手法はKITTIの深度および光流推定において最先端の性能を達成するだけでなく、さまざまな困難なシナリオ下で既存の自己教師付き深度・ポーズ学習手法の一般化能力を顕著に向上させ、KITTIオドメトリおよびNYUv2データセットにおいて自己教師付き学習ベースの手法の中で最先端の結果を達成した。さらに、PoseNetに基づく相対姿勢推定手法の一般化能力における限界について、いくつか興味深い知見を提示する。コードは https://github.com/B1ueber2y/TrianFlow で公開されている。

より良い一般化のため:PoseNetを用いない同時深度・姿勢学習 | 最新論文 | HyperAI超神経