
要約
本論文では、単一の基本的なアーキテクチャを使用して3つの異なるコンピュータビジョンタスクに取り組みます:深さ予測、表面法線推定、およびセマンティックラベリング。これらのタスクに対応するためには、小さな変更のみで容易に適応できるマルチスケール畳み込みネットワークを用います。入力画像から出力マップへ直接回帰を行うことで、各タスクに対応しています。当方法は、スケールの系列を用いて予測を段階的に洗練し、スーパーピクセルや低レベルセグメンテーションを用いずに多くの画像詳細を捉えます。結果として、3つのタスク全てにおいて最新のベンチマークで最先端の性能を達成しました。