2ヶ月前

PAD-Net: 同時深度推定とシーン解析のためのマルチタスクガイダンス予測およびディスティレーションネットワーク

Dan Xu; Wanli Ouyang; Xiaogang Wang; Nicu Sebe
PAD-Net: 同時深度推定とシーン解析のためのマルチタスクガイダンス予測およびディスティレーションネットワーク
要約

深度推定とシーン解析は、視覚的なシーン理解における二つの特に重要なタスクである。本論文では、これらのタスクを同時に行うための統合CNN(畳み込みニューラルネットワーク)の問題に取り組んでいる。このタスクは一般的に深層多タスク学習問題として扱われる[42]。従来の方法とは異なり、入力トレーニングデータから直接複数のタスクを最適化するのではなく、本論文では新しい多タスクガイダンス予測・蒸留ネットワーク(PAD-Net)を提案している。PAD-Netはまず低レベルから高レベルまでの一連の中間補助タスクを予測し、次にこれらの補助タスクからの予測結果が我々が提案するマルチモーダル蒸留モジュールを通じて最終的なタスクへのマルチモーダル入力として利用される。統合学習中、中間タスクはより堅牢な深層表現の学習に対する監督だけでなく、最終的なタスクの改善のために豊富なマルチモーダル情報を提供する役割を果たす。深度推定とシーン解析の両方の課題について、NYUD-v2およびCityscapesという二つの挑戦的なデータセットで広範な実験が行われており、提案手法の有効性が示されている。注:「PAD-Net」は「Prediction-and-Distillation Network」の略称であり、「多タスクガイダンス予測・蒸留ネットワーク」と訳しました。「multi-modal distillation modules」については「マルチモーダル蒸留モジュール」と訳しました。これらは専門的な用語であり、一般的にはこのような訳が使用されます。

PAD-Net: 同時深度推定とシーン解析のためのマルチタスクガイダンス予測およびディスティレーションネットワーク | 最新論文 | HyperAI超神経