
要約
視覚認識は、物体検出や深度推定など多岐にわたるタスクを解決することを含む。同一画像から得られる異なるタスクの予測結果は互いに独立しておらず、したがって「一貫性」が期待される。本研究では、タスク間の一貫性(Cross-Task Consistency, X-TAC)を強制しつつ学習を行う、柔軟かつ完全に計算可能なフレームワークを提案する。このフレームワークの基礎となるのは、任意の予測領域グラフ上で「推論経路不変性(inference path invariance)」を導入することである。我々は、タスク間の一貫性を学習に組み込むことで、より正確な予測、分布外サンプルへの優れた一般化性能、および高いサンプル効率が達成されることを確認した。さらに、このフレームワークにより、システムの内在的な一貫性を測定することに基づく強力な非教師あり量「一貫性エネルギー(Consistency Energy)」が導出可能となる。一貫性エネルギーは教師あり誤差と良好な相関(r=0.67)を示し、非教師ありのロバストネス指標として利用可能であるとともに、分布外入力の検出にも有効である(AUC=0.99)。評価は、Taskonomy、Replica、CocoDoom、ApolloScapeなど複数のデータセットを用いて実施された。