
要約
さまざまな問題やデータに対して効果的なデータ表現を学習することへの関心が高まっています。本論文では、特に異なる種類の画像(犬の品種からストップサイン、数字まで)の分析に成功して利用できる単一の視覚表現を学習するタスクに焦点を当てています。最近の研究で、別のネットワークのパラメータを予測するネットワークの学習について取り組まれていることに着想を得て、アダプター残差モジュールによって多様な視覚ドメインに即座に対応できる調整可能な深層ネットワークアーキテクチャを開発しました。当手法は高いパラメータ共有度を達成しつつ、ドメイン固有の表現の精度を維持または向上させることができます。また、10種類もの非常に異なる視覚ドメインを同時に捉える能力と、それらが均一的に認識できる能力を評価するベンチマークである「Visual Decathlon Challenge」も導入しています。