
要約
大規模なラベル付きデータセットと高容量モデルの登場により、機械ビジョンシステムの性能は急速に向上しています。しかし、この技術には依然として大きな制約があります。異なるビジョン問題は、未だに異なるモデルによって解決され、ターゲットデータからゼロから学習されるか、または微調整されています。これとは対照的に、人間の視覚システムは個体の早期生活で普遍的な表現を学習します。この表現は、ほとんど変更せずに多種多様なビジョン問題に対して効果的に機能し、それぞれの問題を解決するために少量の訓練データしか必要としません。本論文では、ニューラルネットワークが普遍的な表現として機能する可能性について調査します。具体的には、多くのビジョン問題の「サイズ」に関連してその能力を研究します。私たちは単一のニューラルネットワークが、スケッチからプランクトンやMNIST数字まで非常に異なる視覚ドメインを同時に学習できることを示します。これは専門化された複数のネットワークと同等かそれ以上の性能を発揮します。ただし、これを行うためにはネットワーク内の情報を慎重に正規化する必要があります。具体的には、ドメイン固有のスケーリング係数を使用するか、より一般的にはインスタンス正規化層を使用することで実現できます。