
要約
コンテキスト内学習は、NLP(自然言語処理)における新しいパラダイムとして、モデルがわずかなプロンプトと例を用いて様々なタスクに迅速に適応することを可能にしています。しかし、コンピュータビジョンにおいては、タスクの出力表現が大きく異なるため、ビジョンモデルが理解し、ドメイン外のタスクに転用できる汎用的なタスクプロンプトを定義することが不明確です。本研究では、これらの障壁を「画像」を中心とした解決策で克服する一般化モデルであるPainterを提案します。つまり、主要なビジョンタスクの出力を画像として再定義し、タスクプロンプトも画像として指定します。このアイデアにより、我々の学習過程は非常に単純で、入力と出力の画像ペアを繋げた上で標準的なマスキング画像モデリングを行います。これにより、モデルは可視的な画像パッチに基づいてタスクを行う能力が得られます。したがって、推論時には同じタスクからの入力と出力の画像ペアを使用して入力条件とすることで、どのタスクを行うべきかを示すことができます。特別な工夫なしに、我々の一般化モデルPainterは7つの代表的なビジョンタスク(高レベルの視覚理解から低レベルの画像処理まで)において既存の特定タスク向けモデルと同等以上の競争力のある性能を達成します。さらに、Painterはいくつかの困難なタスクにおいて最近の一般化モデルよりも大幅に優れた性能を発揮しています。