3ヶ月前

あなたの「Flamingo」は私の「Bird」である:細粒度かどうか

Dongliang Chang, Kaiyue Pang, Yixiao Zheng, Zhanyu Ma, Yi-Zhe Song, Jun Guo
あなたの「Flamingo」は私の「Bird」である:細粒度かどうか
要約

図1に示されるものが「フラミンゴ」であるか、「鳥」であるかは、本論文が提起する問題です。細粒度視覚分類(FGVC)は、前者の識別を目指しますが、大多数の専門外の人々にとっては、「鳥」というレベルの分類で十分であるでしょう。したがって、真の問題は——異なる専門知識レベルに対応して、細粒度の定義をどのように調整できるか、ということになります。この問いに答えるために、従来のFGVCの設定(単一ラベル分類)を再考し、事前に定義された粗いレベルから細かいレベルへのトップダウン型のラベル階層の走査に置き換えることを提案します。これにより、答えは「鳥」→「フラミンゴ目」→「フラミンゴ科」→「フラミンゴ」という階層的な推論過程を経るようになります。この新たな問題に取り組むために、まず人間を対象とした包括的な実験を行い、専門家かどうかに関わらず、参加者の大多数が多粒度ラベルを好むことを確認しました。その後、重要な直感を発見しました:粗いレベルのラベル予測は細粒度特徴の学習を促進する一方で、細かいレベルの特徴は粗いレベル分類器の学習を改善する効果があるのです。この発見をもとに、非常にシンプルでありながら驚くほど有効な解決策を設計しました。具体的には、(i) 各レベルに特化した分類ヘッドを用いて、粗いレベル特徴と細粒度特徴を分離し、(ii) 細粒度特徴を粗いレベルのラベル予測に参加させることで、より良い特徴分離を実現します。実験の結果、本手法は新たなFGVC設定において優れた性能を発揮し、従来の単一ラベルFGVC問題においても最先端の手法を上回る結果を得ました。本手法のシンプルさにより、既存のあらゆるFGVCフレームワークに容易に統合可能であり、パラメータを追加せずに適用できる点も特徴です。