13日前

メトリック学習とアテンションヘッドの統合による正確かつ効率的なマルチラベル画像分類

Kirill Prokofiev, Vladislav Sovrasov
メトリック学習とアテンションヘッドの統合による正確かつ効率的なマルチラベル画像分類
要約

マルチラベル画像分類は、与えられた画像から複数のラベルを予測する手法である。マルチクラス分類とは異なり、各画像に対して複数のラベルを割り当てる点が特徴であり、より広範な応用に適用可能である。本研究では、マルチラベル分類における2つの代表的なアプローチ、Transformerベースのヘッドとラベル関係情報を扱うグラフ処理ブランチについて再検討する。Transformerベースのヘッドは、グラフベースのアプローチに比べて優れた性能を達成すると広く認識されているが、適切な学習戦略を採用すれば、グラフベースの手法でも性能の低下はわずかに抑えられ、推論時の計算リソース消費を削減できると主張する。本研究の学習戦略では、マルチラベル分類におけるデファクトスタンダードである非対称損失(Asymmetric Loss: ASL)の代わりに、そのメトリック学習に基づく修正版を導入する。各二値分類サブ問題において、バックボーンから得られる$L_2$正規化された特徴ベクトルを用い、正例と負例の正規化表現間の角度を可能な限り大きくするように制約を課す。これにより、非正規化特徴に対して二値交差エントロピー損失を使用する場合よりも優れた分離能力が得られる。提案する損失関数と学習戦略により、MS-COCO、PASCAL-VOC、NUS-Wide、Visual Genome 500といった広く用いられるマルチラベル分類ベンチマークにおいて、単一モダリティ手法の中で最先端(SOTA)の性能を達成した。本手法のソースコードは、OpenVINO Training Extensionsの一部として公開されている:https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel

メトリック学習とアテンションヘッドの統合による正確かつ効率的なマルチラベル画像分類 | 最新論文 | HyperAI超神経