10日前

リトリーブ拡張分類によるロングテール視覚認識

Alexander Long, Wei Yin, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel
リトリーブ拡張分類によるロングテール視覚認識
要約

本稿では、標準的な画像分類パイプラインに明示的な検索モジュールを統合する汎用的手法として、リトリーブ増強分類(Retrieval Augmented Classification, RAC)を提案する。RACは、標準的なベース画像エンコーダと、事前に符号化された画像および関連するテキストスニペットから構成される非パラメトリックな外部メモリを検索する並列的な検索ブランチから構成される。本手法は、長尾分類問題に適用し、外部情報源として訓練データ自体のみを使用したにもかかわらず、Places365-LTおよびiNaturalist-2018において、従来の最先端手法よりもそれぞれ14.5%および6.7%の顕著な性能向上を達成した。また、RACの検索モジュールが、明示的なプロンプトなしに、尾部クラス(tail classes)において高い精度を学習することを実証した。この結果、ベースエンコーダは共通クラスの分類に集中でき、その性能が向上する。RACは、微調整(fine-tuning)を必要とせずに大規模な事前学習モデルを活用する代替的なアプローチを提供するとともに、一般的なコンピュータビジョンアーキテクチャにおける外部メモリの有効活用への第一歩を示している。

リトリーブ拡張分類によるロングテール視覚認識 | 最新論文 | HyperAI超神経