10日前

Webスケールの画像・テキストデータからのリトリーバルによる画像認識の向上

Ahmet Iscen, Alireza Fathi, Cordelia Schmid
Webスケールの画像・テキストデータからのリトリーバルによる画像認識の向上
要約

近年、自然言語処理(NLP)分野における成功を受けて、リトリーブ拡張型モデル(Retrieval Augmented Models)はコンピュータビジョンタスクにおいてますます注目を集めている。このアプローチの目的は、外部メモリセットから視覚入力に類似した例を検索し、モデルの認識能力を向上させることにある。本研究では、メモリから検索された各例の重要性を学習するアテンションベースのメモリモジュールを提案する。既存手法と比較して、本手法は関係のない検索例の影響を排除し、入力クエリにとって有益な例のみを保持する。また、メモリデータセットを構築するさまざまな方法について包括的に検討した。実験の結果、10億枚の画像-テキストペアから構成される大規模メモリデータセットを用いることで顕著な性能向上が得られ、異なるメモリ表現の有効性も実証した。本手法は、長尾分布認識(long-tailed recognition)、ノイズ付きラベル学習、細粒度分類という3つの異なる分類タスクにおいて評価され、ImageNet-LT、Places-LT、Webvisionデータセットにおいて、既存の最先端(SOTA)性能を達成した。