HyperAIHyperAI

Command Palette

Search for a command to run...

Webスケールの画像・テキストデータからのリトリーバルによる画像認識の向上

Ahmet Iscen Alireza Fathi Cordelia Schmid

概要

近年、自然言語処理(NLP)分野における成功を受けて、リトリーブ拡張型モデル(Retrieval Augmented Models)はコンピュータビジョンタスクにおいてますます注目を集めている。このアプローチの目的は、外部メモリセットから視覚入力に類似した例を検索し、モデルの認識能力を向上させることにある。本研究では、メモリから検索された各例の重要性を学習するアテンションベースのメモリモジュールを提案する。既存手法と比較して、本手法は関係のない検索例の影響を排除し、入力クエリにとって有益な例のみを保持する。また、メモリデータセットを構築するさまざまな方法について包括的に検討した。実験の結果、10億枚の画像-テキストペアから構成される大規模メモリデータセットを用いることで顕著な性能向上が得られ、異なるメモリ表現の有効性も実証した。本手法は、長尾分布認識(long-tailed recognition)、ノイズ付きラベル学習、細粒度分類という3つの異なる分類タスクにおいて評価され、ImageNet-LT、Places-LT、Webvisionデータセットにおいて、既存の最先端(SOTA)性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています