2ヶ月前
ELEVATER: 言語強化視覚モデルの評価ためのベンチマークとツールキット
Chunyuan Li; Haotian Liu; Liunian Harold Li; Pengchuan Zhang; Jyoti Aneja; Jianwei Yang; Ping Jin; Houdong Hu; Zicheng Liu; Yong Jae Lee; Jianfeng Gao

要約
自然言語監督を用いた視覚表現の学習は、最近の先駆的な研究で大きな可能性を示しています。一般的に、これらの言語強化型視覚モデルは、様々なデータセットやタスクへの強い転移性を示しています。しかし、評価ツールキットや公開ベンチマークの不足により、これらのモデルの転移性を評価することは依然として困難です。これを解決するために、我々はELEVATER(Evaluation of Language-augmented Visual Task-level Transfer: 言語強化型視覚タスクレベル転移の評価)という最初のベンチマークとツールキットを開発しました。ELEVATERは3つのコンポーネントから構成されています。(i) データセット。下流評価スイートとして機能し、20の画像分類データセットと35の物体検出データセットからなります。それぞれのデータセットには外部知識が付加されています。(ii) ツールキット。下流タスクでのモデル評価を容易にするため、自動ハイパーパラメータ調整ツールキットを開発しました。(iii) 評価指標。サンプル効率(ゼロショットおよびファーソット)とパラメータ効率(線形プロービングおよびフルモデル微調整)を測定するため、多様な評価指標を使用しています。ELEVATERはWildにおけるコンピュータビジョン(CVinW)のプラットフォームであり、https://computer-vision-in-the-wild.github.io/ELEVATER/ で公開されています。