2ヶ月前

Webly 監督された概念拡張による汎用ビジョンモデルの改善

Amita Kamath; Christopher Clark; Tanmay Gupta; Eric Kolve; Derek Hoiem; Aniruddha Kembhavi
Webly 監督された概念拡張による汎用ビジョンモデルの改善
要約

汎用ビジョン(GPV)システムは、アーキテクチャの変更を必要とせずに広範な視覚タスクを解決するために設計されたモデルです。現在、GPVは主に大規模な完全教師ありデータセットからスキルと概念を学習しています。各スキルに対してそれぞれの概念を学習するためのデータを取得して、数万もの概念までGPVを拡張することはすぐに非現実的になります。本研究では、効果的かつ安価な代替手段を提示します:教師ありデータセットからスキルを学習し、ウェブ画像検索から概念を学習し、GPVの重要な特性である異なるスキル間での視覚知識の転送能力を利用します。100万枚以上の画像で構成され、1万以上の視覚概念をカバーするデータセットを使用して、既存の2つのGPV(GPV-1およびVL-T5)について3つのベンチマークにおけるウェブ教師あり概念拡張を示します:5つのCOCOベースのデータセット(80の主要概念)、OpenImagesおよびVisualGenomeリポジトリに基づいて新規に作成された5つのデータセットシリーズ(約500の概念)、そしてウェブ由来のデータセット(1万以上の概念)。また、分類や位置特定などの視覚タスクから質問応答やキャプション生成などの視覚+言語タスク、さらには人間-物体相互作用検出のようなより専門的なタスクまで対応可能な新しいアーキテクチャ、GPV-2も提案します。GPV-2はウェブデータから大きく恩恵を受け、これらのベンチマークにおいてGPV-1およびVL-T5を超える性能を発揮します。当該研究のデータ、コード、およびウェブデモは https://prior.allenai.org/projects/gpv2 で公開されています。

Webly 監督された概念拡張による汎用ビジョンモデルの改善 | 最新論文 | HyperAI超神経