2ヶ月前

オープンボキャブラリ属性検出

Bravo, María A. ; Mittal, Sudhanshu ; Ging, Simon ; Brox, Thomas
オープンボキャブラリ属性検出
要約

視覚言語モデリングは、任意のテキストプロンプトを使用して予測をゼロショットで問い合わせ可能なオープンボキャブラリタスクを可能にしました。既存のオープンボキャブラリタスクは主にオブジェクトクラスに焦点を当てていますが、信頼性のある属性に焦点を当てた評価ベンチマークの不足により、オブジェクト属性に関する研究は限定的です。本論文では、オープンボキャブラリ属性検出(OVAD)タスクと対応するOVADベンチマークを導入します。この新しいタスクとベンチマークの目的は、視覚言語モデルが学習したオブジェクトレベルの属性情報を調査することです。この目的のために、MS COCOの80オブジェクトクラスに対し117属性クラスをカバーするクリーンで密度の高いアノテーションテストセットを作成しました。正例と負例のアノテーションが含まれているため、オープンボキャブラリ評価が可能となっています。全体として、ベンチマークには140万件のアノテーションが含まれています。参考として、オープンボキャブラリ属性検出用の最初のベースライン手法を提供しています。さらに、いくつかの基盤モデルの属性検出性能を研究することで、ベンチマークの価値を示しています。プロジェクトページ: https://ovad-benchmark.github.io

オープンボキャブラリ属性検出 | 最新論文 | HyperAI超神経