概要

大規模マルチモーダル事前学習モデルであるCLIPやPaLIは、様々な視覚領域とタスクにおいて強い汎化性能を示しています。しかし、既存の画像分類ベンチマークはしばしば特定のドメイン（例：屋外画像）や特定のタスク（例：植物種の分類）における認識を評価しており、これらのモデルが普遍的な視覚認識器であるかどうかを十分に評価することができません。これを解決するために、私たちは公式にオープンドメイン視覚エンティティ認識（OVEN）というタスクを提示します。このタスクでは、モデルはテキストクエリに基づいて画像をWikipediaエンティティにリンクさせる必要があります。OVEN-Wikiは、14の既存データセットを再利用し、すべてのラベルを単一のラベル空間であるWikipediaエンティティに統合することで構築されました。OVENは600万以上の可能なWikipediaエン蒂ティの中から選択する必要があり、これにより最大数のラベルを持つ一般的な視覚認識ベンチマークとなっています。最新の事前学習モデルに関する私たちの研究では、大規模なラベル空間への汎化にはまだ大きな余地があることが明らかになりました。また、PaLIベースの自己回帰型視覚認識モデルが驚くほど優れた性能を発揮することも示しました。これはファインチューニング中に一度も見たことのないWikipediaエンティティに対しても同様です。さらに、既存の事前学習モデルが異なる強みを持つことも見出されました。PaLIベースのモデルは全体的な性能が高い一方で、CLIPベースのモデルは尾部エンティティ（tail entities）の認識において優れていることがわかりました。注：「尾部エンティティ」（tail entities）は一般的には「長尾分布」の一端にある稀少なデータやカテゴリを指す表現です。

ソースPDF