HyperAIHyperAI

Command Palette

Search for a command to run...

オープンドメイン視覚エンティティ認識:数百万のウィキペディアエンティティの認識を目指して

Hexiang Hu Yi Luan Yang Chen Urvashi Khandelwal Mandar Joshi Kenton Lee Kristina Toutanova Ming-Wei Chang

概要

大規模マルチモーダル事前学習モデルであるCLIPやPaLIは、様々な視覚領域とタスクにおいて強い汎化性能を示しています。しかし、既存の画像分類ベンチマークはしばしば特定のドメイン(例:屋外画像)や特定のタスク(例:植物種の分類)における認識を評価しており、これらのモデルが普遍的な視覚認識器であるかどうかを十分に評価することができません。これを解決するために、私たちは公式にオープンドメイン視覚エンティティ認識(OVEN)というタスクを提示します。このタスクでは、モデルはテキストクエリに基づいて画像をWikipediaエンティティにリンクさせる必要があります。OVEN-Wikiは、14の既存データセットを再利用し、すべてのラベルを単一のラベル空間であるWikipediaエンティティに統合することで構築されました。OVENは600万以上の可能なWikipediaエン蒂ティの中から選択する必要があり、これにより最大数のラベルを持つ一般的な視覚認識ベンチマークとなっています。最新の事前学習モデルに関する私たちの研究では、大規模なラベル空間への汎化にはまだ大きな余地があることが明らかになりました。また、PaLIベースの自己回帰型視覚認識モデルが驚くほど優れた性能を発揮することも示しました。これはファインチューニング中に一度も見たことのないWikipediaエンティティに対しても同様です。さらに、既存の事前学習モデルが異なる強みを持つことも見出されました。PaLIベースのモデルは全体的な性能が高い一方で、CLIPベースのモデルは尾部エンティティ(tail entities)の認識において優れていることがわかりました。注:「尾部エンティティ」(tail entities)は一般的には「長尾分布」の一端にある稀少なデータやカテゴリを指す表現です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
オープンドメイン視覚エンティティ認識:数百万のウィキペディアエンティティの認識を目指して | 記事 | HyperAI超神経