17日前

Florence-2:多様な視覚タスクにおける統一表現の進展

Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
Florence-2:多様な視覚タスクにおける統一表現の進展
要約

Florence-2 を紹介します。これは、多様なコンピュータビジョンおよびビジョン・言語タスクに統一的かつプロンプトベースの表現を採用した新規な視覚基盤モデルです。既存の大規模視覚モデルは転移学習において優れた性能を発揮していますが、シンプルな指示によって多様なタスクを実行する能力に欠けており、これはさまざまな空間階層構造と意味的粒度の複雑さを処理できる能力を意味します。Florence-2 は、テキストプロンプトをタスク指示として受け取り、キャプション生成、オブジェクト検出、オブジェクトの位置特定( grounding )、セグメンテーションなど、いずれのタスクにおいてもテキスト形式で望ましい結果を生成することを設計されています。このような多タスク学習アーキテクチャの実現には、大規模かつ高品質なアノテーションデータが不可欠です。これを達成するため、自動画像アノテーションとモデルの反復的改善を組み合わせた戦略を用いて、1億2600万枚の画像にわたる54億件の包括的な視覚アノテーションを含む「FLD-5B」データセットを共同開発しました。Florence-2 の学習には、シーケンス・トゥ・シーケンス構造を採用し、多様かつ包括的な視覚タスクを実行できるようにしています。多数のタスクにおける広範な評価により、Florence-2 が、従来にないゼロショットおよびファインチューニング性能を備えた強力な視覚基盤モデルであることが実証されました。

Florence-2:多様な視覚タスクにおける統一表現の進展 | 最新論文 | HyperAI超神経