6ヶ月前

概要

Florence-2 を紹介します。これは、多様なコンピュータビジョンおよびビジョン・言語タスクに統一的かつプロンプトベースの表現を採用した新規な視覚基盤モデルです。既存の大規模視覚モデルは転移学習において優れた性能を発揮していますが、シンプルな指示によって多様なタスクを実行する能力に欠けており、これはさまざまな空間階層構造と意味的粒度の複雑さを処理できる能力を意味します。Florence-2 は、テキストプロンプトをタスク指示として受け取り、キャプション生成、オブジェクト検出、オブジェクトの位置特定（ grounding ）、セグメンテーションなど、いずれのタスクにおいてもテキスト形式で望ましい結果を生成することを設計されています。このような多タスク学習アーキテクチャの実現には、大規模かつ高品質なアノテーションデータが不可欠です。これを達成するため、自動画像アノテーションとモデルの反復的改善を組み合わせた戦略を用いて、1億2600万枚の画像にわたる54億件の包括的な視覚アノテーションを含む「FLD-5B」データセットを共同開発しました。Florence-2 の学習には、シーケンス・トゥ・シーケンス構造を採用し、多様かつ包括的な視覚タスクを実行できるようにしています。多数のタスクにおける広範な評価により、Florence-2 が、従来にないゼロショットおよびファインチューニング性能を備えた強力な視覚基盤モデルであることが実証されました。

ソースPDF