HyperAIHyperAI

Command Palette

Search for a command to run...

Florence-2:多様な視覚タスクにおける統一表現の進展

Bin Xiao Haiping Wu Weijian Xu Xiyang Dai Houdong Hu Yumao Lu Michael Zeng Ce Liu Lu Yuan

概要

Florence-2 を紹介します。これは、多様なコンピュータビジョンおよびビジョン・言語タスクに統一的かつプロンプトベースの表現を採用した新規な視覚基盤モデルです。既存の大規模視覚モデルは転移学習において優れた性能を発揮していますが、シンプルな指示によって多様なタスクを実行する能力に欠けており、これはさまざまな空間階層構造と意味的粒度の複雑さを処理できる能力を意味します。Florence-2 は、テキストプロンプトをタスク指示として受け取り、キャプション生成、オブジェクト検出、オブジェクトの位置特定( grounding )、セグメンテーションなど、いずれのタスクにおいてもテキスト形式で望ましい結果を生成することを設計されています。このような多タスク学習アーキテクチャの実現には、大規模かつ高品質なアノテーションデータが不可欠です。これを達成するため、自動画像アノテーションとモデルの反復的改善を組み合わせた戦略を用いて、1億2600万枚の画像にわたる54億件の包括的な視覚アノテーションを含む「FLD-5B」データセットを共同開発しました。Florence-2 の学習には、シーケンス・トゥ・シーケンス構造を採用し、多様かつ包括的な視覚タスクを実行できるようにしています。多数のタスクにおける広範な評価により、Florence-2 が、従来にないゼロショットおよびファインチューニング性能を備えた強力な視覚基盤モデルであることが実証されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Florence-2:多様な視覚タスクにおける統一表現の進展 | 記事 | HyperAI超神経