HyperAIHyperAI

Command Palette

Search for a command to run...

Falcon 知覚システムを発表

アラブ首長国連邦の技術イノベーション研究所は、0.6 億パラメータの軽量変換器「Falcon Perception」を発表しました。このモデルは、画像パッチとテキストを単一のシーケンスで処理する早期融合アーキテクチャを採用し、自然言語プロンプトに基づくオープンボキャブラリーの物体検出とセグメンテーションを実現します。従来のように視覚バックボーンと言語デコーダを分けるのではなく、ハイブリッドなアテンションマスクを用いることで、画像の双方向的なコンテキスト処理と、タスクのための単方向予測を一つのモデルで同時に行います。推論では、まず座標とサイズを特定し、最後にセグメンテーションマスクを生成する「Chain-of-Perception」という手法を用いて、画像内の物体数を動的に変化させながら処理します。 評価結果では、Falcon Perception は SA-Co ベンチマークで Macro-F1 68.0 を達成し、既存の大規模モデル SAM 3(62.3)を凌駕しました。特に属性の付いた物体、食品、スポーツ用品の認識において大幅な向上が見られました。また、同研究所が新たに開発した診断ベンチマーク PBench による分析では、OCR による同定や空間的制約、物体間の関係性など、複雑なプロンプトを要求されるタスクにおいて、SAM 3 や他の汎用多モーダルモデルを大きく上回る性能を発揮することが示されました。ただし、物体が存在しない場合の「不在」判定における較正精度(MCC)は 0.64 で SAM 3 の 0.82 に及ばず、今後の改善課題となっています。 併せて発表された 0.3 億パラメータの「Falcon OCR」は、ドキュメント解析や表、数式、手書き文字の認識に特化したモデルです。これは Falcon Perception のアーキテクチャを流用しつつ、文字認識に最適な特徴量学習のためにゼロから訓練されました。olmOCR ベンチマークで 80.3、OmniDocBench で 88.6 という高いスコアを記録し、特に多段組みや表構造の認識ではトップクラスの結果を達成しています。モデル規模が小さいため、単一の GPU でも従来の大規模 OCR モデルの約 3 倍のスループットを実現し、大量のドキュメント処理を効率的に行うことが可能です。これらの成果は、複雑なパイプラインを構築するのではなく、データ量とトレーニング手法、そして単一の強力な変換器モデルに依存することの有効性を示唆しています。

関連リンク

Hugging FaceHugging Face