2ヶ月前

YOLO-World: 実時間オープンボキャブラリ物体検出

Tianheng Cheng; Lin Song; Yixiao Ge; Wenyu Liu; Xinggang Wang; Ying Shan
YOLO-World: 実時間オープンボキャブラリ物体検出
要約

You Only Look Once (YOLO) シリーズの検出器は、効率的かつ実用的なツールとして確立されています。しかし、事前に定義され、学習された物体カテゴリへの依存がオープンなシナリオでの適用範囲を制限しています。この制約に対処するため、我々は YOLO-World を提案します。これは、ビジョン言語モデリングと大規模データセットでの事前学習を通じて、YOLO のオープンボキャブラリー検出能力を向上させる革新的なアプローチです。具体的には、新しい再パラメータ化可能なビジョン言語パス集約ネットワーク (RepVL-PAN) と領域テキスト対照損失を提案し、視覚情報と言語情報の相互作用を促進します。当手法は、ゼロショットで広範な物体を高効率に検出することに優れています。困難な LVIS データセットにおいて、YOLO-World は V100 上で 35.4 AP および 52.0 FPS を達成しており、精度と速度の両面で多くの最先端手法を上回っています。さらに、微調整された YOLO-World は物体検出やオープンボキャブラリーインスタンスセグメンテーションなどのいくつかの下流タスクにおいて優れた性能を発揮しています。