2ヶ月前

オープンボキャブラリー物体検出のスケーリング

Matthias Minderer; Alexey Gritsenko; Neil Houlsby
オープンボキャブラリー物体検出のスケーリング
要約

オープンボキャブラリオブジェクト検出は、事前学習された視覚言語モデルから大きく恩恵を受けていますが、利用可能な検出トレーニングデータの量によってまだ制限されています。検出トレーニングデータは、Webの画像-テキストペアを弱い教師ありデータとして使用することで拡大できますが、これは画像レベルでの事前学習と比較して同等の規模で行われていません。本稿では、自己学習を使用して検出データをスケールアップする方法について述べます。自己学習における主要な課題は、ラベル空間の選択、疑似アノテーションのフィルタリング、および学習効率です。これらの課題に対処するために、OWLv2モデルとOWL-ST自己学習レシピを提案します。OWLv2は、既存の最高峰のオープンボキャブラリ検出器と同等のトレーニングスケール(約1,000万例)で既にその性能を上回ります。しかし、OWL-STを使用すると10億例以上にスケールアップでき、さらなる大幅な改善が得られます:L/14アーキテクチャを使用した場合、モデルが人間によるボックスアノテーションを見たことのないLVISレアクラスでのAP(平均精度)が31.2%から44.6%へ向上し(相対的な改善率は43%)、オープンワールド定位におけるWebスケールでの学習を可能にします。これは画像分類や言語モデリングで見られたものと同様です。注:- 「オープンボキャブラリオブジェクト検出」: Open-vocabulary object detection- 「事前学習された視覚言語モデル」: Pretrained vision-language models- 「弱い教師ありデータ」: Weak supervision- 「疑似アノテーション」: Pseudo-box annotations- 「AP(平均精度)」: Average Precision (AP)- 「LVISレアクラス」: LVIS rare classes- 「L/14アーキテクチャ」: L/14 architecture- 「オープンワールド定位」: Open-world localization

オープンボキャブラリー物体検出のスケーリング | 最新論文 | HyperAI超神経