7日前

オープンボリュームセグメンテーションおよび検出のためのシンプルなフレームワーク

Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao, Jianwei Yang, Lei Zhang
オープンボリュームセグメンテーションおよび検出のためのシンプルなフレームワーク
要約

本稿では、異なるセグメンテーションおよび検出データセットから同時に学習を行うシンプルなオープンボキャブラリーセグメンテーションおよび検出フレームワーク「OpenSeeD」を提案する。視覚的概念の語彙とアノテーションの粒度のギャップを埋めるために、まず、2つのタスクに含まれるすべての視覚的コンセプトをエンコードする事前学習済みのテキストエンコーダを導入し、それらの共通の意味空間を学習する。これにより、セグメンテーションタスクのみで訓練された対応する手法と比較して、妥当な性能を達成する。さらに、このギャップを解消するために、2つの不一致を特定する:i)タスクの不一致——セグメンテーションは前景オブジェクトと背景ストッフの両方のマスクを抽出する必要があるが、検出タスクでは前景オブジェクトのみを対象とする;ii)データの不一致——ボックスアノテーションとマスクアノテーションは空間的粒度が異なり、直接的に交換可能ではない。これらの課題に対処するため、前景/背景間の干渉を低減するための分離デコードと、指定されたボックスに対するマスク生成を支援する条件付きマスクデコードを提案する。これらの3つの技術を統合したシンプルなエンコーダ・デコーダモデルを構築し、COCOとObjects365の両データセット上で共同で訓練する。事前学習後、本モデルはセグメンテーションおよび検出の両タスクにおいて、競争力のある、あるいはより優れたゼロショット転移性能を示す。特に、5つのデータセットにおいてオープンボキャブラリーインスタンスセグメンテーションおよびパンセグメンテーションで最先端の手法を上回り、LVISおよびODinWにおけるオープンボキャブラリーディテクションでも、類似の設定下で既存の手法を凌駕する。特定のタスクへの転移においては、COCOおよびADE20Kにおけるパンセグメンテーション、ADE20KおよびCityscapesにおけるインスタンスセグメンテーションで、新たなSOTA(最良の成果)を達成する。最後に、OpenSeeDは、セグメンテーションと検出の共同学習の可能性を初めて探求した最初の手法であり、オープンワールドにおける両タスクを一つのモデルで実現するための強力なベースラインとして広く受け入れられることを期待する。

オープンボリュームセグメンテーションおよび検出のためのシンプルなフレームワーク | 最新論文 | HyperAI超神経