
最近、汎用的なセグメンテーションおよび検出タスクに対応するために、統一されたアーキテクチャを用いたオープンボリューム(open-vocabulary)手法がいくつか提案されている。しかし、これらの手法はタスク間の相互干渉により、特定タスク向けモデルに比べて性能が劣っており、CLIPの有効活用が不十分であるため、オープンボリューム能力も限界がある。これらの課題に対応するため、本研究では、同一のアーキテクチャとネットワークパラメータを用いて、オープンボリュームセグメンテーションおよび検出タスクを統合的に処理できる、ユニバーサルなトランスフォーマー基盤フレームワーク「OpenSD」を提案する。まず、物(thing)カテゴリと物質(stuff)カテゴリ間の意味的衝突を軽減するため、デコーダーの分離学習戦略を導入することで、同一のフレームワーク下でも各タスクがより効果的に学習可能となる。次に、CLIPをエンドツーエンドのセグメンテーションおよび検出に効果的に活用するため、語彙内領域(in-vocabulary domain)と語彙外領域(out-of-vocabulary domain)をそれぞれ処理するための二重分類器を提案する。さらに、物と物質の両カテゴリに対して、分離型プロンプト学習によりテキストエンコーダーを領域認識型に再訓練することで、重複や低品質な予測を効果的にフィルタリング可能とし、エンドツーエンドのセグメンテーションおよび検出において重要な精度向上を実現する。本研究では、複数のデータセットおよびさまざまな設定条件下で広範な実験を実施した結果、OpenSDは閉じた語彙(closed-vocabulary)および開かれた語彙(open-vocabulary)の両設定において、最先端のオープンボリュームセグメンテーションおよび検出手法を上回る性能を達成した。コードは https://github.com/strongwolf/OpenSD にて公開されている。