11日前

識別メカニズムを用いたスケーラブルな動画オブジェクトセグメンテーション

Zongxin Yang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Xiaohan Wang, Yi Yang
識別メカニズムを用いたスケーラブルな動画オブジェクトセグメンテーション
要約

本稿では、半教師付き動画オブジェクトセグメンテーション(VOS)におけるスケーラブルかつ効果的な多オブジェクトモデリングを達成する際の課題に焦点を当てる。従来のVOS手法は、単一の正例オブジェクトに基づいて特徴をデコードするため、多オブジェクト環境下で各ターゲットを個別にマッチング・セグメンテーションする必要があり、多オブジェクト表現の学習が制限されていた。さらに、既存の手法は特定の応用目的に特化しており、異なる速度-精度の要件に柔軟に対応する能力に欠けていた。これらの課題に対処するため、本研究では2つの革新的なアプローチ、即ち「Transformerを用いたオブジェクト連関(AOT)」および「スケーラブルなTransformerを用いたオブジェクト連関(AOST)」を提案する。効果的な多オブジェクトモデリングを実現するために、AOTは各オブジェクトに一意の識別子(ID)を割り当てるID(Identification)機構を導入する。このアプローチにより、ネットワークはすべてのオブジェクト間の関連性を同時にモデル化でき、1回のネットワークパスでオブジェクトの追跡とセグメンテーションを実現することが可能となる。また、柔軟なデプロイメントの課題に対処するため、AOSTはスケーラブルな長期・短期記憶Transformerを統合し、スケーラブルな監視とレイヤーごとのIDベースのアテンションを組み合わせる。これにより、VOSにおいて初めてオンラインでのアーキテクチャスケーラビリティを実現し、ID埋め込みの表現能力の限界を克服した。多オブジェクトの密なアノテーションを含むVOSのベンチマークが存在しないため、本研究では実用的な挑戦性を持つ「野生の動画オブジェクトセグメンテーション(VOSW)」ベンチマークを提案する。本手法の有効性を検証するため、VOSWおよびYouTube-VOS 2018 & 2019 Val、DAVIS-2017 Val & Test、DAVIS-2016の5つの一般的に用いられるVOSベンチマークを対象に、多数のAOTおよびAOSTのバリエーションについて広範な実験を実施した。その結果、本手法はすべての6つのベンチマークにおいて、最先端の競合手法を上回り、一貫して優れた効率性とスケーラビリティを示した。プロジェクトページ:https://github.com/yoxu515/aot-benchmark

識別メカニズムを用いたスケーラブルな動画オブジェクトセグメンテーション | 最新論文 | HyperAI超神経