2ヶ月前
MobileVOS: 実時間ビデオオブジェクトセグメンテーション コントラスト学習と知識蒸留の融合
Roy Miles; Mehmet Kerim Yucel; Bruno Manganelli; Albert Saa-Garriga

要約
本論文では、モバイル電話などのリソース制約のあるデバイスにおける半教師付きビデオオブジェクトセグメンテーションの問題に取り組んでいます。この問題をディスティレーションタスクとして定式化し、有限のメモリを持つ小さな時空間ネットワークが、計算コストを大幅に削減しながら(Samsung Galaxy S22では1フレームあたり32ミリ秒)、最先端の手法と競合する結果を得られることを示しています。具体的には、知識ディスティレーションと教師付きコントラスティブ表現学習を統一する理論的に裏付けられた枠組みを提供します。これらのモデルは、画素レベルでのコントラスティブ学習と事前学習済み教師からのディスティレーションの両方から共同で恩恵を受けられるようになっています。我々は、DAVISおよびYouTubeの標準ベンチマークにおいて、最大5倍速く、32倍少ないパラメータで、最先端の手法と競合するJ&Fスコアを達成することにより、この損失関数の有効性を検証しました。