2ヶ月前
自己監督型ビデオ類似性学習
Giorgos Kordopatis-Zilos; Giorgos Tolias; Christos Tzelepis; Ioannis Kompatsiaris; Ioannis Patras; Symeon Papadopoulos

要約
私たちはS$^2$VS(Self-Supervised Video Similarity)を紹介します。これは自己監督学習を用いたビデオ類似性学習の手法です。自己監督学習(Self-Supervised Learning: SSL)は通常、代理タスクで深層モデルを訓練し、微調整後に目標タスクで強い転移性を持つようにするための手法として使用されます。本研究では、それまでの研究とは異なり、SSLを用いてラベルデータを使用せずに複数の検索および検出タスクを同時に実行するビデオ類似性学習を行います。これは、インスタンス識別による学習とタスクに合わせた拡張技術、そして広く使用されているInfoNCE損失に加えて、自己類似性と難易度の高いネガティブ類似性に対して共同で作用する追加的な損失関数を使用することで達成されます。我々は異なる粒度でビデオの関連性が定義されるタスクにおいて、方法のベンチマーク評価を行いました。評価範囲はビデオコピーから同じ事件や出来事を描写したビデオまで多岐にわたります。この手法により、単一の普遍的なモデルを学習し、すべてのタスクにおいて最先端の性能を達成しました。これにより、ラベルデータを使用する従来の手法を超える結果を得ています。コードと事前学習済みモデルは公開されており、以下のURLからアクセスできます: https://github.com/gkordo/s2vs