2ヶ月前

MAtch, eXpand and Improve: 言語知識を用いたゼロショット行動認識の非監督ファインチューニング

Wei Lin; Leonid Karlinsky; Nina Shvetsova; Horst Possegger; Mateusz Kozinski; Rameswar Panda; Rogerio Feris; Hilde Kuehne; Horst Bischof
MAtch, eXpand and Improve: 言語知識を用いたゼロショット行動認識の非監督ファインチューニング
要約

大規模な視覚言語(VL)モデルは、視覚とテキストのモダリティ間での表現の整合性を実現する上で大きな成功を収めています。これにより、ゼロショット認識、画像生成・編集など、多くの興味深いタスクにおいて著しい進歩が見られています。しかし、VLモデルは物体に過度に焦点を当てつつ、動詞にはほとんど注意を払わず、最適なゼロショット行動認識性能を得るためにはビデオデータに対する追加の調整が必要です。従来の研究では大規模で完全にアノテーションされたデータに依存していましたが、本研究では非監督的な手法を提案します。私たちは無ラベルのビデオコレクションと未対応の行動辞書を使用して、ゼロショットおよびファウショット行動認識のためにVLモデルを適応させます。そのために、大規模言語モデルとVLモデルを利用してマッチング、テキスト拡張、キャプション作成を通じて各無ラベルビデオに対してテキストバッグを作成します。これらのバッグを用いてマルチインスタンス学習設定で画像-テキストバックボーンをビデオデータに適応させます。無ラベルのビデオデータで微調整されているにもかかわらず、我々の最終的なモデルは多数の未見のゼロショット下流タスクへの高い転移能力を示し、ベースのVLモデル性能を最大14%向上させることに成功しました。また、ゼロショットおよびファウショットビデオ認識転移において完全監督基線モデルと比較しても優れた結果を示しています。コードは後日 \url{https://github.com/wlin-at/MAXI} で公開される予定です。

MAtch, eXpand and Improve: 言語知識を用いたゼロショット行動認識の非監督ファインチューニング | 最新論文 | HyperAI超神経