HyperAIHyperAI

Command Palette

Search for a command to run...

MAtch, eXpand and Improve: 言語知識を用いたゼロショット行動認識の非監督ファインチューニング

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

概要

大規模な視覚言語(VL)モデルは、視覚とテキストのモダリティ間での表現の整合性を実現する上で大きな成功を収めています。これにより、ゼロショット認識、画像生成・編集など、多くの興味深いタスクにおいて著しい進歩が見られています。しかし、VLモデルは物体に過度に焦点を当てつつ、動詞にはほとんど注意を払わず、最適なゼロショット行動認識性能を得るためにはビデオデータに対する追加の調整が必要です。従来の研究では大規模で完全にアノテーションされたデータに依存していましたが、本研究では非監督的な手法を提案します。私たちは無ラベルのビデオコレクションと未対応の行動辞書を使用して、ゼロショットおよびファウショット行動認識のためにVLモデルを適応させます。そのために、大規模言語モデルとVLモデルを利用してマッチング、テキスト拡張、キャプション作成を通じて各無ラベルビデオに対してテキストバッグを作成します。これらのバッグを用いてマルチインスタンス学習設定で画像-テキストバックボーンをビデオデータに適応させます。無ラベルのビデオデータで微調整されているにもかかわらず、我々の最終的なモデルは多数の未見のゼロショット下流タスクへの高い転移能力を示し、ベースのVLモデル性能を最大14%向上させることに成功しました。また、ゼロショットおよびファウショットビデオ認識転移において完全監督基線モデルと比較しても優れた結果を示しています。コードは後日 \url{https://github.com/wlin-at/MAXI} で公開される予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています