HyperAIHyperAI

Command Palette

Search for a command to run...

自己中心型ビデオ・言語事前学習

概要

ビデオ・言語事前学習(Video-Language Pretraining, VLP)は、幅広いビデオ・テキストの下流タスクの性能向上を目的として、移行可能な表現を学習することを目指しており、近年注目が高まっている。現状、最も優れた成果を上げている手法は、HowTo100Mなど大規模な第三者視点のビデオ・テキストデータセットに依拠している。本研究では、最近公開されたEgo4Dデータセットを活用し、エゴセントリック(第一人称視点)VLPの研究を3つの方向性から先駆的に行う。(i) Ego4Dから適切に選別された380万件のクリップ・テキストペアを収集し、日常的な人間の行動を広範にカバーする初の第一人称視点ビデオ・テキスト事前学習データセット「EgoClip」を構築した。(ii) エゴセントリックな特徴を意識したポジティブ・サンプルとネガティブ・サンプルを抽出する手法を導入し、第一人称視点に適応した新しい事前学習目的「EgoNCE」を提案した。(iii) EgoClipと同様の構成を持つ開発ベンチマーク「EgoMCQ」を導入することで、EgoClipおよびEgoNCEの設計選定に対する効果的な検証と迅速な探索を可能とした。さらに、EPIC-KITCHENS-100におけるビデオ・テキスト検索、Charades-Egoにおける行動認識、およびEgo4Dチャレンジベンチマークにおける自然言語クエリ、モーメントクエリ、オブジェクト状態変化分類という5つのエゴセントリック下流タスクにおいて、高い性能を実証した。本研究で開発したデータセットおよびコードは、https://github.com/showlab/EgoVLP にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています