インペプションテスト:マルチモーダル動画モデル向け診断ベンチマーク

我々は、事前学習されたマルチモーダルモデル(例:Flamingo、SeViLA、GPT-4など)の知覚および推論能力を評価するための新規マルチモーダル動画ベンチマーク「Perception Test」を提案する。既存のベンチマークが分類、検出、追跡などの計算タスクに焦点を当てているのに対し、Perception Testは動画、音声、テキストの各モダリティにおいて、記憶、抽象化、物理的理解、意味理解といった知覚スキルと、記述的、説明的、予測的、反事実的といった推論タイプに着目し、包括的かつ効率的な評価ツールを提供する。このベンチマークは、ゼロショット/少ショット、または制限付き微調整の設定において、事前学習モデルの転移能力を評価することを目的としている。この目的のため、Perception Testは世界約100名の参加者によって撮影された、11,600本のリアルワールド動画(平均長さ23秒)を用意しており、視覚的に興味深い状況を示すように設計されている。これらの動画は、複数選択式および文脈に根ざした動画質問・回答、オブジェクトおよびポイントの追跡、時間的行動および音声セグメントの6種類のラベルにより密にアノテーションされており、言語的評価と非言語的評価の両方が可能である。ベンチマークの微調整用データセットおよび検証用データセットは、CC-BYライセンスのもとで公開されており、ホールドアウトされたテストデータセットを備えたチャレンジサーバーも提供されている。最先端の動画QAモデルと比較した人間のベースライン結果(91.4%対46.2%)は、マルチモーダル動画理解の分野において大幅な改善余地があることを示唆している。データセット、ベースラインコード、チャレンジサーバーは、https://github.com/deepmind/perception_test で公開されている。