AVA (Atomic Visual Actions の正式名) は、ロボットが人間の活動を理解できるように訓練するために設計された、オーディオビジュアルの注釈を備えたビデオ データ セットです。各ビデオクリップにはアノテーターによって詳細な注釈が付けられており、これらの注釈はさまざまなシーン、録画状況、人間の活動の表現を反映しています。
データセットの注釈には次のものが含まれます。
- キネティクス (AVA-Kinetics): AVA と Kinetics を組み合わせたものです。より広範囲のビジュアル シーンにローカライズされたアクション タグを提供するために、著者は Kinetics-700 ビデオに AVA アクション タグを提供しました。アノテーションの総数はほぼ 2 倍になり、特定の種類のビデオの数は 500 以上増加しました。回。
- アクション (AvA-Actions): AVA データ セットは、430 個の 15 分のムービー クリップ内の 80 個のアトミックなビジュアル アクションに密に注釈を付けます。これらのアクションは空間と時間内に配置され、結果として 162 万個のアクション ラベルが作成され、そのうちの多数のラベルが適用されます。頻繁に。
- 音声アクティビティ (AVA ActiveSpeaker、AVA Speech): AVA ActiveSpeaker は、AVA v1.0 ビデオ内のサウンドと表示される顔を接続し、約 39,000 の顔に 365 万のフレームをマークします。 AVA Speech は、AVA v1.0 ビデオの音声アクティビティに密に注釈を付け、3 つの背景雑音条件に明示的に注釈を付けます。その結果、45 時間にわたる約 4,600 の注釈付きクリップが得られます。