日付

2年前

サイズ

441.6 GB

データセット構成

公開URL

github.com

ライセンス

CC BY 4.0

タグ

マルチモーダル

画像分割

コンピュータビジョン

SA-V データセットは、2024 年に Meta Company によって構築された大規模なビデオセグメンテーションデータセットです。これは、Meta Segment Anything Model 2 (略して SAM 2) のトレーニングと評価に使用されます。このデータセットはサイズと多様性が非常に大きく、約 51,000 の実世界のビデオと 643,000 の時空間マスクレットアノテーションが含まれており、これは他の同様のデータセットよりも約 50 倍大きいです。 SA-V データセットは、アノテーターが SAM 2 モデルを使用してビデオ内のマスクレットにインタラクティブにアノテーションを付ける反復プロセスを使用して構築され、これらの新しくアノテーションが付けられたデータは、SAM 2 モデルの更新とトレーニングに使用されます。このアプローチは、データ収集の効率を向上させるだけでなく、より正確で多様なデータセットの構築にも役立ちます。さらに、SA-V データセットのビデオは 47 か国から発信されており、多様な地理と現実世界のシナリオをカバーしており、学習と一般化のための豊富な視覚コンテンツをモデルに提供します。データセット内のアノテーションには、オブジェクト全体だけでなく、人々の帽子などのオブジェクトの一部や、オブジェクトが遮られたり、消えたり、再び現れたりする困難なインスタンスも含まれます。このデータセットのリリースと SAM 2 モデルのオープンソースは、ビデオ編集、複合現実、ロボット工学、自動運転、ビデオコンテンツの理解などの複数の分野で新しいアプリケーションを探索するための強力なツールを研究者や開発者に提供します。革新。

データセットの構造

– トレーニングセグメンテーション: ビデオは MP4 でエンコードされ、各ファイルは約 8G、sav_000.tar – sav_055.tar です。マスクレットは COCO ランレングスエンコーディング (RLE) 形式 (リストのリスト) を使用し、外側のリストがビデオフレームの上に配置されます。 – Val/Test 分割: ビデオフレームは JPEG 形式で、各ファイルは約 16G、sav_val.tar および sav_test.tar です。マスクレットは PNG 形式です。

SA-VDataset.torrent

シーディング 0ダウンロード中 2完了 701総ダウンロード数 1,428