HyperAI超神経

SA-V: メタは最大のビデオ セグメンテーション データセットを構築します

特色图像

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

SA-V データ セットは、2024 年に Meta Company によって構築された大規模なビデオ セグメンテーション データ セットです。これは、Meta Segment Anything Model 2 (略して SAM 2) のトレーニングと評価に使用されます。このデータセットはサイズと多様性が非常に大きく、約 51,000 の実世界のビデオと 643,000 の時空間マスクレット アノテーションが含まれており、これは他の同様のデータセットよりも約 50 倍大きいです。

SA-V データセットは、アノテーターが SAM 2 モデルを使用してビデオ内のマスクレットにインタラクティブにアノテーションを付ける反復プロセスを使用して構築され、これらの新しくアノテーションが付けられたデータは、SAM 2 モデルの更新とトレーニングに使用されます。このアプローチは、データ収集の効率を向上させるだけでなく、より正確で多様なデータセットの構築にも役立ちます。

さらに、SA-V データセットのビデオは 47 か国から発信されており、多様な地理と現実世界のシナリオをカバーしており、学習と一般化のための豊富な視覚コンテンツをモデルに提供します。データセット内のアノテーションには、オブジェクト全体だけでなく、人々の帽子などのオブジェクトの一部や、オブジェクトが遮られたり、消えたり、再び現れたりする困難なインスタンスも含まれます。

このデータセットのリリースと SAM 2 モデルのオープンソースは、ビデオ編集、複合現実、ロボット工学、自動運転、ビデオ コンテンツの理解などの複数の分野で新しいアプリケーションを探索するための強力なツールを研究者や開発者に提供します。革新。

データセットの構造

– トレーニング セグメンテーション: ビデオは MP4 でエンコードされ、各ファイルは約 8G、sav_000.tar – sav_055.tar です。マスクレットは COCO ランレングス エンコーディング (RLE) 形式 (リストのリスト) を使用し、外側のリストがビデオ フレームの上に配置されます。

– Val/Test 分割: ビデオ フレームは JPEG 形式で、各ファイルは約 16G、sav_val.tar および sav_test.tar です。マスクレットは PNG 形式です。

SA-VDataset.torrent
シーディング 0ダウンロード中 3ダウンロード完了 403総ダウンロード数 811
  • SA-VDataset/
    • README.md
      2.38 KB
    • README.txt
      4.75 KB
      • data/
        • SA-V.zip
          441.6 GB