Ref-AVS オーディオビジュアル シーン セグメンテーション データセット

Ref-AVS データセットは、中国人民大学、北京郵電大学、上海人工知能研究所の研究者によって 2024 年にリリースされました。関連する論文結果は「Ref-AVS: オーディオビジュアルシーン内のオブジェクトの参照とセグメント化」がECCV2024に採択されました。

Ref-AVS データセットは、オーディオビジュアル シーンにおけるオブジェクト セグメンテーション タスクのベンチマークであり、ピクセル レベルの注釈を提供し、特にオーディオ情報とビジュアル情報の融合を伴うアプリケーションにおけるマルチモーダル機械学習モデルの開発を容易にするように設計されています。複雑なタスクで。

研究チームは、20の楽器、8の動物、15の機械、5の人間という48のカテゴリーから複数の可聴物体を選択しました。注釈は、チームのカスタマイズされた GSAI タグ付けシステムを使用して収集されました。

ビデオ取得プロセス中に、研究チームは文献 [3, 47] で紹介されている手法を採用して、オーディオ クリップとビデオ クリップが意図したセマンティクスと一致していることを確認しました。すべてのビデオはクリエイティブ コモンズ ライセンスに基づいて YouTube から提供されており、各ビデオは 10 秒の長さにトリミングされています。手動収集プロセスを通じて、私たちは意図的にビデオを次のカテゴリに分類することを避けました。1) 多数の同一のセマンティクスを持つビデオ、2) 多数の編集およびカメラ切り替え属性を持つビデオ、3) 合成アーティファクトを含む非本物のビデオ。

Ref-AVS.torrent

做种 1

下载中 0

已完成 22

总下载 38

  • Ref-AVS/
    • README.md
      1.96 KB
    • README.txt
      3.91 KB
      • data/
        • refavs.zip
          16.28 GB