日付

2年前

サイズ

16.28 GB

データセット構成

公開URL

gewu-lab.github.io

Paper URL

arxiv.org

タグ

マルチモーダル

Ref-AVS データセットは、中国人民大学、北京郵電大学、上海人工知能研究所の研究者によって 2024 年にリリースされました。関連する論文結果は「Ref-AVS: オーディオビジュアルシーン内のオブジェクトの参照とセグメント化」がECCV2024に採択されました。 Ref-AVS データセットは、オーディオビジュアルシーンにおけるオブジェクトセグメンテーションタスクのベンチマークであり、ピクセルレベルの注釈を提供し、特にオーディオ情報とビジュアル情報の融合を伴うアプリケーションにおけるマルチモーダル機械学習モデルの開発を容易にするように設計されています。複雑なタスクで。研究チームは、20の楽器、8の動物、15の機械、5の人間という48のカテゴリーから複数の可聴物体を選択しました。注釈は、チームのカスタマイズされた GSAI タグ付けシステムを使用して収集されました。ビデオ取得プロセス中に、研究チームは文献 [3, 47] で紹介されている手法を採用して、オーディオクリップとビデオクリップが意図したセマンティクスと一致していることを確認しました。すべてのビデオはクリエイティブコモンズライセンスに基づいて YouTube から提供されており、各ビデオは 10 秒の長さにトリミングされています。手動収集プロセスを通じて、私たちは意図的にビデオを次のカテゴリに分類することを避けました。1) 多数の同一のセマンティクスを持つビデオ、2) 多数の編集およびカメラ切り替え属性を持つビデオ、3) 合成アーティファクトを含む非本物のビデオ。

Ref-AVS.torrent

シーディング 1ダウンロード中 0完了 168総ダウンロード数 252