HyperAIHyperAI超神経
ホームニュース論文チュートリアルデータセット百科事典SOTALLMモデルGPU ランキング学会
検索
サイトについて
日本語
HyperAIHyperAI超神経
  1. ホーム
  2. SOTA
  3. ビデオからサウンド生成
  4. Video To Sound Generation On Vgg Sound

Video To Sound Generation On Vgg Sound

評価指標

FAD
FD

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

モデル名
FAD
FD
Paper TitleRepository
ReWas2.1615.24Read, Watch and Scream! Sound Generation from Text and Video
Frieren1.3212.26Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching
MMAudio-S-16kHz0.795.22Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
MaskVAT_Hybrid2.04-Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity-
MMAudio-L-44.1kHz0.974.72Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
V-AURA1.92-Temporally Aligned Audio for Video with Autoregression
V2A-Mapper0.84124.168V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models
VATT-LLama2.38-Tell What You Hear From What You See -- Video to Audio Generation Through Text
0 of 8 row(s) selected.
HyperAI

学習、理解、実践、コミュニティと共に人工知能の未来を構築する

日本語

サイトについて

私たちについてデータセットヘルプ

プロダクト

ニュースチュートリアルデータセット百科事典

リンク

TVM 中国語Apache TVMOpenBayes

© HyperAI超神経

TwitterBilibili