HyperAIHyperAI

Command Palette

Search for a command to run...

Console

AudioBox-Aesthetics オーディオ美学評価デモ

1. チュートリアルの概要

GitHubスター

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. 効果例

評価の次元説明する
生産品質(PQ)主観的な品質ではなく、音質の技術的な側面に焦点を当てます。音質には、明瞭度、忠実度、ダイナミックレンジ、周波数、空間表現などが含まれます。
制作の複雑さ(PC)オーディオコンポーネントの数で測定されたオーディオシーンの複雑さに焦点を当てます
コンテンツの楽しみ(CE)オーディオ作品の主観的な品質に焦点を当て、感情的な影響、芸術的なスキル、芸術的な表現、主観的な経験などのオープンな次元をカバーします。
コンテンツの有用性(CU)コンテンツ制作の素材としてのオーディオの可能性を主観的な側面から評価する

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてGradioインタラクティブインターフェースに入ります。

2. ウェブページに入ると、モデルを使用できます

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

予防

  • 最適なパフォーマンスを確保するには、10 MB 以下、長さが 60 秒以下のオーディオ ファイルをアップロードすることをお勧めします。
  • 複数の楽器による交響曲などの複雑なオーディオ コンテンツでは、評価に長い時間が必要になる場合があります。
  • 評価が失敗した場合は、ファイル形式を確認するか、オーディオ クリップを短くしてみてください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています