HyperAI超神経

AudioBox-Aesthetics オーディオ美学評価デモ

1. チュートリアルの概要

GitHubスター

Audiobox-Aestheticsは、Meta AI(Facebook Research)が2025年2月7日にリリースしたオーディオ品質評価ツールです。ディープラーニング技術をベースに、音声、音楽、環境音の多次元自動分析を実現し、4つのコア次元でオーディオ品質を総合的に評価し、オーディオクリエイター、エンジニア、研究者にプロレベルの定量分析を提供します。Meta Audiobox Aesthetics: 音声、音楽、サウンドの統合自動品質評価”。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. 効果例

評価の次元説明する
生産品質(PQ)主観的な品質ではなく、音質の技術的な側面に焦点を当てます。音質には、明瞭度、忠実度、ダイナミックレンジ、周波数、空間表現などが含まれます。
制作の複雑さ(PC)オーディオコンポーネントの数で測定されたオーディオシーンの複雑さに焦点を当てます
コンテンツの楽しみ(CE)オーディオ作品の主観的な品質に焦点を当て、感情的な影響、芸術的なスキル、芸術的な表現、主観的な経験などのオープンな次元をカバーします。
コンテンツの有用性(CU)コンテンツ制作の素材としてのオーディオの可能性を主観的な側面から評価する

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてGradioインタラクティブインターフェースに入ります。

2. ウェブページに入ると、モデルを使用できます

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

予防

  • 最適なパフォーマンスを確保するには、10 MB 以下、長さが 60 秒以下のオーディオ ファイルをアップロードすることをお勧めします。
  • 複数の楽器による交響曲などの複雑なオーディオ コンテンツでは、評価に長い時間が必要になる場合があります。
  • 評価が失敗した場合は、ファイル形式を確認するか、オーディオ クリップを短くしてみてください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}