HyperAI초신경

AudioBox-Aesthetics 오디오 미학 평가 데모

1. 튜토리얼 소개

GitHub 스타

Audiobox-Aesthetics는 Meta AI(Facebook Research)가 2025년 2월 7일에 출시한 오디오 품질 평가 도구입니다. 딥러닝 기술을 기반으로 음성, 음악, 환경 소리에 대한 다차원 자동 분석을 실현하고, 4가지 핵심 차원을 통해 오디오 품질을 종합적으로 평가하며, 오디오 제작자, 엔지니어, 연구자에게 전문가 수준의 정량적 분석 결과를 제공합니다.Meta Audiobox Aesthetics: 음성, 음악 및 사운드에 대한 통합 자동 품질 평가".

이 튜토리얼에서는 단일 RTX 4090 카드에 대한 리소스를 사용합니다.

2. 효과 예시

평가 차원설명하다
생산 품질(PQ)주관적인 품질보다는 기술적 품질 측면에 집중하세요. 오디오 선명도, 충실도, 다이내믹 레인지, 주파수, 공간화 등을 포함합니다.
생산 복잡성(PC)오디오 구성 요소의 수로 측정되는 오디오 장면의 복잡성에 초점을 맞춥니다.
콘텐츠 즐거움(CE)감정적 영향, 예술적 기술, 예술적 표현 및 주관적 경험과 같은 열린 차원을 포괄하여 오디오 작품의 주관적 품질에 초점을 맞춥니다.
콘텐츠 유용성(CU)주관적 관점에서 오디오를 콘텐츠 제작 소재로 활용할 가능성을 평가한다.

3. 작업 단계

1. 컨테이너를 시작한 후 API 주소를 클릭하여 Gradio 대화형 인터페이스에 들어갑니다.

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

지침

  • 최적의 성능을 보장하려면 크기가 10MB 이하, 길이가 60초 이하인 오디오 파일을 업로드하는 것이 좋습니다.
  • 여러 악기로 구성된 심포니와 같은 복잡한 오디오 콘텐츠의 경우 평가 시간이 더 길어질 수 있습니다.
  • 평가에 실패하면 파일 형식을 확인하거나 오디오 클립을 줄여보세요.

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{tjandra2025aes,
    title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound},
    author={Andros Tjandra and Yi-Chiao Wu and Baishan Guo and John Hoffman and Brian Ellis and Apoorv Vyas and Bowen Shi and Sanyuan Chen and Matt Le and Nick Zacharov and Carleigh Wood and Ann Lee and Wei-Ning Hsu},
    year={2025},
    url={https://arxiv.org/abs/2502.05139}
}