il y a 2 mois
UAVM : Vers l'unification des modèles audio et visuels
Yuan Gong; Alexander H. Liu; Andrew Rouditchenko; James Glass

Résumé
Les modèles audiovisuels conventionnels possèdent des branches audio et vidéo indépendantes. Dans cette étude, nous unifions ces branches en concevant un Modèle Audiovisuel Unifié (UAVM). L'UAVM atteint une nouvelle performance de pointe en matière de classification d'événements audiovisuels, avec une précision de 65,8 % sur VGGSound. De manière plus intéressante encore, nous avons également découvert quelques propriétés intrigantes de l'UAVM que ses homologues indépendants des modalités ne possèdent pas.