HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage mutuel de modalités pour la classification d’actions vidéo

Stepan Komkov Maksim Dzabraev Aleksandr Petiushko

Résumé

La construction de modèles pour la classification d’actions vidéo progresse rapidement. Toutefois, les performances de ces modèles peuvent encore être facilement améliorées par l’ensemblage de modèles identiques entraînés sur différentes modalités (par exemple, le flux optique). Malheureusement, l’utilisation de plusieurs modalités pendant l’inférence s’avère coûteuse en termes de ressources computationnelles. Des travaux récents ont exploré des moyens d’intégrer les avantages de la multi-modalité dans un seul modèle basé sur les images RGB. Pourtant, des améliorations restent possibles. Dans cet article, nous étudions diverses méthodes pour intégrer le pouvoir d’ensemblage dans un seul modèle. Nous démontrons que l’initialisation appropriée, ainsi que l’apprentissage mutuel entre modalités, permettent d’améliorer significativement les modèles mono-modalités. En conséquence, nous obtenons des résultats de pointe sur le benchmark Something-Something-v2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage mutuel de modalités pour la classification d’actions vidéo | Articles | HyperAI