HyperAIHyperAI
il y a 17 jours

Plus c’est gros, moins c’est bon : apprentissage de représentations vidéo efficaces par réseau Big-Little et agrégation temporelle creuse

Quanfu Fan, Chun-Fu Chen, Hilde Kuehne, Marco Pistoia, David Cox
Plus c’est gros, moins c’est bon : apprentissage de représentations vidéo efficaces par réseau Big-Little et agrégation temporelle creuse
Résumé

Les modèles actuels d’avant-garde pour la reconnaissance d’actions vidéo reposent principalement sur des réseaux de convolution 3D coûteux. Cela entraîne la nécessité d’utiliser de grands clusters de GPU pour entraîner et évaluer ces architectures. Pour remédier à ce problème, nous proposons une architecture légère et économe en mémoire pour la reconnaissance d’actions, capable de rivaliser ou de surpasser les architectures actuelles tout en utilisant uniquement une fraction des ressources. L’architecture proposée repose sur une combinaison d’un sous-réseau profond opérant sur des images à faible résolution et d’un sous-réseau compact fonctionnant sur des images à haute résolution, permettant ainsi d’obtenir à la fois une grande efficacité et une haute précision. Nous démontrons que notre approche réduit les FLOPs de $3\sim4$ fois et la consommation mémoire d’environ $2$ fois par rapport à la base. Cela permet d’entraîner des modèles plus profonds avec un plus grand nombre d’images d’entrée, dans le même budget computationnel. Pour réduire davantage la nécessité d’opérations de convolution 3D à grande échelle, nous proposons un module d’agrégation temporelle permettant de modéliser les dépendances temporelles dans une vidéo à un coût computationnel négligeable. Nos modèles obtiennent des performances solides sur plusieurs benchmarks de reconnaissance d’actions, notamment Kinetics, Something-Something et Moments-in-time. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/IBM/bLVNet-TAM.

Plus c’est gros, moins c’est bon : apprentissage de représentations vidéo efficaces par réseau Big-Little et agrégation temporelle creuse | Articles de recherche récents | HyperAI