Reconnaissance d'actions zéro-shot avec des codes de sortie correcteurs d'erreurs

Récemment, la reconnaissance d’actions sans échantillon (ZSAR, zero-shot action recognition) a émergé en réponse à la croissance exponentielle du nombre de catégories d’actions. Dans ce travail, nous explorons la ZSAR sous un nouvel angle en introduisant un code de sortie correcteur d’erreurs (appelé ZSECOC). Notre approche ZSECOC confère au cadre classique ECOC (Error-Correcting Output Codes) une capacité supplémentaire pour la ZSAR, en abordant efficacement le problème du décalage de domaine. Plus précisément, nous apprenons un code ZSECOC discriminant pour les catégories observées en exploitant à la fois les sémantiques au niveau des catégories et les structures intrinsèques des données. Ce processus traite implicitement le décalage de domaine en transférant les corrélations bien établies entre les catégories observées vers celles non vues. En outre, une stratégie simple de transfert sémantique est proposée pour transformer explicitement les embeddings appris pour les catégories observées, afin qu’ils s’ajustent mieux à la structure sous-jacente des catégories non vues. En conséquence, notre ZSECOC hérite des caractéristiques prometteuses de ECOC tout en surmontant le décalage de domaine, ce qui le rend plus discriminant pour la ZSAR. Nous évaluons systématiquement ZSECOC sur trois benchmarks réalistes d’actions : Olympic Sports, HMDB51 et UCF101. Les résultats expérimentaux démontrent clairement l’avantage de ZSECOC par rapport aux méthodes de pointe actuelles.