HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de la reconnaissance d'activités procédurales par supervision à distance

Xudong Lin Fabio Petroni Gedas Bertasius Marcus Rohrbach Shih-Fu Chang Lorenzo Torresani

Résumé

Dans cet article, nous abordons le problème de la classification d'activités fines à plusieurs étapes (par exemple, cuisiner différentes recettes, réaliser divers aménagements domestiques, créer diverses formes d'art et de bricolage) à partir de vidéos longues d'une durée pouvant atteindre plusieurs minutes. Une catégorisation précise de ces activités nécessite non seulement la reconnaissance des étapes individuelles qui composent la tâche, mais aussi la capture de leurs dépendances temporelles. Ce problème diffère fortement de la classification d'actions traditionnelle, où les modèles sont généralement optimisés sur des vidéos d'une durée de quelques secondes, et soigneusement coupées pour ne contenir que des actions atomiques simples. Bien que l'annotation des étapes puisse permettre l'entraînement de modèles capables de reconnaître les étapes individuelles des activités procédurales, les jeux de données à grande échelle existants dans ce domaine ne comprennent pas de balises segmentaires, en raison du coût prohibitif de l'annotation manuelle des frontières temporelles dans des vidéos longues. Pour pallier ce problème, nous proposons d'identifier automatiquement les étapes dans les vidéos explicatives en exploitant la supervision à distance fournie par une base de connaissances textuelles (wikiHow), qui contient des descriptions détaillées des étapes nécessaires à l'exécution d'une grande variété d'activités complexes. Notre méthode utilise un modèle linguistique pour associer le discours automatiquement transcrit (parfois bruité) extrait de la vidéo aux descriptions d'étapes présentes dans la base de connaissances. Nous démontrons que les modèles vidéo entraînés pour reconnaître ces étapes automatiquement étiquetées (sans supervision manuelle) produisent une représentation capable d'obtenir des performances supérieures en généralisation sur quatre tâches ultérieures : reconnaissance d'activités procédurales, classification d'étapes, prédiction d'étapes et classification de vidéos égocentriques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp