Classification Few-Shot des Activités Interactives de la Vie Quotidienne (InteractADL)

Comprendre les Activités de la Vie Quotidienne (ADLs) est une étape cruciale pour diverses applications, notamment les robots d'assistance, les maisons intelligentes et les soins de santé. Cependant, jusqu'à présent, peu de référentiels et de méthodes se sont concentrés sur des ADLs complexes, en particulier celles impliquant des interactions entre plusieurs personnes dans un environnement domestique. Dans cet article, nous proposons un nouveau jeu de données et un référentiel, InteractADL, destiné à la compréhension des ADLs complexes impliquant des interactions entre humains (et objets). De plus, les ADLs complexes se produisant dans des environnements domestiques présentent une distribution à queue longue difficile en raison de la rareté des interactions entre plusieurs personnes, et posent des tâches de reconnaissance visuelle fine en raison de l'existence de classes sémantiquement et visuellement similaires. Pour aborder ces problèmes, nous proposons une nouvelle méthode de classification vidéo à faible échantillonnage appelée Name Tuning qui permet une meilleure séparabilité sémantique en apprenant des vecteurs optimaux pour les noms de classe. Nous montrons que le Name Tuning peut être combiné avec des stratégies existantes d'ajustement de prompts pour apprendre l'ensemble du texte d'entrée (plutôt que d'apprendre uniquement le prompt ou les noms de classe) et démontrons une amélioration des performances pour la classification à faible échantillonnage sur InteractADL ainsi que sur quatre autres référentiels de classification visuelle fine. Pour assurer la transparence et la reproductibilité, nous mettons notre code à disposition sur https://github.com/zanedurante/vlm_benchmark.