Few-Shot-Klassifizierung interaktiver Alltagsaktivitäten (InteractADL)

Das Verständnis von Aktivitäten des täglichen Lebens (ADLs) ist ein entscheidender Schritt für verschiedene Anwendungen, darunter Assistenzroboter, intelligente Heime und Gesundheitsversorgung. Bislang haben jedoch nur wenige Benchmarks und Methoden sich auf komplexe ADLs konzentriert, insbesondere solche, die Mehrpersoneninteraktionen in häuslichen Umgebungen betreffen. In dieser Arbeit schlagen wir einen neuen Datensatz und Benchmark vor, den InteractADL, zur Analyse komplexer ADLs, die Interaktionen zwischen Menschen (und Objekten) umfassen. Komplexe ADLs in häuslichen Umgebungen sind außerdem durch eine herausfordernde langschwänzige Verteilung gekennzeichnet, da Mehrpersoneninteraktionen selten sind. Zudem erfordern sie feinkörnige visuelle Klassifizierungsaufgaben aufgrund der Anwesenheit semantisch und visuell ähnlicher Klassen. Um diese Probleme zu lösen, schlagen wir eine neuartige Methode für feinkörnige Few-Shot-Videoklassifizierung vor, die als Name Tuning bezeichnet wird und durch das Lernen optimaler Klassennamevektoren eine bessere semantische Trennung ermöglicht. Wir zeigen, dass Name Tuning mit bestehenden Prompt-Tuning-Strategien kombiniert werden kann, um den gesamten Eingabetext zu lernen (statt nur den Prompt oder die Klassenname) und verbesserte Leistung bei Few-Shot-Klassifizierung auf InteractADL sowie vier anderen Benchmarks für feinkörnige visuelle Klassifizierung demonstrieren. Für Transparenz und Reproduzierbarkeit veröffentlichen wir unseren Code unter https://github.com/zanedurante/vlm_benchmark.