Command Palette
Search for a command to run...
Home Action Genome: Kooperative kompositionale Handlungsverstehens
Home Action Genome: Kooperative kompositionale Handlungsverstehens
Nishant Rai Haofeng Chen Jingwei Ji Rishi Desai Kazuki Kozuka Shun Ishizaka Ehsan Adeli Juan Carlos Niebles
Zusammenfassung
Bestehende Forschung zur Aktionserkennung behandelt Aktivitäten als monolithische Ereignisse, die in Videos auftreten. In jüngster Zeit hat sich gezeigt, dass die Formulierung von Aktionen als Kombination von atomaren Aktionen (atomic-actions) vielversprechend ist, um das Verständnis von Aktionen zu verbessern, insbesondere mit dem Aufkommen von Datensätzen, die solche Annotationen enthalten, was es uns ermöglicht, Darstellungen zu lernen, die diese Informationen erfassen. Dennoch fehlen bisher Studien, die die Komposition von Aktionen erweitern und mehrere Perspektiven sowie mehrere Modalitäten zur Darstellungslernung nutzen. Um die Forschung in diese Richtung voranzutreiben, führen wir den Home Action Genome (HOMAGE) ein: einen multimodalen, mehrperspektivischen Aktionsdatensatz, der ergänzt wird durch hierarchische Aktivitäts- und atomare Aktionslabels sowie dichte Szenen-Zusammensetzungslabels. Unter Ausnutzung der reichhaltigen multimodalen und mehrperspektivischen Datenstruktur schlagen wir Cooperative Compositional Action Understanding (CCAU) vor – einen kooperativen Lernrahmen für hierarchische Aktionserkennung, der bewusst die kompositorischen Elemente von Aktionen berücksichtigt. CCAU zeigt konsistente Leistungsverbesserungen über alle Modalitäten hinweg. Darüber hinaus demonstrieren wir die Nützlichkeit des kooperativen Lernens von Kompositionen in Few-Shot-Aktionserkennung, indem wir eine mAP von 28,6 % bereits mit nur einem einzigen Beispiel erreichen.