Lernen von langfristigen räumlich-zeitlichen Graphen für die Erkennung aktiver Sprecher

Die Erkennung des aktiven Sprechers (Active Speaker Detection, ASD) in Videos mit mehreren Sprechern ist eine herausfordernde Aufgabe, da sie das Lernen effektiver audiovisueller Merkmale und räumlich-zeitlicher Korrelationen über lange zeitliche Fenster erfordert. In dieser Arbeit stellen wir SPELL vor, einen neuen räumlich-zeitlichen Graphen-Lernrahmen, der komplexe Aufgaben wie ASD lösen kann. Dazu wird zunächst jede Person in einem Video-Bild in einem eindeutigen Knoten für dieses Bild kodiert. Knoten, die einer einzelnen Person über mehrere Bilder entsprechen, werden verbunden, um ihre zeitlichen Dynamiken zu kodieren. Innerhalb eines Bildes werden auch die Knoten miteinander verbunden, um zwischenmenschliche Beziehungen zu kodieren. Somit reduziert SPELL ASD auf eine Knotenklassifikationsaufgabe. Wichtig ist, dass SPELL in der Lage ist, ohne auf rechenintensive vollständig vernetzte Graphen-neuronale Netze zurückzugreifen, über lange zeitliche Kontexte für alle Knoten zu schließen. Durch umfangreiche Experimente am AVA-ActiveSpeaker-Datensatz zeigen wir, dass das Lernen von graphbasierten Darstellungen die Leistung der aktiven Sprechererkennung dank ihrer expliziten räumlichen und zeitlichen Struktur erheblich verbessern kann. SPELL übertreffen alle bisherigen Stand-von-der-Kunst-Ansätze und benötigt dabei erheblich weniger Speicher- und Rechenressourcen. Unser Code ist öffentlich verfügbar unter https://github.com/SRA2/SPELL