DnS: Distill-and-Select für effiziente und genaue Video-Indexierung und -Abfrage

In dieser Arbeit behandeln wir das Problem der hochleistungsfähigen und recheneffizienten inhaltsbasierten Video-Abfrage in großskaligen Datensätzen. Aktuelle Ansätze schlagen entweder (i) feinabgestimmte Methoden vor, die spatio-temporäre Repräsentationen und Ähnlichkeitsberechnungen verwenden und eine hohe Genauigkeit bei hohem Rechenaufwand erzielen, oder (ii) grobgranulare Ansätze, bei denen Videos als globale Vektoren repräsentiert bzw. indiziert werden, wodurch jedoch die spatio-temporale Struktur verloren geht und nur eine geringe Abfragegenauigkeit erzielt wird – allerdings mit niedrigem Rechenaufwand. In dieser Arbeit stellen wir einen Knowledge-Distillation-Framework namens Distill-and-Select (DnS) vor, der ausgehend von einem leistungsstarken feinabgestimmten Teacher-Netzwerk folgendes lernt: a) Student-Netzwerke mit unterschiedlichen Kompromissen zwischen Abfrageleistung und rechentechnischer Effizienz und b) ein Selector-Netzwerk, das zur Testzeit Proben schnell an den geeigneten Studenten weiterleitet, um sowohl hohe Abfragegenauigkeit als auch hohe Recheneffizienz zu gewährleisten. Wir trainieren mehrere Studenten mit unterschiedlichen Architekturen und erzielen verschiedene Kompromisse zwischen Leistung und Effizienz, d. h. Geschwindigkeit und Speicheranforderungen, einschließlich feinabgestimmter Studenten, die Videos mittels binärer Repräsentationen speichern bzw. indizieren. Wichtig ist, dass das vorgeschlagene Verfahren Knowledge Distillation auch in großen, unbeschrifteten Datensätzen ermöglicht – was zu hochwertigen Studenten führt. Wir evaluieren DnS an fünf öffentlichen Datensätzen für drei verschiedene Aufgaben der Video-Abfrage und zeigen, dass a) unsere Studenten in mehreren Fällen die bisher besten Ergebnisse erzielen und b) der DnS-Framework eine hervorragende Balance zwischen Abfragegenauigkeit, Rechengeschwindigkeit und Speicherplatzbedarf bietet. In spezifischen Konfigurationen erreicht die vorgeschlagene Methode eine vergleichbare mAP wie der Teacher, ist jedoch 20-mal schneller und benötigt 240-mal weniger Speicherplatz. Das gesammelte Datenset und die Implementierung sind öffentlich verfügbar: https://github.com/mever-team/distill-and-select.