Lange rekurrente Faltungsnetzwerke für visuelle Erkennung und Beschreibung

Modelle auf der Basis von tiefen Faltungsnetzen haben kürzlich die Bildinterpretation dominiert; wir untersuchen, ob Modelle, die auch rekurrent sind oder „zeitlich tief“, für Aufgaben, die Sequenzen betreffen – visuelle und andere – effektiv sind. Wir entwickeln eine neuartige rekurrente Faltungsarchitektur, die für groß angelegtes visuelles Lernen geeignet ist und end-to-end trainierbar ist, und zeigen den Wert dieser Modelle anhand von Benchmark-Aufgaben zur Videoklassifikation, Problemen der Bildbeschreibung und -retrieval sowie Herausforderungen bei Videoerzählungen. Im Gegensatz zu aktuellen Modellen, die einen festen räumlich-zeitlichen Rezeptivbereich oder einfache zeitliche Mittelwerte für sequenzielle Verarbeitung annehmen, sind rekurrente Faltungsmodelle „doppelt tief“ in dem Sinne, dass sie in räumlichen und zeitlichen „Schichten“ kompositionell sein können. Solche Modelle könnten Vorteile bieten, wenn Zielkonzepte komplex sind und/oder Trainingsdaten begrenzt sind. Das Lernen von langfristigen Abhängigkeiten ist möglich, wenn Nichtlinearitäten in die Netzwerkzustandsaktualisierungen integriert werden. Langfristige RNN-Modelle sind attraktiv, da sie Variablenlängeneingaben (z.B. Videobilder) direkt auf Variablenlängenausgaben (z.B. natürlichsprachlichen Text) abbilden können und komplexe zeitliche Dynamiken modellieren können; gleichzeitig lassen sich diese Modelle mit Backpropagation optimieren. Unsere rekurrenten langfristigen Modelle sind direkt mit modernen visuellen ConvNet-Modellen verbunden und können gemeinsam trainiert werden, um sowohl zeitliche Dynamiken als auch faltungsbasierte Wahrnehmungsrepräsentationen simultan zu lernen. Unsere Ergebnisse zeigen, dass solche Modelle erhebliche Vorteile gegenüber den besten bisher bekannten Modellen für Klassifikation oder Generierung haben, die getrennt definiert und/oder optimiert wurden.