Rekurrente Modelle für Situationserkennung

Diese Arbeit schlägt Modelle mit rekurrenten neuronalen Netzen (RNN) vor, um strukturierte "Bildsituationen" – Aktionen und Substantive, die semantische Rollen in Bezug auf die Aktion erfüllen – vorherzusagen. Im Gegensatz zu früheren Arbeiten, die auf bedingten Markowfeldern (CRFs) basieren, verwenden wir ein spezialisiertes Netzwerk zur Aktionserkennung, gefolgt von einem RNN für die Vorhersage von Substantiven. Unser System erreicht den aktuellen Stand der Technik in Bezug auf Genauigkeit beim anspruchsvollen imSitu-Datensatz und übertrifft CRF-basierte Modelle, einschließlich solcher, die mit zusätzlichen Daten trainiert wurden. Darüber hinaus zeigen wir, dass spezialisierte Merkmale, die aus der Situationserkennung gelernt werden, auf die Aufgabe des Bildbeschriftens übertragen werden können, um mensch-objekt-Interaktionen genauer zu beschreiben.