DAG-Rekurrente Neuronale Netze für die Szenebeschriftung

Bei der Bildbeschriftung werden lokale Darstellungen für Bildsegmente in der Regel aus ihren umliegenden Bildabschnitten generiert, wodurch langreichweitige kontextuelle Informationen nicht effektiv kodiert werden. In dieser Arbeit stellen wir rekurrente Neuronale Netze (RNNs) vor, um dieses Problem zu lösen. Insbesondere schlagen wir gerichtete azyklische Graphen-RNNs (DAG-RNNs) vor, um DAG-strukturierte Bilder zu verarbeiten. Dies ermöglicht es dem Netzwerk, langreichweitige semantische Abhängigkeiten zwischen den Bildsegmenten zu modellieren. Unsere DAG-RNNs können die diskriminierende Kraft der lokalen Darstellungen erheblich steigern, was die lokale Klassifikation erheblich verbessert. Gleichzeitig schlagen wir eine neue Klasse von Gewichtsfunktionen vor, die seltene Klassen berücksichtigt. Diese Funktion erhöht das Erkennungsvermögen für selten auftretende Klassen erstaunlich. Durch Integration von Faltungsschichten und Entfaltungsschichten erreichen unsere DAG-RNNs neue Standarte-Ergebnisse auf den anspruchsvollen Benchmarks SiftFlow, CamVid und Barcelona.