Suche nach effizienten Multi-Skalen-Architekturen für dichte Bildvorhersage

Die Gestaltung von neuronalen Netzarchitekturen ist ein wichtiger Bestandteil, um mit maschinellen Lernsystemen auf einem breiten Spektrum von Aufgaben den aktuellen Stand der Technik zu erreichen. Viele Arbeiten haben sich bemüht, Architekturen durch eine kluge Konstruktion eines Suchraums in Verbindung mit einfachen Lernalgorithmen automatisch zu entwerfen und aufzubauen. Kürzliche Fortschritte haben gezeigt, dass solche Meta-Lernmethoden bei Bildklassifizierungsaufgaben skalierbare menschengemachte Architekturen übertreffen können. Eine offene Frage ist jedoch, in welchem Maße diese Methoden auf neue Domänen übertragbar sind. In dieser Arbeit untersuchen wir die Entwicklung von Meta-Lerntechniken für dichte Bildvorhersage, insbesondere im Hinblick auf die Aufgaben der Szenerieanalyse (Scene Parsing), Segmentierung von Körperanteilen (Person-Part Segmentation) und semantische Bildsegmentierung (Semantic Image Segmentation). Die Erstellung geeigneter Suchräume in diesem Bereich ist herausfordernd, da visuelle Informationen auf mehreren Skalen repräsentiert werden müssen und Operationen auf hochaufgelösten Bildern erforderlich sind. Basierend auf einer Übersicht der Techniken für dichte Bildvorhersage konstruieren wir einen rekursiven Suchraum und zeigen, dass sogar mit effizienter zufälliger Suche Architekturen identifiziert werden können, die menschengemachte Architekturen übertreffen und den aktuellen Stand der Technik in drei dichten Vorhersageaufgaben erreichen: 82,7 % auf Cityscapes (Straßenszenenanalyse), 71,3 % auf PASCAL-Person-Part (Segmentierung von Körperanteilen) und 87,9 % auf PASCAL VOC 2012 (semantische Bildsegmentierung). Zudem erweist sich die resultierende Architektur als rechnerisch effizienter, da sie nur halb so viele Parameter und halb so viel Rechenleistung wie frühere Spitzensysteme benötigt.