HyperAIHyperAI
vor 4 Monaten

Wider oder Tiefer: Eine Neubewertung des ResNet-Modells für die visuelle Erkennung

Zifeng Wu; Chunhua Shen; Anton van den Hengel
Wider oder Tiefer: Eine Neubewertung des ResNet-Modells für die visuelle Erkennung
Abstract

Der Trend hin zu immer tieferen neuronalen Netzen wurde durch die allgemeine Beobachtung getrieben, dass eine Zunahme der Tiefe die Leistung eines Netzwerks verbessert. Kürzlich jedoch häufen sich Hinweise darauf, dass eine einfache Zunahme der Tiefe möglicherweise nicht der beste Weg ist, um die Leistung zu steigern, insbesondere unter Berücksichtigung anderer Einschränkungen. Untersuchungen zu tiefen Residualnetzen haben zudem nahegelegt, dass diese möglicherweise nicht als ein einzelnes tiefes Netzwerk operieren, sondern eher als ein Ensemble aus vielen relativ flachen Netzwerken. Wir untersuchen diese Fragen und gelangen dabei zu einer neuen Interpretation des entfalteten Ansatzes von tiefen Residualnetzen, die einige der experimentell beobachteten Verhaltensweisen erklärt. Als Ergebnis können wir eine neue, flachere Architektur von Residualnetzen ableiten, die erheblich bessere Ergebnisse als viel tiefere Modelle wie ResNet-200 auf dem ImageNet-Klassifikationsdatensatz erzielt. Wir zeigen außerdem, dass diese Leistung auch auf andere Problemfelder übertragbar ist, indem wir einen semantischen Segmentierungsansatz entwickeln, der den aktuellen Stand der Technik bei Datensätzen wie PASCAL VOC, PASCAL Context und Cityscapes deutlich übertreffen kann. Die von uns vorgeschlagene Architektur übertrifft ihre Vergleichsmodelle einschließlich sehr tiefer ResNets und ist gleichzeitig effizienter im Speicherverbrauch und manchmal auch in der Trainingszeit. Der Code und die Modelle sind unter https://github.com/itijyou/ademxapp verfügbar.