Partielle Ordnungsreduzierung: für den besten Kompromiss zwischen Geschwindigkeit und Genauigkeit bei der Such nach neuronalen Architekturen

Die Erreichung eines guten Kompromisses zwischen Geschwindigkeit und Genauigkeit auf einer Zielplattform ist bei der Bereitstellung tiefer neuronaler Netze in realen Szenarien von großer Bedeutung. Die meisten existierenden Ansätze zur automatischen Architektursuche konzentrieren sich jedoch hauptsächlich auf hohe Leistung. In dieser Arbeit schlagen wir einen Algorithmus vor, der bessere Geschwindigkeits-/Genauigkeitskompromisse für gesuchte Netzwerke bieten kann und als "Partielle Ordnungsstutz" (Partial Order Pruning) bezeichnet wird. Dieser Algorithmus verkleinert den Suchraum für Architekturen unter der Annahme einer partiellen Ordnung, um automatisch die Architekturen mit dem besten Kompromiss zwischen Geschwindigkeit und Genauigkeit zu finden. Unser Algorithmus berücksichtigt explizit Profilinformationen über die Inferenzgeschwindigkeit auf der Zielplattform. Mit dem vorgeschlagenen Algorithmus stellen wir mehrere Dongfeng-Netzwerke (DF-Netzwerke) vor, die auf verschiedenen Anwendung-GPU-Plattformen hohe Genauigkeit und schnelle Inferenzgeschwindigkeit bieten. Durch eine weitere Suche nach Dekodierarchitekturen erzielen unsere DF-Seg Echtzeit-Segmentierungsnetzwerke den aktuellen Stand der Technik im Kompromiss zwischen Geschwindigkeit und Genauigkeit sowohl auf dem Ziel-Eingebetteten Gerät als auch auf hochwertigen GPUs.