HyperAIHyperAI
vor 17 Tagen

UniRepLKNet: Ein universeller Wahrnehmungs-Größerkern-ConvNet für Audio-, Video-, Punktwolken-, Zeitreihen- und Bilderkennung

Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue, Ying Shan
UniRepLKNet: Ein universeller Wahrnehmungs-Größerkern-ConvNet für Audio-, Video-, Punktwolken-, Zeitreihen- und Bilderkennung
Abstract

Große-Kern-Convolutional Neural Networks (ConvNets) haben in letzter Zeit erhebliche Forschungsinteressen hervorgerufen, doch zwei ungelöste und kritische Fragen erfordern weiterführende Untersuchungen. 1) Die Architekturen bestehender großer-Kern-ConvNets folgen weitgehend den Designprinzipien herkömmlicher ConvNets oder Transformer, während die Architekturgestaltung speziell für große-Kern-ConvNets bisher unzureichend bearbeitet wurde. 2) Da Transformer mehrere Modality-Bereiche dominiert haben, bleibt unklar, ob ConvNets auch über eine starke universelle Wahrnehmungsfähigkeit in Bereichen jenseits der Bildverarbeitung verfügen. In diesem Beitrag leisten wir zwei Beiträge. 1) Wir schlagen vier architektonische Leitlinien für die Gestaltung großer-Kern-ConvNets vor, deren Kern darin besteht, die wesentlichen Eigenschaften großer Kerne auszunutzen, die sie von kleinen Kernen unterscheiden – nämlich, dass sie einen weiten Blick ermöglichen, ohne tief gehen zu müssen. Unter Anwendung dieser Leitlinien erreicht unser vorgeschlagener großer-Kern-ConvNet führende Ergebnisse in der Bilderkennung (ImageNet-Accuracy von 88,0 %, ADE20K mIoU von 55,6 % und COCO Box AP von 56,4 %), wobei er sowohl bessere Leistung als auch höhere Geschwindigkeit als jüngste starke Konkurrenten zeigt. 2) Wir entdecken, dass große Kerne der Schlüssel für die Freisetzung der außergewöhnlichen Leistungsfähigkeit von ConvNets in Bereichen sind, in denen sie ursprünglich nicht besonders gut waren. Unter Verwendung bestimmter modality-spezifischer Vorverarbeitungsansätze erreicht das vorgeschlagene Modell sogar state-of-the-art Ergebnisse bei der Zeitreihenvorhersage und der Audiodatenklassifikation, ohne dass die Architektur modality-spezifisch angepasst wurde. Alle Quellcodes und Modelle sind öffentlich auf GitHub und Hugging Face verfügbar.