HyperAIHyperAI

Command Palette

Search for a command to run...

UniRepLKNet: Ein universeller Wahrnehmungs-Größerkern-ConvNet für Audio-, Video-, Punktwolken-, Zeitreihen- und Bilderkennung

Xiaohan Ding Yiyuan Zhang Yixiao Ge Sijie Zhao Lin Song Xiangyu Yue Ying Shan

Zusammenfassung

Große-Kern-Convolutional Neural Networks (ConvNets) haben in letzter Zeit erhebliche Forschungsinteressen hervorgerufen, doch zwei ungelöste und kritische Fragen erfordern weiterführende Untersuchungen. 1) Die Architekturen bestehender großer-Kern-ConvNets folgen weitgehend den Designprinzipien herkömmlicher ConvNets oder Transformer, während die Architekturgestaltung speziell für große-Kern-ConvNets bisher unzureichend bearbeitet wurde. 2) Da Transformer mehrere Modality-Bereiche dominiert haben, bleibt unklar, ob ConvNets auch über eine starke universelle Wahrnehmungsfähigkeit in Bereichen jenseits der Bildverarbeitung verfügen. In diesem Beitrag leisten wir zwei Beiträge. 1) Wir schlagen vier architektonische Leitlinien für die Gestaltung großer-Kern-ConvNets vor, deren Kern darin besteht, die wesentlichen Eigenschaften großer Kerne auszunutzen, die sie von kleinen Kernen unterscheiden – nämlich, dass sie einen weiten Blick ermöglichen, ohne tief gehen zu müssen. Unter Anwendung dieser Leitlinien erreicht unser vorgeschlagener großer-Kern-ConvNet führende Ergebnisse in der Bilderkennung (ImageNet-Accuracy von 88,0 %, ADE20K mIoU von 55,6 % und COCO Box AP von 56,4 %), wobei er sowohl bessere Leistung als auch höhere Geschwindigkeit als jüngste starke Konkurrenten zeigt. 2) Wir entdecken, dass große Kerne der Schlüssel für die Freisetzung der außergewöhnlichen Leistungsfähigkeit von ConvNets in Bereichen sind, in denen sie ursprünglich nicht besonders gut waren. Unter Verwendung bestimmter modality-spezifischer Vorverarbeitungsansätze erreicht das vorgeschlagene Modell sogar state-of-the-art Ergebnisse bei der Zeitreihenvorhersage und der Audiodatenklassifikation, ohne dass die Architektur modality-spezifisch angepasst wurde. Alle Quellcodes und Modelle sind öffentlich auf GitHub und Hugging Face verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp