HyperAIHyperAI

Command Palette

Search for a command to run...

InternImage: Untersuchung großskaliger visionbasierter Grundmodelle mit verformbaren Faltungen

Zusammenfassung

Im Vergleich zum erheblichen Fortschritt großer Vision-Transformer (ViT)-Modelle in den letzten Jahren befinden sich große Modelle auf Basis von Faltungsneuronalen Netzen (CNNs) weiterhin in einem frühen Entwicklungsstadium. In dieser Arbeit stellen wir ein neues großskaliges CNN-basiertes Grundmodell vor, das als InternImage bezeichnet wird und wie ViTs von einer Erhöhung der Parameteranzahl und der Trainingsdaten profitieren kann. Im Gegensatz zu jüngeren CNNs, die sich auf große dichte Kerne konzentrieren, nimmt InternImage die deformierbare Faltung als zentralen Operator, wodurch das Modell nicht nur einen großen effektiven Empfangsfeldbereich für nachgeschaltete Aufgaben wie Objektdetektion und Segmentierung besitzt, sondern auch eine adaptive räumliche Aggregation ermöglicht, die an Eingabedaten und Aufgabeninformationen angepasst ist. Dadurch verringert das vorgeschlagene InternImage die starke induktive Bias traditioneller CNNs und macht es möglich, mit großskaligen Parametern und umfangreichen Daten stärkere und robusterer Muster zu lernen – ähnlich wie ViTs. Die Wirksamkeit unseres Modells wird an anspruchsvollen Benchmark-Datensätzen wie ImageNet, COCO und ADE20K nachgewiesen. Besonders hervorzuheben ist, dass InternImage-H einen neuen Rekord von 65,4 mAP auf dem COCO test-dev und 62,9 mIoU auf ADE20K erreichte und damit sowohl aktuelle führende CNNs als auch ViTs übertrifft. Der Quellcode wird unter https://github.com/OpenGVLab/InternImage veröffentlicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
InternImage: Untersuchung großskaliger visionbasierter Grundmodelle mit verformbaren Faltungen | Paper | HyperAI