vor 8 Monaten

Zusammenfassung

Mit den Erfolgen des Transformers im Bereich der natürlichen Sprachverarbeitung wurden die Encoder-Decoder-Architektur und die Aufmerksamkeitsmechanismen des Transformers auch in die Computer Vision übertragen. In jüngster Zeit haben mehrere state-of-the-art-Verfahren auf dem Gebiet der Computer Vision (Bildklassifikation, Objektdetektion, semantische Segmentierung usw.) Konzepte des Transformers in ihre convolutionalen neuronalen Netzwerke integriert. Dies belegt, dass der Transformer großes Potenzial im Bereich der Bilderkennung besitzt. Nach der Einführung des Vision Transformers (ViT) begannen immer mehr Arbeiten, die selbst-Attention-Technik vollständig zur Ersetzung der konvolutionalen Schichten einzusetzen. In dieser Arbeit basiert das vorgeschlagene Modell auf dem Vision Transformer, kombiniert mit einer Pyramidenarchitektur und nutzt die Split-Transform-Merge-Strategie, um einen Gruppen-Encoder zu entwickeln. Die resultierende Netzwerkarchitektur wird als Aggregated Pyramid Vision Transformer (APVT) bezeichnet. Wir evaluieren die Leistung des APVT auf der CIFAR-10-Datensatz für Bildklassifikation und auf dem COCO 2017-Datensatz für Objektdetektion. Im Vergleich zu anderen Transformer-basierten Architekturen erreicht APVT herausragende Ergebnisse, während gleichzeitig die Rechenkosten reduziert werden. Wir hoffen, dass dieser verbesserte Ansatz zukünftige Forschungsarbeiten zum Einsatz von Transformers in der Computer Vision als Referenz dienen kann.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Aggregierte Pyramiden-Vision-Transformer: Split-Transform-Merge-Strategie zur Bilderkennung ohne Faltungen

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aggregierte Pyramiden-Vision-Transformer: Split-Transform-Merge-Strategie zur Bilderkennung ohne Faltungen

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Aggregierte Pyramiden-Vision-Transformer: Split-Transform-Merge-Strategie zur Bilderkennung ohne Faltungen

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters