Command Palette
Search for a command to run...
Aggregierte Pyramiden-Vision-Transformer: Split-Transform-Merge-Strategie zur Bilderkennung ohne Faltungen
Aggregierte Pyramiden-Vision-Transformer: Split-Transform-Merge-Strategie zur Bilderkennung ohne Faltungen
Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang
Zusammenfassung
Mit den Erfolgen des Transformers im Bereich der natürlichen Sprachverarbeitung wurden die Encoder-Decoder-Architektur und die Aufmerksamkeitsmechanismen des Transformers auch in die Computer Vision übertragen. In jüngster Zeit haben mehrere state-of-the-art-Verfahren auf dem Gebiet der Computer Vision (Bildklassifikation, Objektdetektion, semantische Segmentierung usw.) Konzepte des Transformers in ihre convolutionalen neuronalen Netzwerke integriert. Dies belegt, dass der Transformer großes Potenzial im Bereich der Bilderkennung besitzt. Nach der Einführung des Vision Transformers (ViT) begannen immer mehr Arbeiten, die selbst-Attention-Technik vollständig zur Ersetzung der konvolutionalen Schichten einzusetzen. In dieser Arbeit basiert das vorgeschlagene Modell auf dem Vision Transformer, kombiniert mit einer Pyramidenarchitektur und nutzt die Split-Transform-Merge-Strategie, um einen Gruppen-Encoder zu entwickeln. Die resultierende Netzwerkarchitektur wird als Aggregated Pyramid Vision Transformer (APVT) bezeichnet. Wir evaluieren die Leistung des APVT auf der CIFAR-10-Datensatz für Bildklassifikation und auf dem COCO 2017-Datensatz für Objektdetektion. Im Vergleich zu anderen Transformer-basierten Architekturen erreicht APVT herausragende Ergebnisse, während gleichzeitig die Rechenkosten reduziert werden. Wir hoffen, dass dieser verbesserte Ansatz zukünftige Forschungsarbeiten zum Einsatz von Transformers in der Computer Vision als Referenz dienen kann.