HyperAIHyperAI

Command Palette

Search for a command to run...

SeqTR: Ein einfaches aber universelles Netzwerk für visuelle Grundlegung

Chaoyang Zhu Yiyi Zhou Yunhang Shen Gen Luo Xingjia Pan Mingbao Lin Chao Chen Liujuan Cao Xiaoshuai Sun Rongrong Ji

Zusammenfassung

In diesem Artikel stellen wir ein einfaches, jedoch universelles Netzwerk namens SeqTR für Aufgaben der visuellen Grundlage (visual grounding) vor, beispielsweise Phrasenlokalisierung, Verweisexpressionverstehen (Referring Expression Comprehension, REC) und -segmentierung (Referring Expression Segmentation, RES). Die klassischen Ansätze für visuelle Grundlage erfordern oft erhebliches Fachwissen bei der Gestaltung von Netzwerkarchitekturen und Verlustfunktionen, was deren Verallgemeinerbarkeit über verschiedene Aufgaben erschwert. Um die Modellierung zu vereinfachen und zu vereinheitlichen, formulieren wir das Problem der visuellen Grundlage als ein Punktschätzproblem, das auf Bild- und Texteingaben bedingt ist, wobei entweder das Bounding-Box- oder das binäre Masken-Objekt als Folge diskreter Koordinatentoken dargestellt wird. Unter diesem Paradigma werden alle Aufgaben der visuellen Grundlage in unserem SeqTR-Netzwerk einheitlich behandelt, ohne aufgabenbezogene Verzweigungen oder Head-Architekturen – beispielsweise den konvolutionellen Maskendekoder für RES –, was die Komplexität der Mehraufgaben-Modellierung erheblich reduziert. Darüber hinaus verwendet SeqTR für alle Aufgaben dasselbe Optimierungsziel mit einer einfachen Cross-Entropy-Verlustfunktion, was die Notwendigkeit handgefertigter Verlustfunktionen weiter verringert. Experimente an fünf Benchmark-Datensätzen zeigen, dass das vorgeschlagene SeqTR die bestehenden State-of-the-Art-Methoden übertrifft (oder auf deren Niveau liegt), was belegt, dass ein einfacher, jedoch universeller Ansatz für die visuelle Grundlage tatsächlich machbar ist. Der Quellcode ist unter https://github.com/sean-zhuh/SeqTR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SeqTR: Ein einfaches aber universelles Netzwerk für visuelle Grundlegung | Paper | HyperAI