HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

Erkennen Sie alles über die Vorhersage des nächsten Punkts

Qing Jiang Junan Huo Xingyu Chen Yuda Xiong Zhaoyang Zeng Yihao Chen Tianhe Ren Junzhi Yu Lei Zhang

Erkennen Sie alles über die Vorhersage des nächsten Punkts

Abstract

Die Objekterkennung wurde lange Zeit von herkömmlichen, auf Koordinatenregression basierenden Modellen dominiert, wie beispielsweise YOLO, DETR und Grounding DINO. Obwohl in jüngster Zeit Anstrengungen unternommen wurden, multimodale große Sprachmodelle (MLLMs) für diese Aufgabe zu nutzen, stoßen diese auf Herausforderungen wie eine geringe Recall-Rate, doppelte Vorhersagen sowie Koordinaten-Abweichungen. In dieser Arbeit schließen wir diese Lücke und stellen Rex-Omni vor, ein MLLM mit einer Skalierung von 3 Milliarden Parametern, das eine state-of-the-art Leistung in der Objektwahrnehmung erzielt. Auf Benchmark-Datensätzen wie COCO und LVIS erreicht Rex-Omni in einem Zero-Shot-Setting eine Leistung, die der von regressionbasierten Modellen (z. B. DINO, Grounding DINO) vergleichbar oder sogar übertrifft. Dies wird ermöglicht durch drei zentrale Entwurfselemente: 1) Aufgabenformulierung: Wir verwenden spezielle Tokens, um quantisierte Koordinaten im Bereich von 0 bis 999 darzustellen, wodurch die Lernschwierigkeit für das Modell verringert und die Token-Effizienz bei der Koordinatenprädiktion verbessert wird; 2) Datensysteme: Wir entwickeln mehrere Datensysteme zur Erzeugung hochwertiger Daten für Grounding, Referenzierung und Pointing, die eine semantisch reichhaltige Supervision für das Training bereitstellen; 3) Trainingspipelines: Wir setzen einen zweistufigen Trainingsprozess ein, der die supervisierte Feinabstimmung an 22 Millionen Daten mit einer nachträglichen Verstärkungslern-Post-Training-Phase auf Basis von GRPO kombiniert. Diese RL-Post-Training-Phase nutzt geometriebewusste Belohnungen, um effektiv die Diskret-zu-Kontinuum-Lücke bei der Koordinatenprädiktion zu schließen, die Boxgenauigkeit zu erhöhen und unerwünschte Verhaltensweisen wie doppelte Vorhersagen zu mindern, die aus der Lehrer-gesteuerten Natur der ersten SFT-Phase resultieren. Neben der klassischen Objekterkennung ermöglicht Rex-Omni dank seiner inhärenten Sprachverständnis-Fähigkeiten vielseitige Funktionen wie Objektreferenzierung, Pointing, visuelle Prompting, GUI-Grounding, räumliche Referenzierung, OCR und Punktmarkierung, die alle systematisch an spezifischen Benchmarks evaluiert wurden. Wir sind überzeugt, dass Rex-Omni den Weg für vielseitigere und sprachbewusstere Systeme der visuellen Wahrnehmung ebnen wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erkennen Sie alles über die Vorhersage des nächsten Punkts | Forschungsarbeiten | HyperAI