HyperAIHyperAI

Command Palette

Search for a command to run...

RTGen: Generierung von Region-Text-Paaren für die offene-Vokabular-Objekterkennung

Fangyi Chen Han Zhang Zhantao Yang Hao Chen Kai Hu Marios Savvides

Zusammenfassung

Offen-vokabuläre Objekterkennung (OVD) erfordert eine solide Modellierung der Beziehung zwischen Regionen und Semantik, die aus umfangreichen Paaren aus Regionen und Texten gelernt werden kann. In der Praxis ist jedoch eine derartige Datenmenge aufgrund erheblicher Annotierungskosten begrenzt. In dieser Arbeit stellen wir RTGen vor, ein Verfahren zur generischen Erzeugung skalierbarer offener-vokabulärer Region-Text-Paare, und demonstrieren dessen Fähigkeit, die Leistungsfähigkeit der offenen-vokabulären Objekterkennung zu steigern. RTGen umfasst sowohl den Text-zu-Region- als auch den Region-zu-Text-Generierungsprozess auf skalierbaren Bild-Text-Daten. Die Text-zu-Region-Generierung wird durch Bild-Inpainting ermöglicht, das durch unseren vorgeschlagenen szenenbewussten Inpainting-Guide für eine insgesamt harmonische Layout-Struktur gesteuert wird. Für die Region-zu-Text-Generierung führen wir mehrere regionenbasierte Bildbeschreibungen mit unterschiedlichen Prompt-Strukturen durch und wählen den am besten passenden Text basierend auf der CLIP-Ähnlichkeit aus. Um die Detektionstraining auf Region-Text-Paaren zu erleichtern, führen wir außerdem eine lokalisationssensible Region-Text-Kontrastverlustfunktion ein, die Objektvorschläge lernt, die jeweils unterschiedliche Lokalisierungsgüte aufweisen. Ausführliche Experimente zeigen, dass RTGen als skalierbare, semantisch reiche und effektive Datenquelle für die offene-vokabuläre Objekterkennung dienen kann und die Modellleistung kontinuierlich verbessert, wenn mehr Daten genutzt werden. Im Vergleich zu bestehenden State-of-the-Art-Methoden erreicht RTGen eine überlegene Gesamtleistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RTGen: Generierung von Region-Text-Paaren für die offene-Vokabular-Objekterkennung | Paper | HyperAI