vor 3 Monaten

RTGen: Generierung von Region-Text-Paaren für die offene-Vokabular-Objekterkennung

Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides

Abstract

Offen-vokabuläre Objekterkennung (OVD) erfordert eine solide Modellierung der Beziehung zwischen Regionen und Semantik, die aus umfangreichen Paaren aus Regionen und Texten gelernt werden kann. In der Praxis ist jedoch eine derartige Datenmenge aufgrund erheblicher Annotierungskosten begrenzt. In dieser Arbeit stellen wir RTGen vor, ein Verfahren zur generischen Erzeugung skalierbarer offener-vokabulärer Region-Text-Paare, und demonstrieren dessen Fähigkeit, die Leistungsfähigkeit der offenen-vokabulären Objekterkennung zu steigern. RTGen umfasst sowohl den Text-zu-Region- als auch den Region-zu-Text-Generierungsprozess auf skalierbaren Bild-Text-Daten. Die Text-zu-Region-Generierung wird durch Bild-Inpainting ermöglicht, das durch unseren vorgeschlagenen szenenbewussten Inpainting-Guide für eine insgesamt harmonische Layout-Struktur gesteuert wird. Für die Region-zu-Text-Generierung führen wir mehrere regionenbasierte Bildbeschreibungen mit unterschiedlichen Prompt-Strukturen durch und wählen den am besten passenden Text basierend auf der CLIP-Ähnlichkeit aus. Um die Detektionstraining auf Region-Text-Paaren zu erleichtern, führen wir außerdem eine lokalisationssensible Region-Text-Kontrastverlustfunktion ein, die Objektvorschläge lernt, die jeweils unterschiedliche Lokalisierungsgüte aufweisen. Ausführliche Experimente zeigen, dass RTGen als skalierbare, semantisch reiche und effektive Datenquelle für die offene-vokabuläre Objekterkennung dienen kann und die Modellleistung kontinuierlich verbessert, wenn mehr Daten genutzt werden. Im Vergleich zu bestehenden State-of-the-Art-Methoden erreicht RTGen eine überlegene Gesamtleistung.