Gruppenweise Abfrage-Spezialisierung und qualitätsbewusste Mehrfachzuordnung für transformerbasierte visuelle Beziehungsdetektion

Die Visuelle Beziehungsidentifikation (Visual Relationship Detection, VRD) hat in jüngster Zeit mit transformer-basierten Architekturen erhebliche Fortschritte gemacht. Dennoch identifizieren wir zwei wesentliche Einschränkungen bei der konventionellen Zuordnung von Labels für das Training transformer-basierter VRD-Modelle, einem Prozess, bei dem eine Ground-Truth (GT) einer Vorhersage zugeordnet wird. Bei der konventionellen Zuordnung wird eine unspezialisierte Abfrage trainiert, da eine Abfrage erwartet wird, jede Beziehung zu erkennen. Dies erschwert es einer Abfrage, sich auf spezifische Beziehungen zu spezialisieren. Zudem ist die Trainierung einer Abfrage auch unzureichend, da eine GT nur einer einzelnen Vorhersage zugeordnet wird und daher nahezu korrekte oder sogar korrekte Vorhersagen durch die Zuordnung keiner Beziehung als GT unterdrückt werden. Um diese Probleme zu lösen, schlagen wir die Gruppenweise Abfragespezialisierung und die qualitätsbewusste Mehrfachzuordnung (Groupwise Query Specialization and Quality-Aware Multi-Assignment, SpeaQ) vor. Die Gruppenweise Abfragespezialisierung trainiert eine spezialisierte Abfrage, indem sie Abfragen und Beziehungen in disjunkte Gruppen aufteilt und eine Abfrage in einer bestimmten Abfragengruppe ausschließlich auf Beziehungen in der entsprechenden Beziehungsgruppe ausrichtet. Die qualitätsbewusste Mehrfachzuordnung fördert das Training weiter, indem sie eine GT mehreren Vorhersagen zuordnet, die in Bezug auf Subjekt, Objekt und die dazwischenliegende Beziehung signifikant nahe an der GT liegen. Experimentelle Ergebnisse und Analysen zeigen, dass SpeaQ effektiv spezialisierte Abfragen trainiert, was die Kapazität des Modells besser nutzt und zu konsistenten Leistungsverbesserungen führt, ohne zusätzliche Inferenzkosten für mehrere VRD-Modelle und Benchmarks. Der Quellcode ist unter https://github.com/mlvlab/SpeaQ verfügbar.