HyperAIHyperAI
vor 2 Monaten

Transformerbasierte Doppelrelationgraphen für die Mehrfachbezeichnung von Bildern

Zhao, Jiawei ; Yan, Ke ; Zhao, Yifan ; Guo, Xiaowei ; Huang, Feiyue ; Li, Jia
Transformerbasierte Doppelrelationgraphen für die Mehrfachbezeichnung von Bildern
Abstract

Die gleichzeitige Erkennung mehrerer Objekte in einem Bild bleibt eine herausfordernde Aufgabe, die verschiedene Ereignisse im Bereich der Objekterkennung umfasst, wie zum Beispiel unterschiedliche Objektgrößen, inkonsistente Erscheinungen und verwirrende Beziehungen zwischen Klassen. Aktuelle Forschungsanstrengungen greifen hauptsächlich auf statistische Label-Ko-Änderungen und linguistische Wort-Einbettungen zurück, um die unklaren Semantiken zu verbessern. Im Gegensatz zu diesen Arbeiten schlagen wir in diesem Artikel einen neuen Transformer-basierten Dual-Relation Learning-Framework vor, das komplementäre Beziehungen durch die Untersuchung von zwei Aspekten der Korrelation konstruiert, nämlich des strukturellen Beziehungsgraphen und des semantischen Beziehungsgraphen. Der strukturelle Beziehungsgraph zielt darauf ab, langreichweitige Korrelationen aus dem Objektumfeld zu erfassen, indem er eine cross-scale Transformer-basierte Architektur entwickelt. Der semantische Graph modelliert die semantischen Bedeutungen der Bildobjekte dynamisch unter Berücksichtigung expliziter semantischer Einschränkungen. Darüber hinaus integrieren wir den gelernten strukturellen Zusammenhang auch in den semantischen Graphen, um einen gemeinsamen Beziehungsgraphen für robuste Repräsentationen zu konstruieren. Durch das kollaborative Lernen dieser beiden effektiven Beziehungsgraphen erreicht unser Ansatz neue Standarts auf zwei beliebten Mehrfachlabel-Erkennungsbenchmarks, nämlich dem MS-COCO-Datensatz und dem VOC 2007-Datensatz.请注意,为了符合德语的表达习惯,我在某些地方对句子结构进行了调整。例如,“Transformer-based Dual Relation learning framework”被翻译为“Transformer-basierten Dual-Relation Learning-Framework”,以适应德语复合名词的构成规则。此外,“state-of-the-art”被翻译为“Standarts”,这是德语中常用的对应术语。希望这些调整能帮助您更好地传达原文的信息。

Transformerbasierte Doppelrelationgraphen für die Mehrfachbezeichnung von Bildern | Neueste Forschungsarbeiten | HyperAI