HyperAIHyperAI
vor 11 Tagen

Polysemy Deciphering Network für robuste Detektion von Mensch-Objekt-Interaktionen

Xubin Zhong, Changxing Ding, Xian Qu, Dacheng Tao
Polysemy Deciphering Network für robuste Detektion von Mensch-Objekt-Interaktionen
Abstract

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist von zentraler Bedeutung für auf den Menschen ausgerichtete Szenenverstehensaufgaben. Bisherige Ansätze gehen typischerweise davon aus, dass dasselbe Verb in verschiedenen HOI-Kategorien ähnliche visuelle Merkmale aufweist – eine Annahme, die die vielfältigen semantischen Bedeutungen desselben Verbs vernachlässigt. Um dieses Problem anzugehen, schlagen wir in diesem Artikel ein neuartiges Polysemie-Entzifferungs-Netzwerk (Polysemy Deciphering Network, PD-Net) vor, das die visuelle Polysemie von Verben für die HOI-Erkennung auf drei verschiedene Weisen entschlüsselt. Erstens verbessern wir die Merkmale für die HOI-Erkennung durch zwei neuartige Module, die polysemiebewusst sind: das sprachliche Prioritäts-gesteuerte Kanal-Attention-Modul (Language Prior-guided Channel Attention, LPCA) und das sprachliche Prioritäts-basierte Merkmals-Augmentierungs-Modul (Language Prior-based Feature Augmentation, LPFA). LPCA hebt relevante Elemente in den visuellen Merkmalen von Mensch und Objekt für jede zu identifizierende HOI-Kategorie hervor; zudem erweitert LPFA durch Nutzung sprachlicher Prioritäten menschliche Pose- und räumliche Merkmale für die HOI-Erkennung, sodass die Verb-Klassifizierer sprachliche Hinweise erhalten, die die intra-klassische Variation desselben Verbs verringern. Zweitens führen wir ein neuartiges, polysemiebewusstes Modalfusions-Modul (Polysemy-Aware Modal Fusion, PAMF) ein, das PD-Net anleitet, Entscheidungen auf der Grundlage von Merkmaltypen zu treffen, die anhand sprachlicher Prioritäten als besonders relevant erachtet werden. Drittens schlagen wir vor, das Problem der Verb-Polysemie zu mildern, indem Verb-Klassifizierer für semantisch ähnliche HOI-Kategorien gemeinsam genutzt werden. Darüber hinaus bauen wir zur Beschleunigung der Forschung zum Problem der Verb-Polysemie ein neues Benchmark-Datenset namens HOI-VerbPolysemy (HOIVP) auf, das häufige Verben (Prädikate) enthält, die im realen Weltkontext unterschiedliche semantische Bedeutungen aufweisen. Schließlich zeigt unsere Methode, durch die visuelle Polysemie von Verben zu entschlüsseln, signifikante Verbesserungen gegenüber aktuellen State-of-the-Art-Methoden auf den Datensätzen HICO-DET, V-COCO und HOI-VP. Der Quellcode und die Daten dieses Artikels sind unter https://github.com/MuchHair/PD-Net verfügbar.

Polysemy Deciphering Network für robuste Detektion von Mensch-Objekt-Interaktionen | Neueste Forschungsarbeiten | HyperAI