HyperAIHyperAI
vor 17 Tagen

Transformer-basierte einheitliche Erkennung zweier Hände, die Objekte manipulieren

{Seungryul Baek, Elkhan Ismayilzada, Seongyeong Lee, Jihyeon Kim, Chanwoo Kim, Hoseong Cho}
Transformer-basierte einheitliche Erkennung zweier Hände, die Objekte manipulieren
Abstract

Die Analyse von Hand-Objekt-Interaktionen aus egozentrischen Videos hat in letzter Zeit erhebliche Aufmerksamkeit erfahren. Bisher basieren die meisten Ansätze auf Convolutional Neural Network (CNN)-Merkmale, die mittels Long Short-Term Memory (LSTM)- oder Graph Convolution Network (GCN)-basiertem zeitlichen Encoding kombiniert werden, um eine integrierte Erkenntnis über zwei Hände, ein Objekt und deren Interaktionen zu ermöglichen. In diesem Paper stellen wir einen auf Transformer basierenden integrierten Rahmen vor, der eine verbesserte Erkenntnis von zwei Händen bei der Manipulation von Objekten ermöglicht. In unserem Ansatz wird das gesamte Bild, das zwei Hände, ein Objekt und deren Interaktionen darstellt, als Eingabe verwendet, um gleichzeitig aus jeder Frame-Instanz drei Informationen zu schätzen: die Pose der beiden Hände, die Pose des Objekts sowie die Objektart. Anschließend wird die Aktionsklasse, die durch die Hand-Objekt-Interaktion definiert ist, auf Basis der geschätzten Informationen sowie einer Kontaktkarte, die die Interaktion zwischen den beiden Händen und dem Objekt kodiert, über den gesamten Videoverlauf hinweg vorhergesagt. Experimente wurden auf den Benchmark-Datensätzen H2O und FPHA durchgeführt, wobei die Überlegenheit unseres Ansatzes hinsichtlich der Zustandsbesten Genauigkeit nachgewiesen wurde. Ablative Studien demonstrieren zudem die Wirksamkeit jedes vorgeschlagenen Moduls.