HyperAIHyperAI
vor 2 Monaten

Die Integration des menschlichen Blicks in die Aufmerksamkeit für egozentrische Aktivitätserkennung

Min, Kyle ; Corso, Jason J.
Die Integration des menschlichen Blicks in die Aufmerksamkeit für egozentrische Aktivitätserkennung
Abstract

Es ist bekannt, dass der menschliche Blick wichtige Informationen über die visuelle Aufmerksamkeit enthält. Es gibt jedoch drei Hauptprobleme bei der Integration von Blickefixationsdaten in den Aufmerksamkeitsmechanismus tiefer neuronaler Netze: 1) die Fixationspunkte des Blicks sind wahrscheinlich durch Blinzeln und schnelle Augenbewegungen mit Messfehlern behaftet; 2) es ist unklar, wann und in welchem Maße die Blickefixationsdaten mit der visuellen Aufmerksamkeit korreliert sind; und 3) Blickefixationsdaten sind in vielen realen Situationen nicht immer verfügbar. In dieser Arbeit stellen wir einen effektiven probabilistischen Ansatz vor, um den menschlichen Blick in die räumlich-zeitliche Aufmerksamkeit für egozentrische Aktivitätserkennung zu integrieren. Insbesondere modellieren wir die Positionen der Blickefixationspunkte als strukturierte diskrete latente Variablen, um ihre Unsicherheiten abzubilden. Darüber hinaus modellieren wir die Verteilung der Blickefixationen mithilfe einer variationsmethodischen Herangehensweise (variational method). Die Verteilung des Blicks wird während des Trainingsprozesses gelernt, sodass in Testsituationen keine Ground-Truth-Annotierungen der Blickpositionen mehr erforderlich sind, da sie aus der gelernten Verteilung des Blicks vorhergesagt werden können. Die vorhergesagten Blickpositionen werden verwendet, um aufschlussreiche Aufmerksamkeitshinweise zu liefern und damit die Erkennungsleistung zu verbessern. Unser Ansatz übertrifft alle bisherigen Standesder Technik (state-of-the-art) Methoden auf dem EGTEA-Datensatz, einem großen Datensatz für egozentrische Aktivitätserkennung, der mit Blickmessungen versehen ist. Wir führen zudem eine Reduktionstudie (ablation study) und eine qualitative Analyse durch, um zu zeigen, dass unser Aufmerksamkeitsmechanismus effektiv ist.

Die Integration des menschlichen Blicks in die Aufmerksamkeit für egozentrische Aktivitätserkennung | Neueste Forschungsarbeiten | HyperAI