Deep Region and Multi-Label Learning for Facial Action Unit Detection

Region Learning (RL) und Multi-Label-Learning (ML) haben in jüngster Zeit zunehmende Aufmerksamkeit im Bereich der Erkennung facialer Action Units (AUs) gefunden. Da AUs sich auf spärlich verteilte Gesichtsregionen beziehen, zielt RL darauf ab, diese Regionen zu identifizieren, um eine höhere Spezifität zu erreichen. Gleichzeitig legt ein starker statistischer Beleg für Korrelationen zwischen AUs nahe, dass ML eine natürliche Methode zur Modellierung der Erkennungsaufgabe darstellt. In diesem Paper stellen wir Deep Region and Multi-label Learning (DRML) vor, ein einheitliches tiefes Netzwerk, das diese beiden Probleme gleichzeitig adressiert. Ein entscheidender Aspekt in DRML ist eine neuartige Regionsschicht, die Feed-Forward-Funktionen nutzt, um relevante Gesichtsregionen zu induzieren und die gelernten Gewichte dazu zu zwingen, strukturelle Informationen des Gesichts zu erfassen. Diese Regionsschicht fungiert als alternatives Design zwischen lokal verbundenen Schichten (d. h. Kernel, die auf einzelne Pixel beschränkt sind) und herkömmlichen Faltungs-Schichten (d. h. geteilte Kernel über die gesamte Bildfläche). Im Gegensatz zu früheren Ansätzen, die RL und ML abwechselnd lösen, adressiert DRML aufgrund seiner Architektur beide Probleme direkt, wodurch eine stärkere Wechselwirkung zwischen den scheinbar unzusammenhängenden Aufgaben ermöglicht wird. Das vollständige Netzwerk ist end-to-end trainierbar und lernt automatisch repräsentative Merkmale, die robust gegenüber innerhalb lokaler Regionen auftretenden Variationen sind. Experimente auf den Benchmarks BP4D und DISFA zeigen, dass DRML im Vergleich zu alternativen Methoden die höchsten durchschnittlichen F1-Scores und AUC-Werte innerhalb und zwischen den Datensätzen erreicht.