AutoLink: Selbstüberwachtes Lernen von menschlichen Skeletten und Objektkonturen durch Verknüpfung von Keypoints

Strukturierte Repräsentationen wie Keypoints werden häufig in der Pose-Übertragung, bedingten Bildgenerierung, Animation und 3D-Rekonstruktion eingesetzt. Allerdings erfordert ihre überwachte Lernmethode teure Annotationen für jedes Zielgebiet. Wir schlagen eine selbstüberwachte Methode vor, die lernt, die Objektstruktur von der Erscheinung zu trennen, indem sie einen Graphen aus 2D-Keypoints mit geraden Kanten verknüpft. Sowohl die Position der Keypoints als auch ihre paarweisen Kantengewichte werden gelernt, wobei nur eine Sammlung von Bildern derselben Objektklasse zur Verfügung steht. Der resultierende Graph ist interpretierbar; beispielsweise erholt AutoLink die Topologie des menschlichen Skeletts, wenn es auf Bilder von Menschen angewendet wird. Unsere wesentlichen Bestandteile sind: i) ein Encoder, der Keypoint-Positionen in einem Eingangsbild vorhersagt, ii) ein gemeinsamer Graph als latente Variable, der dieselben Pairs von Keypoints in jedem Bild verbindet, iii) eine Zwischendarstellung des Kantengraphen (Edge Map), die die latente Kantengewichte und Keypoint-Positionen auf weiche und differenzierbare Weise kombiniert, und iv) ein Inpainting-Ziel für zufällig maskierte Bilder. Obwohl einfacher gestaltet, übertrifft AutoLink bestehende selbstüberwachte Methoden bei den etablierten Benchmarks für Keypoint- und Pose-Schätzung und bahnt den Weg für strukturbedingte generative Modelle auf vielfältigeren Datensätzen. Projektwebsite: https://xingzhehe.github.io/autolink/.