Über Triangulation als Form der Selbstüberwachung für die 3D-Pose-Schätzung von Menschen

Überwachte Ansätze zur 3D-Pose-Schätzung aus einzelnen Bildern sind bemerkenswert effektiv, wenn gekennzeichnete Datenreichlich vorhanden sind. Allerdings ist die Erhebung von Ground-Truth-3D-Kennzeichnungen arbeitsintensiv und zeitaufwendig, weshalb sich der Fokus in jüngster Zeit auf semi- und schwach überwachtes Lernen verlagert hat. Die Generierung einer effektiven Form der Überwachung mit wenigen Annotationen stellt in dicht besetzten Szenen immer noch eine große Herausforderung dar. In dieser Arbeit schlagen wir vor, mehrfache geometrische Restriktionen durch eine gewichtete differenzierbare Triangulierung aufzulegen und diese als Form der Selbstüberwachung zu verwenden, wenn keine Kennzeichnungen vorliegen. Wir trainieren daher einen 2D-Pose-Schätzer so, dass seine Vorhersagen der Rückprojektion der triangu-lierten 3D-Pose entsprechen, und trainieren ein Hilfsnetzwerk darauf, um die endgültigen 3D-Posen zu erzeugen. Wir ergänzen die Triangulierung um ein Gewichtungsmechanismus, der den Einfluss von durch Selbstverdeckung oder Verdeckung durch andere Subjekte verursachten rauschigen Vorhersagen mildert. Wir demonstrieren die Effektivität unseres semiüberwachten Ansatzes anhand der Datensätze Human3.6M und MPI-INF-3DHP sowie eines neuen mehrfachen mehrpersonigen Datensatzes, der Verdeckungen enthält.请注意,这里有一些细节需要澄清:1. "Data"在德语中通常使用复数形式"Daten"。2. "Ground-truth"是一个常见的术语,可以翻译为"Ground-Truth"或"Referenzdaten"。3. "Triangulation"在德语中也是"Triangulierung"。4. "Weighting mechanism"被翻译为"Gewichtungsmechanismus"。根据这些调整,最终的翻译版本如下:Überwachte Ansätze zur 3D-Pose-Schätzung aus einzelnen Bildern sind bemerkenswert effektiv, wenn gekennzeichnete Datenreichlich vorhanden sind. Allerdings ist die Erhebung von Referenzdaten (ground-truth) 3D-Kennzeichnungen arbeitsintensiv und zeitaufwendig, weshalb sich der Fokus in jüngster Zeit auf semi- und schwach überwachtes Lernen verlagert hat. Die Generierung einer effektiven Form der Überwachung mit wenigen Annotationen stellt in dicht besetzten Szenen immer noch eine große Herausforderung dar. In dieser Arbeit schlagen wir vor, mehrfache geometrische Restriktionen durch eine gewichtete differenzierbare Triangulierung aufzulegen und diese als Form der Selbstüberwachung zu verwenden, wenn keine Kennzeichnungen vorliegen. Wir trainieren daher einen 2D-Pose-Schätzer so, dass seine Vorhersagen der Rückprojektion der triangu-lierten 3D-Pose entsprechen, und trainieren ein Hilfsnetzwerk darauf, um die endgültigen 3D-Posen zu erzeugen. Wir ergänzen die Triangulierung um einen Gewichtungsmechanismus (weighting mechanism), der den Einfluss von durch Selbstverdeckung oder Verdeckung durch andere Subjekte verursachten rauschigen Vorhersagen mildert. Wir demonstrieren die Effektivität unseres semiüberwachten Ansatzes anhand der Datensätze Human3.6M und MPI-INF-3DHP sowie eines neuen mehrfachen mehrpersonigen Datensatzes (multi-view multi-person dataset), der Verdeckungen enthält.希望这个版本符合您的要求。如果有任何进一步的修改或补充,请告诉我。