HandBooster: Verbesserung der 3D-Handgitter-Rekonstruktion durch bedingte Synthese und Abtastung von Hand-Objekt-Interaktionen

Die robuste Rekonstruktion eines 3D-Handgitters aus einem einzelnen Bild ist sehr herausfordernd, aufgrund des Mangels an Vielfalt in den vorhandenen realen Datensätzen. Obwohl die Daten-Synthese das Problem lindern kann, behindert der Synthese-zu-Real-Lücke (syn-to-real gap) immer noch dessen Nutzung. In dieser Arbeit stellen wir HandBooster vor, einen neuen Ansatz, der die Daten-Vielfalt erhöht und die Leistung der 3D-Handgitter-Rekonstruktion durch das Training eines bedingten generativen Raums auf Hand-Objekt-Interaktionen und gezieltes Abtasten dieses Raums zur Synthese effektiver Datensamples verbessert. Zunächst konstruieren wir vielseitige inhaltsbezogene Bedingungen, um ein Diffusionsmodell zu leiten, realistische Bilder mit diversen Handerscheinungen, -haltungen, -Sichten und -Hintergründen zu erzeugen; vorteilhaft sind genaue 3D-Annotierungen dabei kostenlos erhalten. Anschließend entwickeln wir eine neuartige Bedingungserstellerin basierend auf unseren similaritätsbewussten Verteilungsabtaststrategien, um gezielt neue und realistische Interaktionshaltungen zu finden, die sich von dem Trainingsdatensatz unterscheiden. Mit unserer Methode können mehrere Baseline-Modelle erheblich über den aktuellen Stand der Technik (SOTA) hinaus verbessert werden, sowohl auf den HO3D- als auch auf den DexYCB-Benchmarks. Unser Code wird veröffentlicht unter https://github.com/hxwork/HandBooster_Pytorch.