View-Inter-Prediction-GAN: Unüberwachtes Repräsentationslernen für 3D-Formen durch das Erlernen globaler Formgedächtnisse zur Unterstützung lokaler Sichtvorhersagen

In dieser Arbeit stellen wir einen neuen Ansatz für die unüberwachte Repräsentationslernen von 3D-Formen vor, der eine wichtige Forschungsaufgabe darstellt, da er die manuelle Anstrengung vermeidet, die für das Sammeln von überwachten Daten erforderlich ist. Unser Verfahren trainiert eine auf RNN-basierte neuronale Netzarchitektur, um mehrere Sichtwechselvorhersageaufgaben (multiple view inter-prediction tasks) für jede Form zu lösen. Gegeben sind mehrere benachbarte Ansichten einer Form; definieren wir die Sichtwechselvorhersage als die Aufgabe, die zentrale Ansicht zwischen den Eingangsansichten vorherzusagen und diese in einem niedrigstufigen Merkmalsraum zu rekonstruieren. Der Kerngedanke unseres Ansatzes besteht darin, die Formrepräsentation als formspezifisches globales Gedächtnis zu implementieren, das zwischen allen lokalen Sichtwechselvorhersagen für jede Form geteilt wird. Intuitiv ermöglicht dieses Gedächtnis dem System, Informationen zu aggregieren, die nützlich sind, um die Sichtwechselvorhersageaufgaben für jede Form besser zu lösen, und nutzt das Gedächtnis als sichtunabhängige Formrepräsentation. Unser Ansatz erzielt die besten Ergebnisse durch eine Kombination von L_2- und adversären Verlustfunktionen für die Sichtwechselvorhersageaufgabe. Wir zeigen, dass VIP-GAN in der unüberwachten 3D-Merkmalslernen auf drei großen 3D-Formbenchmarks den aktuellen Stand der Technik übertreffen kann.