Few-Shot Learning durch Integration räumlicher und frequenzbasierter Darstellungen

Menschen können neue Objekte bereits anhand nur weniger gelabelter Beispiele erkennen, dennoch bleibt das Few-Shot-Lernen für maschinelle Lernsysteme weiterhin eine herausfordernde Aufgabe. Die meisten bisherigen Algorithmen im Bereich des Few-Shot-Lernens nutzen lediglich die räumlichen Informationen der Bilder. In diesem Artikel schlagen wir vor, die Frequenzinformation in das Lernmodell zu integrieren, um die Unterscheidungskraft des Systems zu verbessern. Wir verwenden die diskrete Kosinustransformation (DCT), um eine Frequenzdarstellung zu generieren, und integrieren anschließend Merkmale aus sowohl dem räumlichen als auch dem Frequenzbereich zur Klassifikation. Die vorgeschlagene Strategie und ihre Wirksamkeit werden an verschiedenen Architekturen, Datensätzen und Algorithmen validiert. Umfangreiche Experimente zeigen, dass die Frequenzinformation die räumlichen Darstellungen im Few-Shot-Klassifikationsprozess ergänzt. Die Klassifikationsgenauigkeit wird signifikant gesteigert, wenn Merkmale aus beiden Domänen – räumlich und frequenzbasiert – kombiniert werden, in verschiedenen Few-Shot-Lernaufgaben.