Lernen mehrerer Teilmengen von Klassen für feinabgestimmte Nahrungsmittelerkennung
Die Erkennung von Nahrungsmittelbildern ist eine komplexe Aufgabe im Bereich des Computersehens, bedingt durch die große Anzahl feinabgestufter Nahrungsmittelklassen. Feinabgestufte Erkennungsaufgaben zielen darauf ab, subtile, differenzierende Merkmale zu lernen, um ähnliche Klassen voneinander zu unterscheiden. In diesem Artikel stellen wir eine neue Methode zur Verbesserung der Klassifizierung von Klassen vor, die aufgrund ihrer Ähnlichkeit schwer zu unterscheiden sind, basierend auf dem Konzept des Multi-Subsets-Lernens. Unter Verwendung eines vortrainierten Netzwerks organisieren wir die Klassen mittels eines Clustering-Verfahrens in mehrere Teilmengen. Anschließend integrieren wir diese Teilmengen in eine mehrköpfige Modellarchitektur. Diese Struktur weist drei unterscheidbare Komponenten auf: Erstens nutzen wir mehrere gemeinsame Blöcke, um allgemeine Datenrepräsentationen zu lernen. Zweitens setzen wir mehrere spezialisierte Blöcke ein, die sich auf bestimmte, schwer unterscheidbare Teilmengen konzentrieren. Schließlich verwenden wir eine vollständig verbundene Schicht, um die verschiedenen Teilmengen end-to-end durch Kombination der Neuronenausgaben gewichtete zu verarbeiten. Wir validierten unsere vorgeschlagene Methode anhand zweier aktueller state-of-the-art Vision Transformers auf drei öffentlichen Datensätzen zur Nahrungsmittelklassifizierung. Unsere Methode zeigte eine verbesserte Fähigkeit, verwirrende Klassen zu lernen, und erreichte auf allen drei Datensätzen eine bessere Leistung als die bisherigen state-of-the-art-Verfahren.