Command Palette
Search for a command to run...
Essen auf Details: LLM-gesteuerte Expertennetze für feinabgestimmte Nahrungsmittelerkennung
Essen auf Details: LLM-gesteuerte Expertennetze für feinabgestimmte Nahrungsmittelerkennung
Petia Radeva Bhalaji Nagarajan Ignacio Sarasúa Marc Bolaños Imanol G. Estepa Pablo Villacorta Jesús M. Rodríguez-de-Vera
Zusammenfassung
Im Bereich der feinkörnigen Nahrungsmittelerkennung bieten subset-learning-basierte Methoden einen strategischen Ansatz, bei dem Klassen in Untergruppen zusammengefasst werden, um den Trainingsprozess zu leiten. In unserer Studie stellen wir einen innovativen Ansatz vor, den wir „Dining on Details (DoD)“ nennen – ein neuartiges Experten-Lernframework für die Nahrungsmittelklassifikation. Diese Methode nutzt geschickt die Stärke großer Sprachmodelle, um innerhalb des Datensatzes sinnvolle Klassenuntergruppen zu konstruieren. Die Wirksamkeit von DoD beruht auf der Robustheit des ImageBind-Multimodalitäts-Embedding-Raums, der bedeutungsvolle Ähnlichkeiten zwischen unterschiedlichen Kategorien identifizieren kann. Durch einen end-to-end-Mehraufgaben-Lernprozess trainiert, verbessert diese Methode die Leistung bei der feinkörnigen Nahrungsmittelklassifikation erheblich, wobei sie sich besonders hervortut bei äußerst ähnlichen Klassen. Ein zentraler Vorteil von DoD ist ihre universelle Kompatibilität, die es ermöglicht, das Verfahren nahtlos auf beliebige bestehende Klassifikationsarchitekturen anzuwenden. Unsere umfassende Validierung des Ansatzes auf verschiedenen Nahrungsmitteldatensätzen und unterschiedlichen Grundarchitekturen – sowohl convolutional als auch transformer-basiert – zeigt konkurrenzfähige Ergebnisse mit signifikanten Leistungssteigerungen zwischen 0,5 % und 1,61 %. Besonders hervorzuheben ist, dass DoD auf dem Food-101-Datensatz Ergebnisse auf State-of-the-Art-Niveau erreicht.