HyperAIHyperAI
vor 19 Tagen

Essen auf Details: LLM-gesteuerte Expertennetze für feinabgestimmte Nahrungsmittelerkennung

{Petia Radeva, Bhalaji Nagarajan, Ignacio Sarasúa, Marc Bolaños, Imanol G. Estepa, Pablo Villacorta, Jesús M. Rodríguez-de-Vera}
Abstract

Im Bereich der feinkörnigen Nahrungsmittelerkennung bieten subset-learning-basierte Methoden einen strategischen Ansatz, bei dem Klassen in Untergruppen zusammengefasst werden, um den Trainingsprozess zu leiten. In unserer Studie stellen wir einen innovativen Ansatz vor, den wir „Dining on Details (DoD)“ nennen – ein neuartiges Experten-Lernframework für die Nahrungsmittelklassifikation. Diese Methode nutzt geschickt die Stärke großer Sprachmodelle, um innerhalb des Datensatzes sinnvolle Klassenuntergruppen zu konstruieren. Die Wirksamkeit von DoD beruht auf der Robustheit des ImageBind-Multimodalitäts-Embedding-Raums, der bedeutungsvolle Ähnlichkeiten zwischen unterschiedlichen Kategorien identifizieren kann. Durch einen end-to-end-Mehraufgaben-Lernprozess trainiert, verbessert diese Methode die Leistung bei der feinkörnigen Nahrungsmittelklassifikation erheblich, wobei sie sich besonders hervortut bei äußerst ähnlichen Klassen. Ein zentraler Vorteil von DoD ist ihre universelle Kompatibilität, die es ermöglicht, das Verfahren nahtlos auf beliebige bestehende Klassifikationsarchitekturen anzuwenden. Unsere umfassende Validierung des Ansatzes auf verschiedenen Nahrungsmitteldatensätzen und unterschiedlichen Grundarchitekturen – sowohl convolutional als auch transformer-basiert – zeigt konkurrenzfähige Ergebnisse mit signifikanten Leistungssteigerungen zwischen 0,5 % und 1,61 %. Besonders hervorzuheben ist, dass DoD auf dem Food-101-Datensatz Ergebnisse auf State-of-the-Art-Niveau erreicht.