FETA: Hin zu der Spezialisierung von Foundation Models für Expertenaufgaben

Foundation Models (FMs) haben bisher ungeahnte Fähigkeiten demonstriert, darunter Zero-Shot-Lernen, hochfidele Datensynthese und Generalisierung über den Trainingsbereich hinaus. In dieser Arbeit zeigen wir jedoch, dass FMs weiterhin eine schlechte Out-of-the-Box-Leistung bei expertenspezifischen Aufgaben aufweisen (z. B. die Suche nach Fahrzeugbedienungsanleitungen oder technischen Abbildungen anhand sprachlicher Abfragen), für die die Daten entweder nie im Trainingsdatensatz der großen Datensätze für die Vortrainierung von FMs erschienen sind oder zu den langen Schwänzen der Datensatzverteilung gehören. Dies unterstreicht die Notwendigkeit, FMs explizit auf solchen expertenspezifischen Aufgaben zu evaluieren und zu fine-tunen – Aufgaben, die in der Praxis vermutlich am häufigsten vorkommen. In dieser Arbeit präsentieren wir den FETA-Benchmark, den ersten seiner Art, der darauf abzielt, FMs beizubringen, technische Dokumentationen zu verstehen, indem sie grafische Abbildungen mit entsprechenden sprachlichen Beschreibungen verknüpfen. Der FETA-Benchmark konzentriert sich auf Text-zu-Bild- und Bild-zu-Text-Abfrage in öffentlichen Fahrzeugbedienungsanleitungen und Verkaufskatalogbrochüren. FETA verfügt über ein Verfahren zur vollautomatischen Extraktion von Annotationen (der zugehörige Code wird nach Annahme veröffentlicht), was eine einfache Erweiterung des Benchmarks auf weitere Dokumententypen und Anwendungsbereiche in Zukunft ermöglicht. Unsere automatisierte Annotation führt zu einem automatisierten Leistungsmetriken, die sich als konsistent mit Metriken erwiesen hat, die auf menschlich kuratierten Annotationen berechnet wurden (diese werden ebenfalls veröffentlicht). Wir stellen mehrere Baselines und eine detaillierte Analyse populärer FMs auf FETA vor, was zu mehreren interessanten Erkenntnissen führt, die wir für die FM-Community als äußerst wertvoll erachten und die den Weg für die praktische Anwendung von FMs bei expertenspezifischen Aufgaben ebnen, die derzeit durch Standardbenchmarks, die sich auf alltägliche Objekte konzentrieren, „übersehen“ werden.