HyperAIHyperAI
vor 2 Monaten

FaSTA^*: Fast-Slow Toolpath Agent mit Subroutine Mining für effizientes mehrfaches Bildbearbeitung

Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
FaSTA^*: Fast-Slow Toolpath Agent mit Subroutine Mining für effizientes mehrfaches Bildbearbeitung
Abstract

Wir entwickeln einen kosteneffizienten neurosymbolischen Agenten, um herausfordernde Mehrschritt-Bildbearbeitungsaufgaben wie „Erkennen Sie die Bank im Bild und färben Sie sie rosa. Entfernen Sie außerdem die Katze für eine klarere Sicht und färben Sie die Wand gelb“ zu lösen. Dieser Agent kombiniert die schnelle, hochrangige Teilaufgabenplanung durch große Sprachmodelle (LLMs) mit der langsamen, genauen, Werkzeugnutzung und lokalen A-Suche pro Teilaufgabe, um einen kosteneffizienten Werkzeugpfad – eine Sequenz von Aufrufen an KI-Werkzeuge – zu finden. Um die Kosten der A-Suche bei ähnlichen Teilaufgaben zu reduzieren, führen wir induktives Schließen auf vorher erfolgreichen Werkzeugpfaden durch LLMs durch, um häufig verwendete Unterprozeduren kontinuierlich zu extrahieren/verfeinern und diese als neue Werkzeuge für zukünftige Aufgaben in einer adaptiven schnellen-langsam-Planung wiederverzuwenden. Dabei werden zunächst höhere-Level-Unterprozeduren untersucht, und erst wenn diese fehlschlagen, wird die langsame A-Suche aktiviert. Die wiederverwendbaren symbolischen Unterprozeduren sparen erhebliche Explorationskosten bei gleichen Arten von Teilaufgaben auf ähnlichen Bildern ein und ergeben einen menschenähnlichen schnellen-langsam-Werkzeugpfad-Agenten „FaSTA“: Zunächst versuchen LLMs eine schnelle Teilaufgabenplanung gefolgt von regelbasierter Auswahl von Unterprozeduren pro Teilaufgabe, was den Großteil der Aufgaben abdecken soll; die langsame A-Suche wird nur für neuartige und anspruchsvolle Teilaufgaben ausgelöst. Durch Vergleich mit aktuellen Ansätzen zur Bildbearbeitung zeigen wir, dass FaSTA erheblich rechnerisch effizienter ist und gleichzeitig im Erfolgssatz mit dem Stand der Technik konkurrieren kann.

FaSTA^*: Fast-Slow Toolpath Agent mit Subroutine Mining für effizientes mehrfaches Bildbearbeitung | Neueste Forschungsarbeiten | HyperAI