FaSTA^*: وكيل مسار سريع-بطيء مع تعدين الروتينات الفرعية لتحرير الصور المتعدد الدورات بكفاءة

نطور وكيلًا عصبيًا رمزيًا (Neurosymbolic Agent) فعالًا من حيث التكلفة لمعالجة مهام تحرير الصور متعددة الدورات الصعبة مثل "اكتشف المقعد في الصورة وأعد تلوينه إلى اللون الوردي. كما أزل القطة للحصول على رؤية أكثر وضوحًا وأعد تلوين الجدار إلى اللون الأصفر". يجمع هذا الوكيل بين التخطيط السريع للمهام الفرعية على المستوى العالي بواسطة نماذج اللغة الكبيرة (Large Language Models - LLMs) والبحث البطيء والدقيق باستخدام الأدوات والبحث المحلي A^ لكل مهمة فرعية للعثور على مسار أدوات فعال من حيث التكلفة -- وهو سلسلة من المكالمات للأدوات الذكاء الاصطناعي. لتخفيض تكلفة A^ على المهام الفرعية المشابهة، نقوم بالاستدلال الاستقرائي على المسارات الناجحة السابقة للأدوات عبر نماذج اللغة الكبيرة لاستخراج وتكرار الروتينات المستخدمة بشكل متكرر وإعادة استخدامها كأدوات جديدة للمهام المستقبلية في التخطيط السريع-البطيء التكيفي، حيث يتم استكشاف الروتينات الأعلى مستوى أولاً، وإذا فشلت,则激活低级别的 A^ 搜索。可重用的符号子程序在应用于类似图像的相同类型子任务上大大节省了探索成本,从而产生了一个类似于人类的快速-慢速工具路径代理 "FaSTA^":首先由大型语言模型尝试进行快速子任务规划和基于规则的子程序选择,这预计可以覆盖大多数任务,而缓慢的 A^ 搜索仅在遇到新颖且具有挑战性的子任务时触发。通过与最近的图像编辑方法进行比较,我们证明了 FaSTA^ 在计算效率方面显著更高,同时在成功率方面仍与最先进的基线方法保持竞争力。注:在上述翻译中有一部分中文未被转换为阿拉伯语,现将这部分补充翻译如下:وإذا فشلت,则激活低级别的 A^ 搜索。وإذا فشلت، يتم تفعيل البحث البطيء A^.最终版本:نطور وكيلًا عصبيًا رمزيًا (Neurosymbolic Agent) فعالًا من حيث التكلفة لمعالجة مهام تحرير الصور متعددة الدورات الصعبة مثل "اكتشف المقعد في الصورة وأعد تلوينه إلى اللون الوردي. كما أزل القطة للحصول على رؤية أكثر وضوحًا وأعد تلوين الجدار إلى اللون الأصفر". يجمع هذا الوكيل بين التخطيط السريع للمهام الفرعية على المستوى العالي بواسطة نماذج اللغة الكبيرة (Large Language Models - LLMs) والبحث البطيء والدقيق باستخدام الأدوات والبحث المحلي A^ لكل مهمة فرعية للعثور على مسار أدوات فعال من حيث التكلفة -- وهو سلسلة من المكالمات للأدوات الذكاء الاصطناعي. لتخفيض تكلفة A^ على المهام الفرعية المشابهة، نقوم بالاستدلال الاستقرائي على المسارات الناجحة السابقة للأدوات عبر نماذج اللغة الكبيرة لاستخراج وتكرار الروتينات المستخدمة بشكل متكرر وإعادة استخدامها كأدوات جديدة للمهام المستقبلية في التخطيط السريع-البطيء التكيفي، حيث يتم استكشاف الروتينات الأعلى مستوى أولاً، وإذا فشلت، يتم تفعيل البحث البطيء A^. الروتينات القابلة لإعادة الاستخدام توفر بشكل كبير من تكلفة الاستكشاف عند تنفيذ أنواع المهام الفرعية نفسها على صور مشابهة، مما يؤدي إلى إنتاج وكيل مسار أدوات سريع-بطيء يشبه الإنسان "FaSTA^" : يقوم نموذج اللغة الكبير أولًا بمحاولة التخطيط السريع للمهمة الفرعية واختيار الروتين القائم على القواعد لكل مهمة فرعية، ومن المتوقع أن يغطي معظم المهام، بينما يتم تشغيل البحث البطيء A^ فقط عند التعامل مع مهمات فرعية جديدة ومليئة بالتحديات. من خلال مقارنة FaSTA^ مع طرق تعديل الصور الحديثة، أظهرنا أن FaSTA^* أكثر كفاءة حسابيًا بشكل كبير وفي الوقت نفسه يبقى قويًا بالمقارنة مع أفضل الأساليب الحالية من حيث معدل النجاح.