HyperAI

ورقة إلى ملصق: نحو تلقائية متعددة الوسائط لإنشاء الملصقات من الأوراق العلمية

Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
تاريخ النشر: 5/28/2025
ورقة إلى ملصق: نحو تلقائية متعددة الوسائط لإنشاء الملصقات من الأوراق العلمية
الملخص

توليد البوسترات الأكاديمية هو مهمة حاسمة ومعقدة في التواصل العلمي، تتطلب ضغط الوثائق الطويلة والمتداخلة إلى صفحة واحدة متماسكة بصريًا. لمواجهة هذا التحدي، نقدم أول مجموعة مقاييس ومؤشرات مرجعية لتوليد البوسترات، والتي تربط بين أوراق المؤتمر الحديثة والبوسترات المصممة من قبل المؤلفين وتقييم النواتج على أساس:(i) الجودة البصرية - التوافق الدلالي مع البوسترات البشرية،(ii) التماسك النصي - سلاسة اللغة،(iii) التقييم الشامل - ستة معايير دقيقة للجمال والمعلومات يتم تقييمها بواسطة نموذج لغوي متعدد الوسائط (VLM)،ومن الملاحظ أيضًا (iv) اختبار الورقة - قدرة البوستر على نقل المحتوى الأساسي للورقة كما يقاس بواسطة نماذج لغوية متعددة الوسائط (VLMs) عند الإجابة على الاختبارات المولدة.بناءً على هذه المجموعة المرجعية، نقترح نظام PosterAgent المتعدد الوكلاء والمتكامل بمرحلته البصرية من الأعلى إلى الأسفل: (a) محلل النصوص (Parser) يقوم بتقطيع الورقة إلى مكتبة أصول هيكلية؛(b) مخطط التصميم (Planner) يقوم بالتوافق بين أزواج النصوص والصور في تصميم شجري ثنائي يحافظ على ترتيب القراءة والتوازن المكاني؛(c) حلقة الرسام والمعلق (Painter-Commenter loop) تقوم بتحسين كل لوحة عن طريق تنفيذ كود العرض واستخدام ردود الفعل من نموذج لغوي متعدد الوسائط (VLM) لإزالة الفائض وضمان التوافق.في تقييمنا الشامل، وجدنا أن النواتج التي تم إنتاجها بواسطة GPT-4 - رغم أنها جذابة بصريًا في النظر الأول - غالبًا ما تعاني من وجود نصوص غير واضحة ودرجات ضعيفة في اختبار الورقة (PaperQuiz)، وأن المشاركة القارئ هي العقبة الجمالية الرئيسية، حيث تعتمد البوسترات المصممة من قبل البشر بشكل كبير على الدلالات البصرية لنقل المعنى. النسخ المفتوحة المصدر لدينا بالكامل (مثل تلك المستندة إلى سلسلة Qwen-2.5) تتفوق على الأنظمة المتعددة الوكلاء الحالية التي تعمل بمحرك 4o في جميع المقاييس تقريبًا باستخدام 87٪ أقل من الرموز. إنها تحول ورقة علمية تتكون من 22 صفحة إلى بوستر نهائي قابل للتحرير بصيغة .pptx وكل ذلك بمبلغ لا يتجاوز 0.005 دولار أمريكي. هذه النتائج تحدد اتجاهات واضحة للمولدات الآلية للأجيال القادمة من البوسترات الأكاديمية. يمكن الوصول إلى الكود والبيانات عبر الرابط https://github.com/Paper2Poster/Paper2Poster.