Pix2Struct: تحليل الصور الشاشية كتدريب مسبق لفهم اللغة البصرية

اللغة المرتبطة بصرياً شائعة للغاية -- مصادرها تتنوع من الكتب الدراسية التي تحتوي على الرسومات إلى صفحات الويب التي تتضمن الصور والجداول، إلى التطبيقات المحمولة التي تحتوي على الأزرار والأشكال. ربما بسبب هذا التنوع، اعتمد العمل السابق عادةً على وصفات خاصة بقطاع معين مع مشاركة محدودة للبيانات الأساسية، هياكل النماذج، والأهداف. نقدم Pix2Struct (بيكستروكت)، وهو نموذج تم تدريبه مسبقًا لتحويل الصور إلى النصوص لأجل فهم اللغة البصرية الخالصة، والذي يمكن تحسينه على المهام التي تحتوي على اللغة المرتبطة بصرياً. يتم تدريب Pix2Struct مسبقًا من خلال تعلم تحويل لقطات الشاشة المخفية من صفحات الويب إلى HTML بسيط. توفر الويب، بثراء عناصرها البصرية المنعكسة بشكل واضح في هيكل HTML، مصدرًا كبيرًا للبيانات التدريبية المسبقة المناسبة لتنوع المهام اللاحقة. وبشكل حدسي، يشمل هذا الهدف الإشارات التدريبية الشائعة مثل التعرف البصري على الحروف (OCR)، نمذجة اللغة، ووصف الصور. بالإضافة إلى الاستراتيجية الجديدة للتدريب المسبق، نقدم تمثيل إدخال متغير الدقة ودمج أكثر مرونة للإدخالات اللغوية والبصرية، حيث يتم تقديم الإرشادات اللغوية مثل الأسئلة مباشرة فوق الصورة الإدخالية. ولأول مرة، نظهر أن نموذجًا واحدًا تم تدريبه مسبقًا يمكنه تحقيق أفضل النتائج في ستة من تسعة مهام عبر أربعة مجالات: المستندات، الرسوم التوضيحية، واجهات المستخدم، والصور الطبيعية.