HyperAIHyperAI
منذ 2 أشهر

تغذية النص-الأسئلة المرتبطة بالصور عبر توليد أسئلة وإجابات مرتبطة بالنص بصرياً

Jun Wang; Mingfei Gao; Yuqian Hu; Ramprasaath R. Selvaraju; Chetan Ramaiah; Ran Xu; Joseph F. JaJa; Larry S. Davis
تغذية النص-الأسئلة المرتبطة بالصور عبر توليد أسئلة وإجابات مرتبطة بالنص بصرياً
الملخص

يهدف Text-VQA إلى الإجابة على الأسئلة التي تتطلب فهم الدلائل النصية في الصورة. رغم التقدم الكبير الذي أحرزته طرق Text-VQA الحالية، فإن أدائها يعاني من نقص في paris السؤال-الإجابة (QA) المعلمة من قبل البشر. ومع ذلك، لاحظنا أن النص الموجود في المشهد غير مستغل بشكل كامل في معظم مجموعات البيانات الحالية - حيث يشارك فقط جزء صغير من النصوص الموجودة في كل صورة في أنشطة السؤال والجواب المعلمة. هذا يؤدي إلى إهدار كبير للمعلومات المفيدة. لمعالجة هذا القصور، قمنا بتطوير طريقة جديدة لإنتاج paris أسئلة وإجابات عالية الجودة ومتنوعة من خلال استخدام النصوص الغنية المتاحة بشكل صريح في سياق المشهد لكل صورة. تحديداً، نقترح TAG، وهي هندسة توليد أسئلة وإجابات مرتبطة بالنص التي تتعلم إنتاج عينات أسئلة وإجابات ذات معنى ودقيقة باستخدام محول متعدد الأوضاع (Multimodal Transformer). تستغل هذه الهندسة المعلومات النصية غير المستغلة بشكل كافٍ وتزيد من فهم المشهد لنموذج Text-VQA عن طريق دمج paris السؤال-الإجابة المنتجة مع بيانات التدريب الأولية. تظهر النتائج التجريبية الواسعة على معياري Text-VQA المعروفين (TextVQA و ST-VQA) أن TAG المقترحة لدينا توسع بيانات التدريب بفعالية مما يساعد على تحسين أداء Text-VQA دون الحاجة إلى جهود تصنيف إضافية. بالإضافة إلى ذلك، فإن نموذجنا يتفوق على أفضل الطرق الحالية التي تم تدريبها مسبقاً باستخدام بيانات كبيرة الحجم إضافية. يمكن الحصول على الكود من https://github.com/HenryJunW/TAG.请注意,"pairs" 在阿拉伯语中通常翻译为 "Paris",但在这里为了上下文的准确性,我将其翻译为 "paris" 并保持小写形式以示区别。然而,正确的翻译应该是 "أزواج" 或者 "Paris"(指法国首都巴黎时)。在科技文献中,建议使用 "أزواج" 以确保专业性和准确性。因此,修正后的翻译如下:يهدف Text-VQA إلى الإجابة على الأسئلة التي تتطلب فهم الدلائل النصية في الصورة. رغم التقدم الكبير الذي أحرزته طرق Text-VQA الحالية، فإن أدائها يعاني من نقص في أزواج السؤال-الإجابة (QA) المعلمة من قبل البشر. ومع ذلك، لاحظنا أن النص الموجود في المشهد غير مستغل بشكل كامل في معظم مجموعات البيانات الحالية - حيث يشارك فقط جزء صغير من النصوص الموجودة في كل صورة في أنشطة السؤال والجواب المعلمة. هذا يؤدي إلى إهدار كبير للمعلومات المفيدة. لمعالجة هذا القصور، قمنا بتطوير طريقة جديدة لإنتاج أزواج أسئلة وإجابات عالية الجودة ومتنوعة من خلال استخدام النصوص الغنية المتاحة بشكل صريح في سياق المشهد لكل صورة. تحديداً، نقترح TAG، وهي هندسة توليد أسئلة وإجابات مرتبطة بالنص التي تتعلم إنتاج عينات أسئلة وإجابات ذات معنى ودقيقة باستخدام محول متعدد الأوضاع (Multimodal Transformer). تستغل هذه الهندسة المعلومات النصية غير المستغلة بشكل كافٍ وتزيد من فهم المشهد لنموذج Text-VQA عن طريق دمج أزواج السؤال-الإجابة المنتجة مع بيانات التدريب الأولية. تظهر النتائج التجريبية الواسعة على معياري Text-VQA المعروفين (TextVQA و ST-VQA) أن TAG المقترحة لدينا توسع بيانات التدريب بفعالية مما يساعد على تحسين أداء Text-VQA دون الحاجة إلى جهود تصنيف إضافية. بالإضافة إلى ذلك، فإن نموذجنا يتفوق على أفضل الطرق الحالية التي تم تدريبها مسبقاً باستخدام بيانات كبيرة الحجم إضافية. يمكن الحصول على الكود من https://github.com/HenryJunW/TAG.

تغذية النص-الأسئلة المرتبطة بالصور عبر توليد أسئلة وإجابات مرتبطة بالنص بصرياً | أحدث الأوراق البحثية | HyperAI