CoVA: الانتباه البصري الواعي بالسياق لاستخراج معلومات الصفحة الويب

استخراج معلومات الصفحة الويب (WIE) هو خطوة مهمة لبناء قواعد المعرفة. لتحقيق هذا الهدف، تعتمد الأساليب التقليدية لـ WIE على شجرة نموذج كائن الوثيقة (DOM) للموقع. ومع ذلك، فإن استخدام شجرة DOM يشكل تحديات كبيرة حيث يتم ترميز السياق والمظهر بطريقة مجردة. لمعالجة هذا التحدي، نقترح إعادة صياغة WIE كمهمة اكتشاف أشياء في الصفحة الويب واعية بالسياق. بشكل خاص، نطور أنابيب اكتشاف تعتمد على الانتباه البصري واعي بالسياق (CoVA) والتي تجمع بين خصائص المظهر والبنية النحوية من شجرة DOM. لدراسة هذه الطريقة، جمعنا مجموعة بيانات جديدة ومقياسية كبيرة لمواقع التجارة الإلكترونية والتي قمنا بتصنيف كل عنصر ويب فيها يدويًا بأربع علامات: سعر المنتج، عنوان المنتج، صورة المنتج والخلفية. على هذه المجموعة البيانات، نوضح أن النهج المقترح CoVA هو أساس جديد ومثير للتحدي يحسن من الطرق الرائدة سابقًا في هذا المجال.