HyperAIHyperAI
منذ 2 أشهر

CoVA: الانتباه البصري الواعي بالسياق لاستخراج معلومات الصفحة الويب

Anurendra Kumar; Keval Morabia; Jingjin Wang; Kevin Chen-Chuan Chang; Alexander Schwing
CoVA: الانتباه البصري الواعي بالسياق لاستخراج معلومات الصفحة الويب
الملخص

استخراج معلومات الصفحة الويب (WIE) هو خطوة مهمة لبناء قواعد المعرفة. لتحقيق هذا الهدف، تعتمد الأساليب التقليدية لـ WIE على شجرة نموذج كائن الوثيقة (DOM) للموقع. ومع ذلك، فإن استخدام شجرة DOM يشكل تحديات كبيرة حيث يتم ترميز السياق والمظهر بطريقة مجردة. لمعالجة هذا التحدي، نقترح إعادة صياغة WIE كمهمة اكتشاف أشياء في الصفحة الويب واعية بالسياق. بشكل خاص، نطور أنابيب اكتشاف تعتمد على الانتباه البصري واعي بالسياق (CoVA) والتي تجمع بين خصائص المظهر والبنية النحوية من شجرة DOM. لدراسة هذه الطريقة، جمعنا مجموعة بيانات جديدة ومقياسية كبيرة لمواقع التجارة الإلكترونية والتي قمنا بتصنيف كل عنصر ويب فيها يدويًا بأربع علامات: سعر المنتج، عنوان المنتج، صورة المنتج والخلفية. على هذه المجموعة البيانات، نوضح أن النهج المقترح CoVA هو أساس جديد ومثير للتحدي يحسن من الطرق الرائدة سابقًا في هذا المجال.

CoVA: الانتباه البصري الواعي بالسياق لاستخراج معلومات الصفحة الويب | أحدث الأوراق البحثية | HyperAI