التعلم المن転 المتكيف حسب المجال على التوسيع البصري المستشعر للانتباه في التصنيف البصري الدقيق

التصنيف البصري الدقيق (FGVC) يُعد موضوعًا صعبًا في رؤية الحاسوب، حيث يتميز بفرق كبير داخل الفئة وفرق دقيق جدًا بين الفئات. في هذه الورقة، نتناول هذه المشكلة بطريقة مراقبة ضعيفة، حيث يتم تزويد نماذج الشبكات العصبية ببيانات إضافية باستخدام تقنية تكبير البيانات من خلال آلية انتباه بصري. نقوم بتحويل المعرفة المُتكيفة حسب المجال من خلال التحسين الدقيق (fine-tuning) على نموذج الشبكة الأساسية لدينا. نُجري تجاربنا على ستة مجموعات بيانات صعبة وشائعة الاستخدام في مجال FGVC، ونُظهر تحسنًا تنافسيًا في الدقة باستخدام تقنيات تكبير البيانات القائمة على الانتباه، مع الاستفادة من السمات المستخلصة من نموذج التعلم العميق InceptionV3، الذي تم تدريبه مسبقًا على مجموعات بيانات كبيرة. تتفوق طريقة عملنا على الطرق التنافسية على عدة مجموعات بيانات FGVC، وتُظهر نتائج تنافسية على مجموعات بيانات أخرى. تُظهر الدراسات التجريبية أن التعلم الناقل من مجموعات بيانات كبيرة يمكن استخدامه بفعالية مع تكبير البيانات القائم على الانتباه البصري، مما يُمكن من تحقيق نتائج متميزة على عدة مجموعات بيانات FGVC. نقدّم تحليلًا شاملاً لتجاربنا. تُحقق طريقة عملنا نتائج متميزة على العديد من مجموعات التصنيف الدقيق، بما في ذلك مجموعات بيانات صعبة مثل CUB200-2011 للطيور، وFlowers-102، وFGVC-Aircrafts.