Xception: التعلم العميق باستخدام الالتفافات القابلة للفصل حسب العمق

نقدم تفسيرًا لوحدات Inception في شبكات العصبونات التلافيفية باعتبارها خطوة وسيطة بين التلفيف العادي وعملية التلفيف العميق المنفصل (التلفيف العميق متبوعًا بالتلفيف النقطي). في هذا السياق، يمكن فهم التلفيف العميق المنفصل على أنه وحدة Inception ذات عدد برجيات كبير للغاية. هذه الملاحظة تقودنا إلى اقتراح هندسة شبكة عصبية تلافيفية عميقة جديدة مستوحاة من Inception، حيث تم استبدال وحدات Inception بالتلفيف العميق المنفصل. نوضح أن هذه الهندسة، التي أطلق عليها اسم Xception، تتفوق قليلاً على Inception V3 في مجموعة بيانات ImageNet (التي صُمِّمَتْ لها Inception V3)، وتتفوق بشكل كبير على Inception V3 في مجموعة بيانات تصنيف الصور الأكبر التي تتضمن 350 مليون صورة و17,000 فئة. نظرًا لأن هندسة Xception تحتوي على نفس عدد المعلمات مثل Inception V3، فإن الزيادات في الأداء ليست بسبب زيادة القدرة بل بسبب استخدام أكثر كفاءة للمعلمات النموذجية.