كشف الكلمات التعبئة وتصنيفها: مجموعة بيانات ومقاييس معيارية

تشمل الكلمات التعبئة مثل "uh" أو "um" أصواتًا أو كلمات يستخدمها الناس للإشارة إلى توقفهم لفترة لتأمل أو التفكير. يُعدّ إيجاد هذه الكلمات وإزالتها من التسجيلات مهامًا شائعة ومتعبة في مجال تحرير الوسائط. يمكن أن يُسهم الكشف التلقائي عن الكلمات التعبئة وتصنيفها بشكل كبير في تسهيل هذه المهمة، لكن عدد الدراسات التي نُشرت حتى الآن حول هذا الموضوع محدود جدًا. والسبب الرئيسي في ذلك هو غياب مجموعة بيانات مُعلّمة بوجود كلمات تعبئة مناسبة لتدريب النماذج وتقييم أدائها. في هذه الدراسة، نقدّم مجموعة بيانات صوتية جديدة تُسمى PodcastFillers، تحتوي على 35 ألف تسمية للكلمات التعبئة، و50 ألف تسمية لأصوات أخرى شائعة في البودكاست مثل الزفير والضحك وتكرار الكلمات. نقترح نموذجًا (Pipeline) يستفيد من التحديد التلقائي للنشاط الصوتي (VAD) والتقنيات الصوتية للتحويل إلى نص (ASR) لتحديد المرشحين للكلمات التعبئة، ثم يستخدم فئة تصنيف لتمييز أنواع الكلمات التعبئة المختلفة. وقد قمنا بتقييم النموذج المقترح على مجموعة بيانات PodcastFillers، وقارنّاه بسلسلة من النماذج الأساسية، كما قدّمنا دراسة تحليلية مفصلة (Ablation Study). وبشكل خاص، قمنا بتقييم أهمية استخدام ASR، وقورنّا الأداء مع نهج لا يعتمد على التحويل إلى نص، يشبه تقنية البحث عن كلمات مفتاحية (Keyword Spotting). ونُظهر أن النموذج المقترح يحقق نتائج من الطراز الأول (state-of-the-art)، وأن استخدام ASR يؤدي إلى أداء أفضل بشكل ملحوظ مقارنةً بالنهج القائم على البحث عن كلمات مفتاحية. ونُعلن عن إتاحة مجموعة بيانات PodcastFillers للجمهور، آملين أن تُسهم أبحاثنا كمعيار مرجعي (Benchmark) للدراسات المستقبلية.