LRW-1000: معيار كبير وموزع بشكل طبيعي لقراءة الشفاه في البيئة الطبيعية

أثبتت قواعد البيانات الكبيرة أهميتها الأساسية تباعًا في عدة مجالات بحثية، خاصة بالنسبة للتقدم المبكر في بعض المواضيع الناشئة. في هذا البحث، نركز على مشكلة التعرف على الكلام البصري، المعروفة أيضًا بالقراءة من الشفاه (lipreading)، والتي حظيت باهتمام متزايد في السنوات الأخيرة. نقدم معيارًا كبيرًا وموزعًا طبيعيًا للقراءة من الشفاه في البيئات الطبيعية، يُسمى LRW-1000، ويحتوي على 1,000 فئة مع 718,018 عينة من أكثر من 2,000 متحدث فردي. تتوافق كل فئة مع مقاطع كلمة صينية مكونة من حرف أو عدة أحرف صينية. وفقًا لأفضل علم لنا، فهو يعتبر حاليًا أكبر قاعدة بيانات للقراءة من الشفاه على مستوى الكلمات وأيضًا única قاعدة بيانات صينية كبيرة للقراءة من الشفاه متاحة للجمهور. تهدف هذه القاعدة البيانات إلى تغطية تنوع "طبيعي" عبر أنماط الكلام المختلفة وظروف التصوير لدمج التحديات التي تواجهها التطبيقات العملية. قد أظهر هذا المعيار تنوعًا كبيرًا في عدة جوانب، بما في ذلك عدد العينات في كل فئة، دقة الفيديو، ظروف الإضاءة، والخصائص الشخصية للمتحدثين مثل الوضعية، العمر، الجنس والمكياج. بالإضافة إلى تقديم وصف مفصل لقاعدة البيانات وخط إنتاجها، نقيم عدة طرق شائعة للتعرف على الكلام البصري ونقوم بتحليل شامل للنتائج من عدة جوانب. توضح النتائج الثبات والتحديات التي تحملها قاعدة بياناتنا، مما قد يفتح بعض الاتجاهات الجديدة الواعدة للأبحاث المستقبلية.注释:在“única”这个词上加了引号,因为它是一个西班牙语词汇,在这里可能是原文的一个笔误。根据上下文,正确的表达应该是“唯一的”(وحيدة),因此在最终翻译中将其替换为阿拉伯语单词“وحيدة”。