HyperAIHyperAI
منذ 14 أيام

كشف أصناف ملفات CSV من خلال قياس التماسك الجدولي واستنتاج نوع البيانات

{W. García}
الملخص

البساطة التي تم تصميمها بسهولة في فهم التنسيق CSV، إلى جانب غياب معيار رسمي يُعرّف هذا التنسيق بشكل صارم، سمح بانتشار عدة أشكال فرعية من هذا التنسيق في كتابة الملفات. وقد أدى ذلك إلى الحاجة إلى تدخل بشري خلال عمليات استخراج البيانات وتنظيفها، عند تبادل المعلومات بين أنظمة إدارة البيانات، أو بين الدول والمناطق. وقد أدى هذا إلى تطوير أدوات حاسوبية متعددة تهدف إلى تحديد دقة لغة الملفات CSV، لتجنب فقدان البيانات أثناء تحميلها من قبل نظام معين. ومع ذلك، تواجه الأنظمة الحالية قيودًا وتُقدِّم افتراضات لا بد من تحسينها وتوسيعها. تُقدِّم هذه الورقة منهجًا لتحديد لغات الملفات CSV من خلال مبدأ الاتساق الجدولية، وهو منهج إحصائي يعتمد على قياس اتساق الجدول وتوزيع السجلات، إلى جانب اكتشاف نوع البيانات في كل مجال. وقد أظهرت الطريقة الجديدة دقة متناهية تبلغ 100% على مجموعة بيانات مكوَّنة من 147 ملف CSV تم أخذ عينات منها من إطار معياري. علاوةً على ذلك، تُظهر الطريقة المقترحة دقة كافية لتحديد اللغة من خلال قراءة عشرة سجلات فقط، مع الحاجة إلى بيانات إضافية في الحالات التي لا تحتوي السجلات الأولى على المعلومات الضرورية لاتخاذ قرار بتحديد اللغة.