HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

كشف أصناف ملفات CSV من خلال قياس التماسك الجدولي واستنتاج نوع البيانات

{W. García}

الملخص

البساطة التي تم تصميمها بسهولة في فهم التنسيق CSV، إلى جانب غياب معيار رسمي يُعرّف هذا التنسيق بشكل صارم، سمح بانتشار عدة أشكال فرعية من هذا التنسيق في كتابة الملفات. وقد أدى ذلك إلى الحاجة إلى تدخل بشري خلال عمليات استخراج البيانات وتنظيفها، عند تبادل المعلومات بين أنظمة إدارة البيانات، أو بين الدول والمناطق. وقد أدى هذا إلى تطوير أدوات حاسوبية متعددة تهدف إلى تحديد دقة لغة الملفات CSV، لتجنب فقدان البيانات أثناء تحميلها من قبل نظام معين. ومع ذلك، تواجه الأنظمة الحالية قيودًا وتُقدِّم افتراضات لا بد من تحسينها وتوسيعها. تُقدِّم هذه الورقة منهجًا لتحديد لغات الملفات CSV من خلال مبدأ الاتساق الجدولية، وهو منهج إحصائي يعتمد على قياس اتساق الجدول وتوزيع السجلات، إلى جانب اكتشاف نوع البيانات في كل مجال. وقد أظهرت الطريقة الجديدة دقة متناهية تبلغ 100% على مجموعة بيانات مكوَّنة من 147 ملف CSV تم أخذ عينات منها من إطار معياري. علاوةً على ذلك، تُظهر الطريقة المقترحة دقة كافية لتحديد اللغة من خلال قراءة عشرة سجلات فقط، مع الحاجة إلى بيانات إضافية في الحالات التي لا تحتوي السجلات الأولى على المعلومات الضرورية لاتخاذ قرار بتحديد اللغة.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
csv-dialect-detection-on-tudF1 Score
1:1 Accuracy: 0.9260

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كشف أصناف ملفات CSV من خلال قياس التماسك الجدولي واستنتاج نوع البيانات | الأوراق البحثية | HyperAI