HyperAIHyperAI

Command Palette

Search for a command to run...

كشف أصناف ملفات CSV من خلال قياس التماسك الجدولي واستنتاج نوع البيانات

W. García

الملخص

البساطة التي تم تصميمها بسهولة في فهم التنسيق CSV، إلى جانب غياب معيار رسمي يُعرّف هذا التنسيق بشكل صارم، سمح بانتشار عدة أشكال فرعية من هذا التنسيق في كتابة الملفات. وقد أدى ذلك إلى الحاجة إلى تدخل بشري خلال عمليات استخراج البيانات وتنظيفها، عند تبادل المعلومات بين أنظمة إدارة البيانات، أو بين الدول والمناطق. وقد أدى هذا إلى تطوير أدوات حاسوبية متعددة تهدف إلى تحديد دقة لغة الملفات CSV، لتجنب فقدان البيانات أثناء تحميلها من قبل نظام معين. ومع ذلك، تواجه الأنظمة الحالية قيودًا وتُقدِّم افتراضات لا بد من تحسينها وتوسيعها. تُقدِّم هذه الورقة منهجًا لتحديد لغات الملفات CSV من خلال مبدأ الاتساق الجدولية، وهو منهج إحصائي يعتمد على قياس اتساق الجدول وتوزيع السجلات، إلى جانب اكتشاف نوع البيانات في كل مجال. وقد أظهرت الطريقة الجديدة دقة متناهية تبلغ 100% على مجموعة بيانات مكوَّنة من 147 ملف CSV تم أخذ عينات منها من إطار معياري. علاوةً على ذلك، تُظهر الطريقة المقترحة دقة كافية لتحديد اللغة من خلال قراءة عشرة سجلات فقط، مع الحاجة إلى بيانات إضافية في الحالات التي لا تحتوي السجلات الأولى على المعلومات الضرورية لاتخاذ قرار بتحديد اللغة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp