HyperAIHyperAI
منذ 17 أيام

نهج يراعي التقلب في تحديد توقيت المستند

{Kjetil Nørvåg, Nattiya Kanhabua, Dimitrios Gunopulos, Dimitrios Kotzias, Theodoros Lappas, Dimitrios Kotsakos}
نهج يراعي التقلب في تحديد توقيت المستند
الملخص

تُفترض في العديد من التطبيقات الشائعة، مثل البحث الزمني وكشف الحوادث وتحديد الاتجاهات، معرفة توقيت كل مستند في مجموعة نصية معينة. ومع ذلك، في العديد من الحالات، تكون التوقيتات المطلوبة إما غير متوفرة أو غامضة. يظهر مثال مميز لهذه المشكلة في سياق المخازن الكبيرة للوثائق المُرقَّمة القديمة. بالنسبة لهذه الوثائق، قد تكون التوقيتات معطوبة أثناء عملية الترقيم، أو قد تكون ببساطة غير متوفرة. في هذه الورقة، ندرس مهمة تقريب توقيت المستند، المعروفة بـ"تقويم المستندات". نقترح طريقة تعتمد على المحتوى، ونستخدم التطورات الحديثة في مجال "الانفجارات المفرطة للمصطلحات" (term burstiness)، مما يمكّنها من التغلب على عيوب الطرق السابقة في تقويم المستندات، مثل استراتيجية التقسيم الزمني الثابتة. ونُجري تقييمًا تجريبيًا واسع النطاق على مجموعات بيانات مختلفة لتأكيد فعالية وفوائد منهجيتنا، موضحين أن طريقتنا تتفوق على الطرق الرائدة في مجال تقويم المستندات.