نهج يراعي التقلب في تحديد توقيت المستند

تُفترض في العديد من التطبيقات الشائعة، مثل البحث الزمني وكشف الحوادث وتحديد الاتجاهات، معرفة توقيت كل مستند في مجموعة نصية معينة. ومع ذلك، في العديد من الحالات، تكون التوقيتات المطلوبة إما غير متوفرة أو غامضة. يظهر مثال مميز لهذه المشكلة في سياق المخازن الكبيرة للوثائق المُرقَّمة القديمة. بالنسبة لهذه الوثائق، قد تكون التوقيتات معطوبة أثناء عملية الترقيم، أو قد تكون ببساطة غير متوفرة. في هذه الورقة، ندرس مهمة تقريب توقيت المستند، المعروفة بـ"تقويم المستندات". نقترح طريقة تعتمد على المحتوى، ونستخدم التطورات الحديثة في مجال "الانفجارات المفرطة للمصطلحات" (term burstiness)، مما يمكّنها من التغلب على عيوب الطرق السابقة في تقويم المستندات، مثل استراتيجية التقسيم الزمني الثابتة. ونُجري تقييمًا تجريبيًا واسع النطاق على مجموعات بيانات مختلفة لتأكيد فعالية وفوائد منهجيتنا، موضحين أن طريقتنا تتفوق على الطرق الرائدة في مجال تقويم المستندات.