فصل الأنشطة بدون إشراف من خلال التعلم المشترك للتمثيل والتجميع عبر الإنترنت

نقدم نهجًا جديدًا للتقسيم غير المشرف لأنشطة الفيديو يستخدم تجميع الإطارات كمهمة مسبقة ويقوم في الوقت نفسه بتعلم التمثيلات والتجميع عبر الإنترنت. وهذا يختلف عن الأعمال السابقة حيث يتم غالبًا تعلم التمثيلات والتجميع بشكل متتابع. نستفيد من المعلومات الزمنية في مقاطع الفيديو من خلال استخدام النقل الأمثل الزمني (temporal optimal transport). وبشكل خاص، ندمج حدًا زمنيًا للتنظيم يحافظ على顺序的时间活动到标准的最优传输模块中,以计算伪标签聚类分配。时间最优传输模块使我们的方法能够为无监督活动分割学习有效的表示。此外,以前的方法需要在离线方式下存储整个数据集的学习特征,然后再对它们进行聚类,而我们的方法则以在线方式一次处理一个小批量。在三个公共数据集(即 50-Salads، YouTube Instructions، و Breakfast)以及我们自己的数据集(即 Desktop Assembly)上进行了广泛的评估,结果表明尽管我们的方法具有显著较少的内存限制,但其性能与先前的方法相当甚至更好。我们的代码和数据集可在我们的研究网站上获取:https://retrocausal.ai/research/注:由于中文和阿拉伯语之间的差异,以下是经过调整后的更符合阿拉伯语表达习惯的版本:نقدم طريقة جديدة لتقسيم الأنشطة بطريقة غير مشرفة تعتمد على تجميع الإطارات كمهمة أولية وتقوم في الوقت نفسه بتعلم التمثيلات والتجميع عبر الإنترنت. هذا يختلف عن الدراسات السابقة التي غالباً ما تقوم بتعلم التمثيلات والتجميع بشكل متتابع. نستفيد من المعلومات الزمنية في مقاطع الفيديو باستخدام النقل الأمثل الزمني (temporal optimal transport). بشكل خاص، ندمج حد تنظيمي زمني يحافظ على ترتيب الأنشطة الزمني في الوحدة الأساسية للنقل الأمثل لحساب تخصيصات العناقيد الوهمية. يتيح لنا وحدة النقل الأمثل الزمني تعلم تمثيلات فعالة لتقسيم الأنشطة بطريقة غير مشرفة. بالإضافة إلى ذلك، تتطلب الطرق السابقة تخزين الخصائص المُتعلمة للكامل البيانات قبل التجميع بطريقة غير متصلة، بينما يقوم نهجنا بمعالجة مجموعة صغيرة واحدة من البيانات في كل مرة بطريقة متصلة. أظهرت التقييمات الشاملة على ثلاثة مجموعات بيانات عامة (50-Salads، YouTube Instructions، و Breakfast) وعلى مجموعة بياناتنا الخاصة (Desktop Assembly) أن طرقنا تعمل بنفس مستوى أو أفضل من الطرق السابقة رغم وجود قيود ذاكرة أقل بكثير. يمكن الحصول على شفرتنا ومجموعة بياناتنا من موقعنا البحثي: https://retrocausal.ai/research/再次调整后的版本如下:نقدم طريقة جديدة لتقسيم الأنشطة بطريقة غير مشرفة تعتمد على تجميع الإطارات كمهمة أولية وتقوم في الوقت نفسه بتعلم التمثيلات والتجميع عبر الإنترنت. هذا يختلف عن الدراسات السابقة التي غالباً ما تقوم بتعلم التمثيلات والتجميع بشكل متتابع. نستفيد من المعلومات الزمنية في مقاطع الفيديو باستخدام النقل الأمثل الزمني (temporal optimal transport). بشكل خاص، ندمج حد تنظيمي زمني يحافظ على ترتيب الأنشطة الزمني ضمن الوحدة الأساسية للنقل الأمثل لحساب تخصيص العناقيد الوهمية. يتيح لنا وحدة النقل الأمثل الزمني إمكانية تعلم تمثيلات فعالة لتقسيم الأنشطة بطريقة غير مشرفة. بالإضافة إلى ذلك، تتطلب الطرق السابقة تخزين الخصائص المُتعلمة للكامل البيانات قبل التجميع بطريقة غير متصلة، بينما يقوم نهجنا بمعالجة مجموعة صغيرة واحدة من البيانات في كل مرة بطريقة متصلة. أظهرت التقييمات الشاملة على ثلاثة مجموعات بيانات عامة (50-Salads، YouTube Instructions، و Breakfast) وعلى مجموعة بياناتنا الخاصة (Desktop Assembly) أن طرقنا تعمل بنفس المستوى أو أفضل من الطرق السابقة رغم وجود قيود ذاكرة أقل بكثير. يمكن الحصول على شفرتنا ومجموعة بياناتنا من موقعنا البحثي: https://retrocausal.ai/research/