تجميع تجميعي متسق حسب المجال للتكيف العام بين المجالات

في هذه الورقة، نستكشف مشكلة التكيّف العالمي للنطاق (UniDA)، التي تهدف إلى نقل المعرفة من المجال المصدر إلى المجال الهدف في ظل وجود فجوة في فضاء العلامات (أي عدم التوافق بين العلامات بين المجالين). تكمن التحدي الرئيسي لمشكلة UniDA في كيفية فصل الفئات المشتركة (أي الفئات المُشترَكة بين المجالين) عن الفئات الخاصة (أي الفئات التي توجد فقط في مجال واحد). تتعامل الدراسات السابقة مع العينات الخاصة في المجال الهدف كفئة واحدة عامة، لكنها تتجاهل البنية الداخلية لهذه العينات. ونتيجة لذلك، تكون التمثيلات الناتجة غير كثيفة بما يكفي في الفضاء الخفي، ويمكن أن تُخلط بسهولة مع العينات المشتركة. لاستغلال البنية الداخلية للمجال الهدف بشكل أفضل، نقترح طريقة تُسمى "التجميع الموحّد حسب المجال" (DCC)، التي تستفيد من المعرفة الموحّدة بين المجالات لاستكشاف مجموعات تمييزية لكل من العينات المشتركة والعينات الخاصة. وبشكل محدد، نستمد المعرفة الموحّدة بين المجالات من جهتين لدعم عملية التجميع واكتشاف الفئات الخاصة: أولاً، المعرفة على مستوى المعنى (semantic-level consensus)، التي تحدد المجموعات المتميزة المتماثلة دوريًا (cycle-consistent clusters) كفئات مشتركة؛ وثانيًا، المعرفة على مستوى العينات (sample-level consensus)، التي تستخدم اتفاق التصنيف عبر المجالات لتحديد عدد المجموعات واكتشاف الفئات الخاصة. وباستخدام DCC، نتمكن من فصل الفئات الخاصة عن الفئات المشتركة، وتمييز الفئات الخاصة عن بعضها البعض. وأخيرًا، نطبق تقنية تُسمى "المحاذاة المُراعية للصنف" (class-aware alignment) على العينات المشتركة المُحددة لتقليل التحول في التوزيع، ونستخدم مُنظّمًا بروتوكوليًا (prototypical regularizer) لتحفيز تكوّن مجموعات مستقلة ومتميزة في المجال الهدف.أظهرت التجارب على أربع معايير (benchmarks) أن DCC تتفوّق بشكل كبير على أحدث التقنيات السابقة.