Command Palette
Search for a command to run...
Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

الملخص
تُعتمد هجمات التهرب من الحدود (Jailbreaking) على الوسائط البصرية عادةً على اضطرابات عدائية غير مُلحوظة، في حين يُفترض عمومًا أن هجمات الوسائط النصية تتطلب تعديلات مرئية (مثل إضافات غير دلالية). في هذه الورقة، نُقدّم هجمات تهرب غير مُلحوظة تستغل فئة من رموز يونيكود تُسمى "محددات التباين" (variation selectors). من خلال إلحاق محددات تباين غير مرئية بأسئلة خبيثة، تبدو رسائل التهرب المرغوبة بصريًا مطابقة تمامًا للأسئلة الخبيثة الأصلية على الشاشة، بينما يتم "سرًا" تغيير تجزئتها (tokenization). نقترح نموذج سلسلة بحث (chain-of-search pipeline) لإنشاء هذه الإضافات العدائية بهدف التسبب في استجابات ضارة. تُظهر تجاربنا أن هجمات التهرب غير المُلحوظة التي نقدّمها تحقق معدلات نجاح عالية ضد أربع نماذج لغوية كبيرة مُحايدة (aligned LLMs)، كما تُظهر قدرة على التعميم في هجمات حقن التعليمات (prompt injection)، دون إحداث أي تعديلات مرئية في النص الأصلي للتعليمات. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/sail-sg/imperceptible-jailbreaks.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.