HyperAI

الملخص

تُعتمد هجمات التهرب من الحدود (Jailbreaking) على الوسائط البصرية عادةً على اضطرابات عدائية غير مُلحوظة، في حين يُفترض عمومًا أن هجمات الوسائط النصية تتطلب تعديلات مرئية (مثل إضافات غير دلالية). في هذه الورقة، نُقدّم هجمات تهرب غير مُلحوظة تستغل فئة من رموز يونيكود تُسمى "محددات التباين" (variation selectors). من خلال إلحاق محددات تباين غير مرئية بأسئلة خبيثة، تبدو رسائل التهرب المرغوبة بصريًا مطابقة تمامًا للأسئلة الخبيثة الأصلية على الشاشة، بينما يتم "سرًا" تغيير تجزئتها (tokenization). نقترح نموذج سلسلة بحث (chain-of-search pipeline) لإنشاء هذه الإضافات العدائية بهدف التسبب في استجابات ضارة. تُظهر تجاربنا أن هجمات التهرب غير المُلحوظة التي نقدّمها تحقق معدلات نجاح عالية ضد أربع نماذج لغوية كبيرة مُحايدة (aligned LLMs)، كما تُظهر قدرة على التعميم في هجمات حقن التعليمات (prompt injection)، دون إحداث أي تعديلات مرئية في النص الأصلي للتعليمات. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/sail-sg/imperceptible-jailbreaks.

الملخص

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

اختراق غير ملحوظ لنموذج لغوي كبير

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

اختراق غير ملحوظ لنموذج لغوي كبير

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

اختراق غير ملحوظ لنموذج لغوي كبير

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters