HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

اختراق غير ملحوظ لنموذج لغوي كبير

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

اختراق غير ملحوظ لنموذج لغوي كبير

الملخص

تُعتمد هجمات التهرب من الحدود (Jailbreaking) على الوسائط البصرية عادةً على اضطرابات عدائية غير مُلحوظة، في حين يُفترض عمومًا أن هجمات الوسائط النصية تتطلب تعديلات مرئية (مثل إضافات غير دلالية). في هذه الورقة، نُقدّم هجمات تهرب غير مُلحوظة تستغل فئة من رموز يونيكود تُسمى "محددات التباين" (variation selectors). من خلال إلحاق محددات تباين غير مرئية بأسئلة خبيثة، تبدو رسائل التهرب المرغوبة بصريًا مطابقة تمامًا للأسئلة الخبيثة الأصلية على الشاشة، بينما يتم "سرًا" تغيير تجزئتها (tokenization). نقترح نموذج سلسلة بحث (chain-of-search pipeline) لإنشاء هذه الإضافات العدائية بهدف التسبب في استجابات ضارة. تُظهر تجاربنا أن هجمات التهرب غير المُلحوظة التي نقدّمها تحقق معدلات نجاح عالية ضد أربع نماذج لغوية كبيرة مُحايدة (aligned LLMs)، كما تُظهر قدرة على التعميم في هجمات حقن التعليمات (prompt injection)، دون إحداث أي تعديلات مرئية في النص الأصلي للتعليمات. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/sail-sg/imperceptible-jailbreaks.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
اختراق غير ملحوظ لنموذج لغوي كبير | الأوراق البحثية | HyperAI