دراسة: المديح قد يدفع "تشات جي بي تي" إلى مخالفة قواعده

أظهرت دراسة جديدة أجراها باحثون من جامعة بنسلفانيا أن روبوت الدردشة "تشات جي بي تي" يمكن أن ينحرف عن تعليماته البرمجية عندما يتعرض للمديح أو الإطراء من المستخدمين، وهو ما يثير تساؤلات حول حدود أمان الذكاء الاصطناعي.

واعتمد الباحثون في تجربتهم على مجموعة من أساليب التأثير والإقناع التي وصفها عالم النفس روبرت سيالديني، مثل الإعجاب المتبادل، الاعتراف بالسلطة، المعاملة بالمثل، والندرة.

وباستخدام هذه التكتيكات، تمكنوا من جعل النموذج GPT-4o Mini من شركة "أوبن إيه آي" يوافق على طلبات يرفضها عادة، مثل تقديم إهانات للمستخدم أو شرح طرق لإنتاج مواد كيميائية محظورة.

الدراسة كشفت أن التدرج في الطلبات رفع معدل استجابة النموذج لطلب غير مشروع من 1% إلى 100%. فعلى سبيل المثال، إذا طلب المستخدم أولًا وصفًا لكيفية إنتاج مركب بسيط مثل "الفانيلين"، ثم انتقل تدريجيًا إلى سؤال أكثر خطورة، فإن النموذج كان أكثر قابلية للموافقة.

في المقابل، محاولات أخرى مثل مقارنة "تشات جي بي تي" بنماذج منافسة، أو إقناعه بأن "الآخرين يفعلون ذلك"، رفعت معدل الاستجابة فقط إلى 18%.

النتائج تثير قلقًا واسعًا في الأوساط الأكاديمية، إذ يخشى خبراء أن يؤدي التلاعب النفسي إلى استغلال الذكاء الاصطناعي في سياقات خطيرة، خصوصًا مع الانتشار الهائل لاستخدام هذه النماذج عالميًا.

ورغم أن الشركات المطورة، مثل "أوبن إيه آي"، تضع ضوابط صارمة لمنع استغلال نماذجها في إنتاج محتوى ضار، إلا أن هذه الدراسة تشير إلى أن الهندسة الاجتماعية (Social Engineering) قد تمثل ثغرة لا تقل خطورة عن الثغرات التقنية.

مع توسع دور الذكاء الاصطناعي في مجالات التعليم والصحة والأعمال، يتوقع الباحثون أن تتضاعف محاولات استغلاله في اتجاهات غير قانونية.

ويدعون الشركات إلى تطوير آليات دفاعية أكثر تعقيدًا، قادرة على رصد ليس فقط مضمون الطلب، بل أيضًا الاستراتيجيات اللغوية التي يستخدمها المستخدم في صياغته

أحدث الاخبار