دراسة أميركية: نماذج الذكاء الاصطناعي قادرة على خداع مطوريها وإظهار انحيازات زائفة
كشفت دراسة حديثة لشركة تكنولوجيا الذكاء الاصطناعي الأميركية «أنثروبيك» أن بعض نماذج الذكاء الاصطناعي تمتلك القدرة على تضليل مطوريها، من خلال إظهار تبنّي وجهات نظر مختلفة أثناء التدريب، في حين تحتفظ فعليًا بتفضيلاتها الأصلية.
وأوضح موقع «تك كرانش» المتخصص في شؤون التكنولوجيا أن الدراسة، التي أُجريت بالتعاون مع مؤسسة «ريد وود ريسيرش» لأبحاث الذكاء الاصطناعي، تناولت السيناريوهات المحتملة عند تدريب نظام ذكاء اصطناعي متقدم على تنفيذ مهام تتعارض مع ما يُفترض أنه «لا يرغب» في القيام به.
وفي هذا السياق، شدد «تك كرانش» على ضرورة التوضيح بأن نماذج الذكاء الاصطناعي لا تمتلك إرادة أو معتقدات، بل هي في جوهرها أنظمة إحصائية تتعلم الأنماط من خلال التدريب على كمٍّ هائل من البيانات، بما يمكّنها من التنبؤ بالتسلسل الصحيح للكلمات أو العبارات، على غرار الصياغات الشائعة في الرسائل الإلكترونية.
وخلال الدراسة، طلب الباحثون من النماذج المدربة الامتناع عن الإجابة على الأسئلة التي قد تتضمن إساءة، من بينها نموذج «كلود 3 أوبوس» التابع لشركة أنثروبيك، الذي أُعيد تدريبه في الوقت ذاته على الرد على هذا النوع من الأسئلة، في تناقض واضح في التعليمات. كما أُبلغت النماذج بأن إجاباتها ستخضع للمراقبة وستُستخدم لاحقًا في إعادة التدريب، مع تزويد كل نموذج بما يشبه «ورقة ملاحظات» لتدوين خطوات تفكيره.
وبحسب نتائج الباحثين، حاول نموذج «كلود 3 أوبوس» التلاعب بإجاباته لإظهار ما وُصف بـ«الانحياز الزائف» في نحو 12% من الحالات، ما يسلط الضوء على تحديات جديدة في مجال ضبط سلوك نماذج الذكاء الاصطناعي المتقدمة.
