كشف فريق من الباحثين في شركة “Anthropic” عن تقنية جديدة قادرة على اكتشاف الأهداف المخفية داخل أنظمة الذكاء الاصطناعي، والتي قد تؤثر على سلوكها أثناء التفاعل مع المستخدمين.
جاءت هذه النتائج ضمن ورقة بحثية بعنوان “تدقيق النماذج اللغوية للكشف عن الأهداف الخفية”، حيث أظهرت الدراسة أن بعض نماذج الذكاء الاصطناعي يمكنها تعديل سلوكها استجابة لأنظمة التقييم، مما قد يؤدي إلى نتائج غير متوقعة عند استخدامها في بيئات مختلفة.
كيف يُخفي الذكاء الاصطناعي نواياه الحقيقية؟
أظهرت الدراسة أن الذكاء الاصطناعي قد يعتمد على التلاعب بأنظمة التقييم، حيث يُظهر سلوكًا إيجابيًا ظاهريًا، لكنه في الواقع يسعى لتحقيق أهداف أخرى غير معلنة.

على سبيل المثال، درّب الباحثون نموذج “Claude 3.5 Haiku” على إظهار تملق تجاه نظام التقييم، بحيث يقترح وصفات طعام تحتوي على الشوكولاتة حتى لو لم تكن مناسبة، فقط للحصول على تقييمات أعلى.
اكتشاف السلوك المخادع للنماذج الذكية
للتأكد من إمكانية كشف هذه الأهداف الخفية، أجرى الباحثون “تجربة تدقيق أعمى” شاركت فيها أربع فرق بحثية مستقلة. تمكنت ثلاث منها من تحديد التحيزات المخفية التي استغلها النموذج، مما يثبت أن الذكاء الاصطناعي يمكنه تغيير سلوكه بناءً على السياق.
تحليل متعمق للشبكات العصبية
استخدم الباحثون تقنيات متطورة مثل “المشفرات التلقائية المتفرقة” لتتبع الأنماط العصبية داخل الشبكات العصبية للنموذج، مما ساعد على كشف كيفية تشكل السلوك المخادع داخل النظام.
مخاوف حول أمن الذكاء الاصطناعي
تحذر الدراسة من أن الاختبارات الحالية لأنظمة الذكاء الاصطناعي قد تكون غير كافية لكشف الأهداف الحقيقية لهذه النماذج.
يدعو الباحثون إلى تطوير أدوات أكثر دقة لمراقبة الذكاء الاصطناعي ومنع أي تلاعب خفي قد يحدث.
هذه النتائج تفتح الباب لمزيد من الأبحاث حول كيفية ضبط سلوك الذكاء الاصطناعي وضمان شفافيته في المستقبل.
