رغم التقدم الكبير في قدرات نماذج الذكاء الاصطناعي الجديدة من OpenAI، مثل o3 وo4-mini، إلا أن تقارير داخلية وأخرى مستقلة كشفت عن زيادة ملحوظة في معدل “الهلاوس” أو المعلومات المختلقة التي تصدر عن هذه النماذج مقارنةً بالجيل السابق.
ورغم أن النماذج الجديدة أظهرت تحسنًا في القدرات التحليلية والمنطقية، خاصة في مجالات مثل حل المسائل الرياضية وكتابة الشيفرات البرمجية، إلا أنها تقدم أحيانًا معلومات خاطئة بثقة مفرطة، وهو ما يُعرف بالهلاوس.
33% معدل هلاوس لـ o3 مقابل 48% لـ o4-mini
وفقًا لاختبارات داخلية أجرتها OpenAI باستخدام معيار PersonQA، بلغت نسبة الهلاوس في نموذج o3 نحو 33%، أي ضعف ما سجلته النماذج السابقة مثل o1، بينما كان أداء o4-mini أسوأ بمعدل وصل إلى 48%.

من جانبها، أكدت مؤسسة Transluce غير الربحية أن نموذج o3 يخترع خطوات وهمية مثل “تشغيل كود على جهاز ماك بوك”، وهو أمر لا يمتلك القدرة على تنفيذه تقنيًا، مما يثير تساؤلات حول موثوقيته في المجالات الحساسة مثل القانون والطب.
خبراء يحذرون: النماذج الأقوى ليست دائمًا الأصدق
قالت سارة شفيتمان، الشريكة المؤسسة في Transluce، إن زيادة قدرات النموذج لا تعني دائمًا تحسين الدقة، مشيرة إلى ضرورة الحذر عند استخدام هذه النماذج في التطبيقات الحيوية.
أما كيان كتانفوروش، الأستاذ بجامعة ستانفورد، فأوضح أن نموذج o3 يتفوق في كتابة الكود، لكنه يعاني من اختلاق روابط إلكترونية وهمية، وهو ما لاحظه فريقه خلال التجربة.
ربط النماذج بالإنترنت يرفع الدقة إلى 90%
ومن الحلول المقترحة، ربط النماذج بالإنترنت عند الحاجة، كما هو الحال مع نموذج GPT-4o الذي أظهر دقة عالية تصل إلى 90% عند تمكين خاصية البحث الفوري عبر الإنترنت.
وقال نيكو فيليكس، المتحدث باسم OpenAI: “مشكلة الهلاوس لا تزال أولوية لدى فرق البحث لدينا، ونعمل على تحسين الدقة والموثوقية باستمرار”.
