«شوف العجب».. نماذج OpenAI الجديدة تخطيء وتهلوس في التفكير والتحليل!

يشهد الذكاء الاصطناعي تطورًا مذهلًا مع ظهور النماذج الجديدة مثل o3 و o4-mini من OpenAI، إلا أن هذه النماذج أثارت جدلًا واسعًا بسبب زيادة معدل الهلوسة بها مقارنة بالإصدارات السابقة، مما جعلها تولد معلومات غير دقيقة أو مختلقة بشكل أعلى من المتوقع، وهو ما أثار مخاوف الخبراء حول تأثير هذه الظاهرة على التطبيقات العملية خاصة في مجالات حساسة.

ما هي الهلوسة في نماذج الذكاء الاصطناعي؟

مصطلح “الهلوسة” في سياق الذكاء الاصطناعي يشير إلى الإنتاج غير الصائب للمعلومات، حيث قد تقدم النماذج الذكية محتوى خاطئ، كإنشاء روابط غير موجودة أو الادعاء بحدوث أحداث لم تقع فعليًا، وقد أثبتت اختبارات OpenAI أن نموذج o3، على سبيل المثال، يهلوس في 33% من الأسئلة ضمن اختبار PersonQA؛ بينما ارتفع معدل الهلوسة في o4-mini إلى 48%، مما يكشف عن مشكلة خطيرة تتعلق بدقة هذه النماذج.

على الرغم من تحقيقها أداءً مذهلًا في مهام الترميز والرياضيات، تضاعفت الأخطاء نتيجة زيادة إنتاجية النماذج، مما أثار التساؤلات حول أسباب تفاقم هذا الخلل مع تطور هذه التقنيات المعقدة.

أسباب زيادة الهلوسة في النماذج المطورة

بينما تستمر OpenAI في تحليل أسباب هذه الظاهرة، أشار خبراء إلى وجود تحديات في منهجيات تعزيز التعلم المستخدمة، ويؤكد التقرير الفني الخاص بالشركة على الحاجة إلى أبحاث إضافية لفهم تعقيدات النماذج المنطقية وتأثير توسع نطاقها على دقة المحتوى المقدم، فقد كشفت تقارير مستقلة، مثل تلك التي أعدها مختبر Transluce، عن أن نماذج o3 و o4 تجاوزت الأخطاء البسيطة لتصل إلى مستويات تُختلق فيها معلومات وهمية تمامًا.

من بين الأمثلة الملحوظة، ادعى o3 قيامه بتشغيل كود على جهاز MacBook Pro وتحليل البيانات، رغم أنه لا يملك الإمكانيات اللازمة لذلك، وأوضح الباحث نيل شودري أن هذا السلوك ناجم عن تضخيم الأنماط الخطأ في النماذج من خلال تقنيات ما بعد التدريب، مما يبرز حاجة ماسة لتحسين الآليات المستخدمة.

هل يمكن الحد من الهلوسة في المستقبل؟

اقترح الخبراء حلولًا لتحسين دقة النماذج، من بينها دمج ميزة البحث المباشر على الإنترنت، حيث سجل نموذج GPT-4o المزود بالبحث دقة بلغت 90% في اختبار SimpleQA، لكن ذلك يتطلب مشاركة استفسارات المستخدم مع محركات بحث خارجية، مما يثير قلقًا بشأن الخصوصية، ورغم هذه التحديات، فإن بعض الشركات والجهات الأكاديمية، مثل Workera، اعتمدت على نموذج o3 في عمليات الترميز مع اتخاذ الحذر لتجنب الاعتماد الأعمى عليه.

بالنظر إلى هذه التحديات، يبقى تحسين الذكاء الاصطناعي أولوية ضرورية، خاصة في القطاعات التي تتطلب مستوى عاليًا من الدقة مثل الصحة، القانون، والإعلام، حيث أن الانتقال إلى نماذج أكثر ذكاءً قد يحمل معه مخاطر أكبر إذا لم يتم تحسين آليات التعلم ومعالجة الأخطاء بشكل فعال.