من كام يوم، Apple نزلت بحث بعنوان "GSM-Symbolic"، واللي بيطرح فيه سؤال: هل الmodels الكبيرة زي ChatGPT فعلاً بتعمل "reasoning" ولا الموضوع مجرد "pattern matching"؟ هل الذكاء الاصطناعي بيعتمد على الحفظ أو العقلانية؟
إيه هو الـ AI Reasoning؟
هو الطريقة اللي AI بيستخدمها للتفكير وحل المشكلات، زي البشر. الAI بيستخدم أنماط لحلول أو توقعات.
مثال: لو AI اتدرب على صور قطط وكلاب، بيتعرف عليهم من السمات المشتركة. بعد كده يقدر يميز الصورة بناءً على اللي اتعلمه. العملية دي بتخليه يقترح أفلام، يساعد الدكاترة في تشخيص الامراض، أو يوجه العربيات الذاتية القيادة.
لكن السؤال هنا: هل فعلاً الـ AI بيعمل reasoning ولا بيقلد الأنماط اللي شافها؟
بحث Apple بيقترح إن الmodels الكبيرة زي ChatGPT شاطرة في تقليد الأنماط اللي اتدربت عليها. بتبان كأنها "بتفكر"، لكنها بتكرر استنتاجات الداتا.
علشان نختبر إذا كان الـ AI بيعمل reasoning بجد أو مجرد بيقلد الأنماط، الباحثين بيستخدموا Benchmarks معينة، زي GSM 8K، وهي مجموعة مكونه من 8,000 مسألة رياضية مصممة لاختبار القدرات الرياضية للـ AI. لما OpenAI قدمت الـ benchmark ده لأول مرة مع GPT-3، جاب نسبة 35%، وده كان بيعكس ضعف قدرات الـ reasoning في الوقت ده. النهارده، حتى الmodels الأصغر بقت بتجيب نسب فوق 85%، والموديلات الكبيرة بتوصل لـ 95%.
لكن Apple قدمت تعديل بسيط على الـ benchmark وسموه "GSM Symbolic". بدل ما يغيروا المسائل الرياضية نفسها، عملوا تعديلات بسيطة، زي تغيير أسامي الأشخاص أو الأشياء في المسألة. المفاجأة كانت إن التعديلات البسيطة دي خلت دقة الmodels تنخفض بشكل كبير، وده بيوضح إن الmodels دي مش بتعمل reasoning فعلي، لكنها حساسة جدًا للتغييرات السطحية.
لما الباحثين غيروا الأسماء في المسائل، الدقة بتاعت الmodels نزلت بنسبة 10% أو أكتر، حتى مع الmodels اللي المفروض إنها أفضل في الـ reasoning.
كمان apple قدمت GSM-NoOp، وهي مجموعة بيانات مصممة علشان تدفع الmodels لتجاوز مجرد تقليد الأنماط بإضافة معلومات غير مهمة. الهدف كان اختبار قدرة الmodels على التفرقة بين المعلومات المهمة والغير مهمة، وهي مهارة أساسية لأي عملية reasoning حقيقية. النتائج أظهرت إن حتى الmodels المتقدمة غالبًا بتفشل في التركيز على اللي يهم، وبدل كده بستخدم تفاصيل غير مهمة وتوصل لاستنتاجات خاطئة.
الخلاصة:
بحث Apple بيوضح جانب مقلق في موضوع الـ AI reasoning، وبيكشف إزاي الmodels المتقدمة ممكن تتلخبط بتفاصيل غير مهمة أو تغييرات بسيطة، وده بيخلينا نسأل عن مدى موثوقيتها في المواقف الحاسمة. لكن في نفس الوقت، التحديات دي بتفتح مجال لتحسين الذكاء الاصطناعي، علشان يقدر يعمل reasoning أفضل، يتجاهل المعلومات الغير ضرورية، ويتكيف مع المواقف الجديدة.
لو AI قدر يعمل كل ده من غير reasoning حقيقي، تخيلوا ممكن يوصل لإيه لما يتعلم "يفكر" بجد.