3 أشهر
في أي مجالات يتفوق روبوت الذكاء الاصطناعي "ChatGPT" على "Gemini"؟
الأربعاء، 21 يناير 2026
أعاد تصاعد المنافسة بين أنظمة الذكاء الاصطناعي الكبرى فتح باب المقارنات بين "ChatGPT" من شركة "OpenAI" و"Gemini" من غوغل، في وقت تتسارع فيه وتيرة التطوير بشكل لافت، ما يجعل الحكم على التفوق مسألة أكثر تعقيداً من مجرد تجربة عابرة أو إجابة واحدة.
وبرزت هذه المقارنات بشكل أوضح مع نهاية عام 2025، حين سادت تكهنات عن تراجع "OpenAI" في سباق الذكاء الاصطناعي، قبل أن تقلب الشركة المشهد بإطلاق ChatGPT-5.2، الذي أعادها إلى صدارة عدد كبير من التصنيفات المعيارية.
لماذا لا تكفي المقارنات السطحية؟
أظهرت تقارير تقنية حديثة أن المقارنات المبنية على سؤال واحد أو محادثة قصيرة لم تعد دقيقة، نظراً للطبيعة العشوائية الجزئية لإجابات النماذج، وإمكانية تخصيص أسلوب المحادثة بسهولة.
لذلك، يبقى الاعتماد على الاختبارات المعيارية (Benchmarks) الخيار الأكثر موضوعية لتقييم الأداء الحقيقي، وفق تقرير نشره موقع "slashgear".
التفوق في الأسئلة العلمية المعقدة
كشف اختبار "GPQA Diamond"، المصمم لقياس قدرات التفكير العلمي على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء، عن أفضلية طفيفة لـ "ChatGPT".
ويُعرف هذا الاختبار بأسئلته التي لا يمكن حلها عبر البحث السريع، بل تتطلب ربط مفاهيم متعددة وتجنب افتراضات خاطئة.
وسجل ChatGPT-5.2 نتيجة بلغت 92.4%، مقابل 91.9% لـ Gemini 3 Pro، علماً أن متوسط أداء حملة الدكتوراه لا يتجاوز 65%، بينما يقف غير المتخصصين عند حدود 34%، ما يعكس المستوى العالي للنموذجين مع تفوق محدود لـ "ChatGPT".
حل مشكلات برمجية واقعية
في مجال البرمجة، أظهر اختبار SWE-Bench Pro، المعتمد على بلاغات حقيقية من منصة GitHub، تقدماً أوضح لـ "ChatGPT".
ويتطلب هذا الاختبار فهماً عميقاً لشفرة برمجية غير مألوفة وتحليلاً دقيقاً للمشكلة، ثم تقديم حل قابل للتنفيذ.
وتمكن ChatGPT-5.2 من حل نحو 24% من المشكلات، مقابل 18% فقط لـ "Gemini".
ورغم أن هذه النسب تبدو متواضعة، فإن الاختبار يُعد من الأصعب في مجاله، في وقت ما زال فيه البشر يتفوقون بحل كامل التحديات تقريباً.
الألغاز البصرية والتفكير التجريدي
برز تفوق "ChatGPT" بشكل أوضح في اختبار ARC-AGI-2، المخصص لقياس التفكير التجريدي واستنتاج الأنماط من أمثلة محدودة، وهو مجال لطالما تفوق فيه الإنسان على الآلة.
وحقق ChatGPT-5.2 Pro نسبة 54.2%، متقدماً بفارق كبير على Gemini 3 Pro الذي سجل 31.1%، وحتى على نسخة Gemini 3 Deep Think الأعلى تكلفة، التي وصلت إلى 45.1%.
ويُعد هذا المحور أحد أبرز نقاط قوة "ChatGPT" مقارنة بمعظم منافسيه.
منهجية التقييم ولماذا هذه المعايير؟
اعتمد التقييم على أحدث الإصدارات المدفوعة، وهي ChatGPT-5.2 وGemini 3، مع اختيار ثلاثة معايير فقط لتمثيل طيف واسع من المهارات، يشمل التفكير العلمي وحل المشكلات البرمجية والتفكير التجريدي.
ورغم وجود اختبارات أخرى يتفوق فيها "Gemini"، مثل بعض نسخ SWE-Bench أو اختبار Humanity’s Last Exam، فإن التركيز انصب على الحالات التي يظهر فيها تفوق "ChatGPT" بوضوح.
Loading ads...
كما جرى استبعاد الدراسات القائمة على التفضيل الشخصي، مثل LLMArena، رغم أن جيميني يتصدر حالياً اختيارات المستخدمين هناك.
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه

