نموذج "GPT-Image 1.5" الجديد في "ChatGPT".. ما الذي يميزه في...

أعلنت شركة "OpenAI" إطلاق نموذجها الجديد لتوليد الصور "GPT-Image 1.5"، مؤكدة أنه يمثل نقلة واضحة في سرعة المعالجة ودقة فهم الأوامر النصية والحفاظ على التفاصيل البصرية، مقارنة بالإصدار السابق، في خطوة تعزز حضورها في سباق نماذج الذكاء الاصطناعي التوليدية.

وأوضحت الشركة أن النموذج الجديد(link is external) بات قادراً على توليد الصور بسرعة تصل إلى أربعة أضعاف، مع تحسين ملحوظ في جودة المخرجات واتساقها، مشيرة إلى أن "GPT-Image 1.5" أصبح متاحاً حالياً لجميع مستخدمي "ChatGPT"، إضافة إلى المطورين عبر واجهة البرمجة (API).

وأشارت الرئيسة التنفيذية لتطبيقات "OpenAI"، فيدجي سيمو، إلى أن قدرات توليد الصور الجديدة تأتي ضمن تحول أوسع في طبيعة "ChatGPT"، من أداة تفاعلية نصية إلى "واجهة توليدية متكاملة" تستدعي تلقائياً المكون الأنسب وفق المهمة التي يرغب المستخدم في إنجازها، سواء كانت نصية أو بصرية.

تحرير أدق واتساق بصري أفضل

بينت شركة "OpenAI" أن "GPT-Image 1.5" يقدم نهجاً أكثر دقة في تحرير الصور، إذ يتيح إجراء تعديلات محددة على عناصر بعينها من دون التأثير على بقية المشهد، مع الحفاظ على اتساق الإضاءة والتكوين والوجوه.

ويدعم النموذج عمليات الإضافة والحذف والدمج والمزج، إلى جانب نقل العناصر داخل الصورة بسلاسة، ما يوسع نطاق استخدامه في مجالات التحرير الاحترافي وتجارب القياس الافتراضي للملابس وتسريحات الشعر، إضافة إلى التحويل بين الأساليب الفنية المختلفة.

وعرضت الشركة أمثلة توضيحية لقدرات النموذج، شملت دمج أشخاص وحيوانات أليفة من صور منفصلة في مشهد واحد، أو تحويل صورة عادية إلى ملصق سينمائي بطابع كلاسيكي، مع الحفاظ على تفاصيل دقيقة ومظهر متناسق.

التزام أعلى بالأوامر المعقدة

أكدت "OpenAI" أن النموذج الجديد يظهر التزاماً أعلى بالتعليمات التفصيلية والمعقدة، موضحة أنه نجح في اختبارات تتطلب ترتيب 36 عنصراً مختلفاً داخل شبكة واحدة بدقة عالية، مقارنة بالإصدار السابق، ما يسهل إنتاج صور تعتمد على توزيع منظم للعناصر.

وتحسنت كذلك قدرة النموذج على عرض النصوص داخل الصور، بما في ذلك النصوص الصغيرة والكثيفة مثل مقتطفات المقالات والجداول القصيرة والإنفوغرافيك الرقمية، وهو ما يمثل أحد أبرز التحديات في نماذج توليد الصور.

تحديات مستمرة ومقارنة بالمنافسين

أقرّت الشركة باستمرار بعض التحديات، مثل التعامل مع النصوص الطويلة أو الخطوط غير الشائعة أو تعدد الوجوه داخل الصورة الواحدة، إضافة إلى إنتاج محتوى بصري متعدد اللغات.

Loading ads...

وأظهرت اختبارات داخلية لمشاهد فوتوغرافية معقدة وغير مألوفة أن "GPT-Image 1.5" قدم أداءً قوياً قريباً من نموذج غوغل "Nano Banana Pro"، ومتقدماً بوضوح على الإصدار السابق من "OpenAI"، ما يعزز موقعه بين نماذج توليد الصور المتقدمة، بانتظار ما ستكشفه التجربة الواقعية للمستخدمين في المقارنة مع المنافسين.