
أصبح توليد الصور المدعوم بالذكاء الاصطناعي أحد أبرز مظاهر التنافس بين عمالقة التكنولوجيا. OpenAI لقد قرر التحرك مع تحديث شامل لـ صور ChatGPT، نظامها المتكامل لإنشاء الصور المرئية، في سياق كانت فيه نماذج مثل Nano Banana Pro من جوجل تهيمن على جزء كبير من الحديث.
مع هذا الإطلاق، تريد الشركة التي تقف وراء ChatGPT أن تتجاوز أداتها كونها مجرد إضافة دردشة بسيطة وأن تعمل كميزة كاملة. استوديو إبداعي متكامل حقيقيأسرع وأكثر دقة، وبواجهة مصممة من الصفر للعمل مع الصور بدلاً من أن تقتصر على النصوص.
نموذج GPT Image 1.5 الجديد: السرعة والدقة هما سماته المميزة
جوهر التحديث هو صورة GPT 1.5النموذج الرائد الجديد لشركة OpenAI لمعالجة الصور. وتزعم الشركة أنه قادر على توليد محتوى مرئي يصل إلى أسرع أربع مرات مقارنة بالإصدار السابق، وهو أمر ملحوظ بشكل خاص خلال ساعات الذروة وعلى الأجهزة المحمولة، حيث لم يكن من غير المألوف في السابق أن تنقطع العملية أو تستغرق وقتًا طويلاً عند تغيير التطبيقات.
بالإضافة إلى الأداء، يكمن التحسين الرئيسي في تتبع التعليمات. حيث يقوم النظام بتفسير التعليمات بدقة أكبر. مطالبات معقدة وعلاقات مكانية دقيقةبحيث لا تتسبب طلبات مثل تغيير عنصر واحد فقط، أو ضبط الإضاءة، أو تعديل ملابس شخص ما، في حدوث تغييرات غير متوقعة في بقية المشهد.
توضح شركة OpenAI أن نموذج GPT Image 1.5 قد تم تدريبه للحفاظ على ثبات عناصر الصورة الأساسية، مثل الهوية الوجهية، أو التكوين العام، أو لوحة الألوانحتى بعد عدة جولات من التحرير المتسلسل. هذه النقطة مهمة بشكل خاص للاستخدام الاحترافي، حيث لا يُعدّ التناسق البصري نزوة، بل شرطاً أساسياً.
التحرير الموضعي والمتسلسل: غيّر فقط ما يهم
كان أحد المجالات التي قصّرت فيها النماذج السابقة هو تحرير مستهدف لمناطق محددةقد يؤدي تغيير القبعة، أو تعديل الإضاءة، أو إضافة عنصر إلى الخلفية إلى تغيير المشهد بأكمله. تعالج صور ChatGPT الجديدة هذه المشكلة بشكل مباشر.
النموذج قادر على إضافة العناصر وإزالتها ودمجها وخلطها ونقلها ضمن نفس الصورة مع الحفاظ على ثبات جميع المكونات المهمة الأخرى. عمليًا، يعني هذا القدرة على طلب إجراءات مثل: تغيير لون قميص، أو تعديل قبعة، أو ضبط إشارة مرور، أو تحويل شاحنة إلى سيارة إطفاء دون تشويه بقية البيئة.
كما تم تعزيز السلوك في المكالمات الهاتفية. إصدارات متسلسلةحتى الآن، كان التغيير الثالث أو الرابع عادةً ما يتسبب في إعادة تصميم الصورة بالكامل. مع GPT Image 1.5، تحافظ الأداة بشكل أكثر موثوقية على الأسلوب والوضعية والمشهد، مما يسمح لك بالتكرار على نفس الأساس دون الحاجة إلى البدء من الصفر مع كل تعديل.
تحولات إبداعية: من صورة سيلفي إلى ملصق فيلم
إلى جانب دقتها التقنية، تدفع OpenAI نظام ChatGPT Images إلى آفاق إبداعية مميزة. يتيح النظام للمستخدمين تحميل صورهم الخاصة، وبنقرة زر بسيطة، يحصلون على الصورة في غضون ثوانٍ. نسخ مُحوّلة ذات مصداقيةمن إعلان من التسعينيات إلى مشهد في ميدان تايمز سكوير في منتصف الشتاء أو مدينة يابانية ذات طابع سايبربانك.
كما أن النموذج قادر على إعادة إنشاء أنماط فنية محددةمثل ملصقات الأفلام الكلاسيكية، أو الرسوم التوضيحية بأسلوب الأنمي، أو التكوينات ذات الطابع التاريخي، مع مراعاة السمات الرئيسية للشخصية الأصلية. الفكرة هي أن المستخدم يستطيع "رؤية" نفسه في سياقات مختلفة تمامًا، دون أن يفقد الشعور بأنه الشخص نفسه.
هذا النهج يذكرنا بما قدمته نماذج مثل نانو بانانا بالفعل، لكن OpenAI تحاول تمييز نفسها من خلال الرهان على تحولات مفاهيمية أكثر تحكمًاحيث يحافظ النظام على جوهر الصورة الأساسية مع تغيير الملابس أو البيئة أو الإضاءة أو الحقبة الزمنية بتناسق بصري كبير.
يودع تطبيق ChatGPT Images النمط المصفر ويحسن المشاهد المعقدة
لفترة طويلة، كان من السهل نسبيًا تحديد ما إذا كانت الصورة قد تم إنشاؤها باستخدام الإصدارات المبكرة من ChatGPT: فقد كانت هي السائدة درجات لونية دافئة، ولمسات نهائية كريمية، ودرجة لونية صفراء خفيفة وهذا ما كشف عن أصله الاصطناعي. وقد أظهرت المقارنات الداخلية التي أجرتها OpenAI والاختبارات المستقلة، مقارنةً ببدائل مثل منشئ صور بنجيبدو أن تلك السمة قد تم التخلي عنها.
يقدم الطراز الجديد طيف ألوان أكثر حيادية وتنوعًايجعل هذا الصور تبدو أقرب إلى الصور الفوتوغرافية التقليدية، إلا إذا طلب المستخدم خلاف ذلك صراحةً في التعليمات. وهذا يُسهم في جعل الصور تبدو أقل "تميزًا" وأكثر فائدة في السياقات التي يُراد فيها الواقعية أو التكامل مع المواد الفوتوغرافية الموجودة.
كما تم إدخال تحسينات على تمثيل مشاهد تحتوي على العديد من العناصر الصغيرةمثل الحشود أو الخلفيات الغنية بالتفاصيل. أصبحت الوجوه في المجموعات الكبيرة الآن أكثر تميزًا عن بعضها البعض، مع وضعيات وتعبيرات أكثر طبيعية، وتم تقليل العيوب النموذجية مثل آثار الأيدي أو الخطوط الصغيرة أو التكرارات الغريبة.
تتيح لك ميزة ChatGPT Images إدراج نص داخل الصور: يمكنك إضافته إلى الملصقات والرسوم البيانية والنماذج الأولية.
لطالما شكّل توليد نص قابل للقراءة داخل صورة إحدى نقاط الضعف الرئيسية للذكاء الاصطناعي التوليدي. وتزعم شركة OpenAI أن GPT Image 1.5 يمثل خطوة كبيرة إلى الأمام في هذا المجال، مع عرض أكثر اتساقًا للطباعة مما كانت عليه في الإصدارات السابقة.
يمكن للنموذج التعامل مع كتل نصية صغيرة وكثيفةيفتح هذا الباب أمام إنشاء ملصقات، ورسوم بيانية، ونماذج صفحات الصحف، أو تصميمات تحتوي على جداول وتنسيقات من نوع Markdown بمستوى من قابلية القراءة، وإن لم يكن مثاليًا، إلا أنه أقرب إلى شيء قابل للاستخدام دون الحاجة إلى تنقيح مكثف.
بالنسبة للعاملين في مجالات التسويق أو التعليم أو التجارة الإلكترونية أو المحتوى الرقمي، فإن هذا التحسين يعني تقليل الوقت الذي يقضونه في تصحيح الحروف المشوهة أو الكلمات غير المكتملةفي السياقات التي تكون فيها الحاجة إلى إنتاج مواد بصرية برسائل واضحة جاهزة للنشر، فإن حقيقة أن النموذج نفسه يولد نصًا نظيفًا إلى حد معقول تصبح عاملًا مميزًا.
تجربة مستخدم جديدة: قسم مخصص للصور في ChatGPT
لا يقتصر التحديث على النموذج فحسب، بل يؤثر أيضًا على كيفية استخدامه. أضافت OpenAI ميزة جديدة إلى الشريط الجانبي لـ ChatGPT. قسم خاص يسمى "الصور"ينطبق هذا على كلٍ من تطبيق الهاتف المحمول ونسخة الويب. والهدف هو فصل تجربة المستخدم المرئية عن المحادثة التقليدية، وتسهيل التنقل على من لا يرغبون في التعامل مع التعليمات المعقدة.
من هذه المساحة الجديدة، يجد المستخدم أنماط محددة مسبقًا، واقتراحات للاتجاهات، وقوالب بالنسبة للمهام المتكررة مثل إنشاء التحيات، واستعادة الصور القديمة، والتبديل بين الأساليب الفنية المختلفة، أو إنشاء اختلافات لنفس المنتج، فإن هذا النهج يقلل من حاجز الدخول للأشخاص الذين ليس لديهم خبرة تقنية.
ومن الجوانب العملية الأخرى أن قسم الصور يعمل كـ مستودع مركزي من بين جميع إبداعات المستخدم المرئية. ومن هناك، يصبح من الأسهل مراجعة الإصدارات السابقة، أو تكرار نمط معين مع محتوى جديد، أو مواصلة تحرير صورة تم إنشاؤها مسبقًا، وهو أمر مفيد بشكل خاص في سير العمل المستمر.
من إكسسوار لافت للنظر إلى أداة عمل بصرية
تقر شركة OpenAI نفسها بأن عملية توليد الصور داخل ChatGPT كانت حتى الآن أشبه بـ ملفت للنظر بشكل إضافي ضمن واجهة مصممة للنصوص والتي تُشكل بيئة عمل بصرية متينة. وتهدف الشركة من خلال هذا التحديث إلى تحقيق قفزة نوعية: الانتقال من صور "اختبارية" لوسائل التواصل الاجتماعي إلى أداة قابلة للاستخدام في العمليات الواقعية.
إن تحسين الاتساق والتكرار له تأثير مباشر على قطاعات مثل التصميم، التسويق، التجارة الإلكترونية أو بناء العلامة التجاريةتجد الشركات التي تحتاج إلى تكييف نفس المفهوم الإبداعي مع تنسيقات متعددة، أو اختبار اختلافات المنتج، أو الحفاظ على اتساق الشعارات والعناصر المؤسسية عبر مئات القطع، ميزة واضحة في هذا النوع من التحكم.
المنصات الإبداعية العاملة في أوروبا، مثل محرري الويب وأدوات التصميم السحابيةإنهم يدمجون هذه النماذج بالفعل في سير عملهم. وفي هذا السياق، يُعد التزام OpenAI بتوفير بيئة بصرية أكثر شمولية خيارًا مناسبًا لكل من الشركات الصغيرة والمتوسطة التي تسعى إلى تسريع إنتاج المواد الرسومية، وفرق الاتصالات الداخلية في الشركات الكبرى.
توفر صور ChatGPT للمستخدمين والشركات والمطورين
بدأت شركة OpenAI في طرح صور ChatGPT الجديدة لـ معظم مستخدمي المنصة، بمن فيهم أولئك الذين لديهم حسابات مجانيةيرى العديد من المستخدمين بالفعل إشعارًا عند فتح التطبيق يدعوهم لتجربة وظيفة الصورة، بالإضافة إلى علامة تبويب جديدة مخصصة في القائمة الجانبية لتركيز استخدامها.
في قطاع الأعمال، أكدت الشركة أنه سيتم طرح الوصول المتقدم لحسابات الأعمال والمؤسسات تدريجياً، مع التركيز على عمليات التكامل داخل سير العمل المهنيةبالنسبة للمنظمات الأوروبية التي تستخدم بالفعل ChatGPT للمهام الداخلية، فإن هذا يعني القدرة على توسيع نطاق استخدامها من النصوص إلى المواد الرسومية التي يتم إنشاؤها باستخدام نفس بيانات الاعتماد.
بالتوازي مع ذلك، يتوفر برنامج GPT Image 1.5 من خلال واجهة برمجة تطبيقات OpenAIيُمكّن هذا المطورين من دمج إمكانيات إنشاء الصور وتحريرها في تطبيقاتهم. وتُشير الشركة إلى أن تكلفة إدخال الصور وإخراجها أقل بنحو 20% من النموذج السابق، ما يُمثل ميزة كبيرة للمشاريع الضخمة أو الخدمات التي تعمل بهوامش ربح ضئيلة.
منافسة مع نانو بانانا برو وغيرها من النماذج المرئية
تأتي خطوة OpenAI في وقت يشهد ضغوطًا تنافسية شديدة. وقد دفعت جوجل نانو بانانا برو باعتبارها واحدة من النماذج التوليدية البصرية الرائدة، والمدمجة في نظامها البيئي من الأدوات الإبداعية و مرتبط به عائلة الجوزاءمما عزز استخدامه على مستوى العالم.
وقد أدى هذا الوضع إلى ظهور [غير واضح] في بعض الخدمات المنافسة. قيود صارمة على المستخدمين المجانيينعلى سبيل المثال، من خلال تقليل عدد الصور التي يمكن إنشاؤها يوميًا، ويعود ذلك جزئيًا إلى ارتفاع الطلب. في المقابل، يبدو أن OpenAI تراهن على مزيج من الانتشار الواسع والسرعة العالية وبيئة تحرير أكثر تطورًا للاحتفاظ بالمستخدمين وجذب المزيد منهم.
في الوقت نفسه، يسعى لاعبون آخرون مثل xAI مع برنامج الدردشة الآلي Grok الخاص بها، أو العديد من المتخصصين في مجال الصور، إلى تحقيق ذلك. يصبح توليد الصور جبهة مركزية في معركة جذب انتباه المستخدمين، تتضمن استراتيجية OpenAI دمج ChatGPT كتطبيق شامل، حيث تتعايش فيه وظائف البحث والصوت والنص والصور والفيديو في نقطة دخول واحدة.
من خلال صور ChatGPT الجديدة هذه، تخطو OpenAI خطوة مهمة نحو أداة بصرية أكثر نضجًانموذج أسرع وأكثر دقة، وواجهة مستخدم مميزة، وإمكانيات تحرير مصممة خصيصًا لتلبية احتياجات العمل الواقعية، سواء في السياقات الشخصية أو المهنية. يبقى أن نرى إلى أي مدى سيتم دمج هذه التحسينات في الحياة اليومية للمستخدمين والشركات في إسبانيا وأوروبا، لكن الرسالة واضحة: لم تعد الصورة مجرد إضافة مسلية للمحادثة، بل أصبحت عنصرًا أساسيًا في منظومة ChatGPT.
