قابلیت پیشرفته و مورد انتظار تولید تصویر هوش مصنوعی OpenAI اکنون در دسترس است. به جای استفاده از یک مدل جداگانه مانند Dall-E برای تولید تصویر، مولد تصویر پیشرفته جدید اکنون بخشی از GPT-4o است.
چندین مدل تولید تصویر هوش مصنوعی در بازار وجود دارد که میتوانند صحنههای خیرهکننده و فراواقعی ایجاد کنند. با این حال، همه آنها در ایجاد تصاویر شامل متن، لوگوها و سایر موارد رایج مورد استفاده در زندگی روزمره با مشکل مواجه هستند.

OpenAI ادعا میکند که این نسل جدید تولید تصویر GPT-4o میتواند این کاستیها را با بهرهگیری از پایگاه دانش و متن گفتگو برطرف کند و متنها را به طور دقیق رندر کرده و دستورات را به طور دقیق دنبال کند. این مدل جدید همچنین به کاربران اجازه میدهد تصاویر آپلود شده را اصلاح کنند یا با استفاده از تصویر آپلود شده به عنوان الهام بصری، تصاویر جدیدی ایجاد کنند.
این مدل جدید تولید تصویر GPT-4o اکنون برای تمام کاربران ChatGPT Plus، Pro، Team و رایگان در حال راهاندازی است. از آنجایی که این مدل جدید به مولد تصویر پیشفرض در ChatGPT تبدیل خواهد شد، کاربران میتوانند بدون نیاز به انتخاب اضافی قبل از دستور خود، از آن لذت ببرند. کاربران همچنین میتوانند با تعیین نسبت ابعاد، رنگهای دقیق با استفاده از کدهای هگز، یا پسزمینه شفاف، تصاویر خود را سفارشی کنند. OpenAI همچنین این مدل جدید را در هفتههای آینده برای کاربران ChatGPT Enterprise و Edu عرضه خواهد کرد.
این مدل جدید همچنین میتواند از طریق Sora برای ایجاد تصاویر و از طریق DALL·E GPT اختصاصی در دسترس باشد. برای توسعهدهندگان، تولید تصویر با API مدل GPT-4o در هفتههای آینده راهاندازی خواهد شد.
این مدل همچنین محدودیتهایی دارد. اول، از آنجا که مدل تصاویر دقیقتری ایجاد میکند، زمان تولید ممکن است تا یک دقیقه طول بکشد. در زمان راهاندازی محدودیتهای زیر را دارد که OpenAI در هفتهها و ماههای آینده آنها را برطرف خواهد کرد:
• گاهی اوقات ممکن است تصاویر طولانیتر، مانند پوسترها را، به خصوص در نزدیکی پایین، بیش از حد برش دهد. • تولید تصویر همچنین میتواند در دستورات با متن کم، اطلاعات نادرست تولید کند. • هنگام تولید تصاویری که به پایگاه دانش آن متکی هستند، ممکن است در رندر دقیق بیش از 10-20 مفهوم متمایز در یک زمان، مانند یک جدول تناوبی کامل، مشکل داشته باشد. • مدل گاهی در رندر زبانهای غیرلاتین مشکل دارد و کاراکترها میتوانند نادرست یا توهمی باشند، به خصوص با پیچیدگی بیشتر. • درخواستهای ویرایش بخشهای خاصی از یک تصویر تولید شده، مانند اشتباهات تایپی، همیشه مؤثر نیست و ممکن است بخشهای دیگر تصویر را به روشی که درخواست نشده تغییر دهد یا خطاهای بیشتری ایجاد کند. • مشخص شده که مدل در هنگام درخواست رندر اطلاعات دقیق در اندازه بسیار کوچک با مشکل مواجه میشود.
تمام تصاویر تولید شده با استفاده از این مدل جدید با متادیتای C2PA همراه خواهند بود و ابزار داخلی OpenAI میتواند تأیید کند که آیا یک تصویر با استفاده از این مدل تولید شده است یا خیر.
علیرغم محدودیتهای فعلی، مدل جدید GPT-4o قول میدهد که قابلیتهای ایجاد تصویر دقیقتر و قابل سفارشیسازی بیشتری را برای کاربران فراهم کند. همانطور که OpenAI به پالایش مدل ادامه میدهد، میتوانیم انتظار بهبود بیشتر در عملکرد و قابلیت اطمینان آن را داشته باشیم.