Google امسال مدل Imagen 3، باکیفیتترین مدل متن به تصویر خود را معرفی کرد. این جدیدترین نسخه با چندین بهبود در کیفیت و وضوح تصاویر ایجاد شده همراه است. گوگل ادعا میکند که Imagen 3 میتواند تصاویری با جزئیات باور نکردنی ایجاد کند و تصاویری واقع گرایانه و شبیه به زندگی با تعداد کمتری از مصنوعات بصری حواس پرتی در مقایسه با Imagen 2 تولید کند.
گوگل به تازگی مدل Imagen 3 خود را در دسترس همه کاربران Gemini در سراسر جهان قرار داده است. با این قابلیت، هم کاربران Gemini و هم Gemini Advanced میتوانند به سادگی تصاویری را که میخواهند ایجاد کنند را توصیف کنند و Gemini با تصویر ایجاد شده توسط هوش مصنوعی پاسخ خواهد داد. با این حال، فقط کاربران Gemini Advanced میتوانند تصاویری با افراد در آن ایجاد کنند.
اگر از تصویر ایجاد شده راضی نیستید، میتوانید با افزودن جزئیات بیشتر به درخواست، آن را بیشتر اصلاح کنید. هرچه جزئیات تصویر را دقیقتر توصیف کنید، Gemini میتواند تصاویر بهتری بر اساس درخواستها ایجاد کند. این به این دلیل است که مدل جدید Imagen 3 زبان طبیعی و هدف پشت درخواست را بهتر درک میکند و حتی میتواند جزئیات کوچک را از درخواستهای طولانیتر نیز در نظر بگیرد.
Imagen 3 همچنین در رندر کردن متن بسیار خوب است، که این یک چالش برای اکثر مدلهای تولید تصویر نسل فعلی بوده است. این به کاربران امکان میدهد تا پیامهای تبریک تولد شخصی، مکانهایی با تابلوهای نام و موارد دیگر را ایجاد کنند.
Imagen 3 همچنین در Vertex AI برای توسعه دهندگان در دسترس است. توسعه دهندگان میتوانند بین Imagen 3 معمولی و Imagen 3 Fast انتخاب کنند و به آنها انعطاف پذیری برای بهینه سازی کیفیت یا تأخیر، بسته به نیازهای برنامه خود، ارائه دهد. مدل Imagen 3 میتواند تصاویری با کیفیت بالا با نور طبیعی و واقع گرایی افزایش یافته ایجاد کند، در حالی که Imagen 3 Fast برای ایجاد تصاویری روشنتر با کنتراست بالاتر مناسب است. گوگل ادعا میکند که توسعه دهندگان میتوانند کاهش 40 درصدی تأخیر را با Imagen 3 Fast در مقایسه با Imagen 2 مشاهده کنند. همچنین، توسعه دهندگان میتوانند Imagen 3 را برای ایجاد تصاویری با نسبتهای مختلف ابعاد، از جمله 1:1، 9:16، 16:9، 3:4 و 4:3 پیکربندی کنند.