با استفاده از حالت صدای پیشرفته (Advanced Voice Mode)، شرکت OpenAI توانست کمی حس دوستانهتری به ChatGPT بیفزاید و امکان مکالمات طبیعیتری با این دستیار هوش مصنوعی فراهم کند. با این حال، قابلیتی که OpenAI در مه ۲۰۲۴ طی معرفی GPT-4o وعده داده بود، یعنی قابلیت بینایی، به نظر میرسد اکنون در حال آماده شدن برای عرضه از مرحله آزمایشی اولیه (Alpha) است.
بر اساس چندین رشته کد کشف شده، قابلیت بینایی زنده (Live Vision) در حالت صدای پیشرفته ممکن است به زودی برای آزمایش گستردهتر بتا در دسترس قرار گیرد. این رشتهها در نسخه بتای ChatGPT v1.2024.317 مشاهده شدهاند.
در رویداد معرفی GPT-4o، OpenAI حالت صدای پیشرفته همراه با قابلیتهای بینایی را به نمایش گذاشت. در این دمو، ChatGPT بهراحتی توانست سوژهای را که در دوربین قرار داشت شناسایی کند، نام آن را به یاد بیاورد، توپ را تشخیص دهد و آن را به سگی که در صحنه بود مرتبط کند. این دمو بسیار چشمگیر بود، زیرا دستیار هوش مصنوعی تنها به اطلاعات کمی که کاربر وارد کرده بود برای پاسخ دهی نیاز داشت.
تجربه کاربران آزمایشی
برخی از آزمایش کنندگان خوش شانس که توانستند قابلیت ویدیوی زنده (Vision) ChatGPT را در حالت آزمایشی Alpha امتحان کنند، اظهار داشتند که این قابلیت کاملاً بدون نقص کار میکند و بسیار مفید است.
یکی از کاربران توییتر با نام مانوئل ساینسیلی تجربیات خود را اینگونه توصیف کرد:
«در حال امتحان حالت صدای پیشرفته جدید ChatGPT که به تازگی در حالت Alpha منتشر شده است، بودم. این تجربه شبیه به تماس تصویری با یک دوست فوقالعاده آگاه بود و در این مورد به ما در مورد گربه جدیدمان کمک زیادی کرد. این قابلیت میتواند به صورت زنده به سوالات پاسخ دهد و از دوربین نیز به عنوان ورودی استفاده کند.»
این ویژگی، طبق رشتههای دیده شده در آخرین نسخه بتا، ممکن است با نام "دوربین زنده" (Live Camera) برای کاربران بتا منتشر شود. متنهای مرتبط با این قابلیت شامل موارد زیر هستند:
-
بتا:
روی آیکون دوربین ضربه بزنید تا ChatGPT بتواند محیط اطراف شما را ببیند و در مورد آن صحبت کند.
-
دوربین زنده:
از این قابلیت برای ناوبری زنده یا تصمیماتی که ممکن است بر سلامت یا ایمنی شما تأثیر بگذارد، استفاده نکنید.
هشدارها و محدودیتها
برخی از رشتهها (بر اساس گزارش Android Authority) به کاربران هشدار میدهند که از ویژگی "دوربین زنده" ChatGPT برای ناوبری زنده یا تصمیماتی که ممکن است شامل سلامت یا ایمنی آنها باشد، استفاده نکنند. نکته جالب این است که این کدها در نسخه بتا دیده شدهاند که نشان میدهد این ویژگی به زودی برای انتشار گستردهتر آماده میشود و احتمالاً در دسترس مشترکین پولی و کاربران ChatGPT Plus قرار خواهد گرفت.
این پیشرفتها نشان میدهد که OpenAI در حال ارتقاء تعامل کاربران با هوش مصنوعی خود به شیوههای پیشرفتهتر و کاربردیتر است.