در ماههای اخیر، OpenAI چندین ابزار جدید از جمله Operator، Deep Research، Computer-Using Agents و Responses API را منتشر کرده که بر روی عاملهای متنی متمرکز بودهاند. امروز، OpenAI مدلهای جدید تبدیل گفتار به متن و متن به گفتار را در API خود اعلام کرد که به توسعهدهندگان امکان میدهد عاملهای صوتی قدرتمندتر، قابل شخصیسازیتر و بیانگرتر از همیشه بسازند.

مدلهای جدید تبدیل گفتار به متن OpenAI، gpt-4o-transcribe و gpt-4o-mini-transcribe، بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدلهای Whisper موجود OpenAI ارائه میدهند. این پیشرفتها از طریق یادگیری تقویتی و آموزش میانی گسترده با استفاده از مجموعه دادههای صوتی متنوع و با کیفیت بالا به دست آمده است.
OpenAI ادعا میکند که این مدلهای صوتی جدید میتوانند ظرافتهای گفتار را بهتر درک کنند، تشخیصهای نادرست را کاهش دهند و قابلیت اطمینان رونویسی را حتی زمانی که صدای ورودی شامل لهجهها، محیطهای پر سر و صدا و سرعتهای مختلف گفتار است، بهبود بخشند.
gpt-4o-mini-tts جدیدترین مدل تبدیل متن به گفتار است که قابلیت هدایت بهبود یافتهای را ارائه میدهد. توسعهدهندگان اکنون میتوانند به مدل دستور دهند که چگونه محتوای متن را تلفظ کند. با این حال، فعلاً مدل تبدیل متن به گفتار به صداهای مصنوعی از پیش تعیین شده محدود است.
هزینههای مدلها به شرح زیر است: مدل gpt-4o-transcribe: ۶ دلار برای هر میلیون توکن صوتی ورودی، ۲.۵۰ دلار برای هر میلیون توکن متنی ورودی و ۱۰ دلار برای هر میلیون توکن متنی خروجی مدل gpt-4o-mini-transcribe: ۳ دلار برای هر میلیون توکن صوتی ورودی، ۱.۲۵ دلار برای هر میلیون توکن متنی ورودی و ۵ دلار برای هر میلیون توکن متنی خروجی مدل gpt-4o-mini-tts: ۰.۶۰ دلار برای هر میلیون توکن متنی ورودی و ۱۲ دلار برای هر میلیون توکن صوتی خروجی
این هزینهها به صورت دقیقهای به شرح زیر محاسبه میشود:
- gpt-4o-transcribe: حدود ۰.۶ سنت در دقیقه
- gpt-4o-mini-transcribe: حدود ۰.۳ سنت در دقیقه
- gpt-4o-mini-tts: حدود ۱.۵ سنت در دقیقه
تیم OpenAI درباره این مدلهای صوتی جدید نوشت: “در آینده، ما قصد داریم به سرمایهگذاری در بهبود هوشمندی و دقت مدلهای صوتی خود ادامه دهیم و راههایی را برای اجازه دادن به توسعهدهندگان برای آوردن صداهای سفارشی خود جهت ساخت تجربیات شخصیسازی شدهتر، به روشهایی که با استانداردهای ایمنی ما مطابقت دارند، بررسی کنیم.”
این مدلهای صوتی جدید اکنون از طریق APIها برای همه توسعهدهندگان در دسترس هستند. OpenAI همچنین یک ادغام با Agents SDK را اعلام کرد که به توسعهدهندگان امکان میدهد به راحتی عاملهای صوتی بسازند. برای تجربیات گفتار به گفتار با تأخیر کم، OpenAI استفاده از Realtime API را توصیه میکند.