هوش مصنوعی

تغییرات صوتی OpenAI: معرفی نسل جدید مدل‌های هوش مصنوعی صدا

در ماه‌های اخیر، OpenAI چندین ابزار جدید از جمله Operator، Deep Research، Computer-Using Agents و Responses API را منتشر کرده که بر روی عامل‌های متنی متمرکز بوده‌اند. امروز، OpenAI مدل‌های جدید تبدیل گفتار به متن و متن به گفتار را در API خود اعلام کرد که به توسعه‌دهندگان امکان می‌دهد عامل‌های صوتی قدرتمندتر، قابل شخصی‌سازی‌تر و بیانگرتر از همیشه بسازند.

مدل‌های جدید تبدیل گفتار به متن OpenAI، gpt-4o-transcribe و gpt-4o-mini-transcribe، بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدل‌های Whisper موجود OpenAI ارائه می‌دهند. این پیشرفت‌ها از طریق یادگیری تقویتی و آموزش میانی گسترده با استفاده از مجموعه داده‌های صوتی متنوع و با کیفیت بالا به دست آمده است.

OpenAI ادعا می‌کند که این مدل‌های صوتی جدید می‌توانند ظرافت‌های گفتار را بهتر درک کنند، تشخیص‌های نادرست را کاهش دهند و قابلیت اطمینان رونویسی را حتی زمانی که صدای ورودی شامل لهجه‌ها، محیط‌های پر سر و صدا و سرعت‌های مختلف گفتار است، بهبود بخشند.

gpt-4o-mini-tts جدیدترین مدل تبدیل متن به گفتار است که قابلیت هدایت بهبود یافته‌ای را ارائه می‌دهد. توسعه‌دهندگان اکنون می‌توانند به مدل دستور دهند که چگونه محتوای متن را تلفظ کند. با این حال، فعلاً مدل تبدیل متن به گفتار به صداهای مصنوعی از پیش تعیین شده محدود است.

هزینه‌های مدل‌ها به شرح زیر است: مدل gpt-4o-transcribe: ۶ دلار برای هر میلیون توکن صوتی ورودی، ۲.۵۰ دلار برای هر میلیون توکن متنی ورودی و ۱۰ دلار برای هر میلیون توکن متنی خروجی مدل gpt-4o-mini-transcribe: ۳ دلار برای هر میلیون توکن صوتی ورودی، ۱.۲۵ دلار برای هر میلیون توکن متنی ورودی و ۵ دلار برای هر میلیون توکن متنی خروجی مدل gpt-4o-mini-tts: ۰.۶۰ دلار برای هر میلیون توکن متنی ورودی و ۱۲ دلار برای هر میلیون توکن صوتی خروجی

این هزینه‌ها به صورت دقیقه‌ای به شرح زیر محاسبه می‌شود:

gpt-4o-transcribe: حدود ۰.۶ سنت در دقیقه
gpt-4o-mini-transcribe: حدود ۰.۳ سنت در دقیقه
gpt-4o-mini-tts: حدود ۱.۵ سنت در دقیقه

تیم OpenAI درباره این مدل‌های صوتی جدید نوشت: “در آینده، ما قصد داریم به سرمایه‌گذاری در بهبود هوشمندی و دقت مدل‌های صوتی خود ادامه دهیم و راه‌هایی را برای اجازه دادن به توسعه‌دهندگان برای آوردن صداهای سفارشی خود جهت ساخت تجربیات شخصی‌سازی شده‌تر، به روش‌هایی که با استانداردهای ایمنی ما مطابقت دارند، بررسی کنیم.”

این مدل‌های صوتی جدید اکنون از طریق APIها برای همه توسعه‌دهندگان در دسترس هستند. OpenAI همچنین یک ادغام با Agents SDK را اعلام کرد که به توسعه‌دهندگان امکان می‌دهد به راحتی عامل‌های صوتی بسازند. برای تجربیات گفتار به گفتار با تأخیر کم، OpenAI استفاده از Realtime API را توصیه می‌کند.

نظرتان را ثبت کنید کد خبر: 52463 گروه خبری: هوش مصنوعی منبع خبر: سافت گذر تاریخ خبر: 1404/01/03 تعداد مشاهده: 2590

اخبار مرتبط با این خبر

سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

ادوب اکروبات ریدر

مجازی ساز وی ام ویر

اینترنت دانلود منیجر

گوگل کروم

دات نت فریم ورک

آفیس 2021

فایرفاکس مرورگر اینترنتی

مرورگر اینترنتی اپرا

پخش فیلم و صدا کالایت

انی دسک نرم‌افزار کنترل از راه دور کامپیوتر

ویندوز 11

نمایش پی دی اف

فوتوشاپ

ویندوز 10

فعالساز ویندوز و آفیس

پات پلیر

سی کیلینر

وین رار

آپدیت آفلاین نود 32

بازیابی اطلاعات

الترا ایزو ویرایش فایل ISO

درایور پک سولوشن

ویندوز 7 آلتیمیت

نود 32 اندپوینت آنتی ویروس 5

هوش مصنوعی

تغییرات صوتی OpenAI: معرفی نسل جدید مدل‌های هوش مصنوعی صدا

تولید تصاویر دکتر مارتین لوتر کینگ متوقف شد؛ یکی از جنجالی‌ترین محدودیت‌های هوش مصنوعی!

هوش مصنوعی

مایکروسافت Copilot حالا می‌تواند همه فایل‌های شما در گوگل و آفیس را یکجا بخواند و تبدیل کند!

هوش مصنوعی

Gemini در Chrome: دستیار هوش مصنوعی گوگل که همه کارهای شما را زیر نظر می‌گیرد!

هوش مصنوعی

یک انقلاب جدید در ChatGPT؛ دستیار هوشمند شما حالا پیش‌بینی می‌کند!

هوش مصنوعی

معرفی مدل جدید GPT-5-Codex: انقلابی در کدنویسی هوش مصنوعی

هوش مصنوعی

نصب خودکار اپلیکیشن Microsoft 365 Copilot بر روی ویندوز: شروع از اکتبر 2025

هوش مصنوعی

جوانان و اسلام

راه و رسم زندگی

امور جهانی چگونه شناسایی می‌شوند؟

جهان چگونه اداره می‌شود؟ (تحلیل ماهیت حقوق اداری جهانی)

موقعیت ویژه خوزستان

آشنایی با استان خوزستان

Glimmer Full 2.0.32 for Android +4.1

گلیمر

آلبوم بهترین آهنگ‌های رشید طاها خواننده مشهور الجزایری-فرانسوی

آهنگ های رشید طاها

White Night

ترسناک برای کامپیوتر

دراسه فی علامات الظهور ، الجزیره الخضراء

الجزیره الخضراء

Full HD Wallpapers 1.1.7 For Android +4.4

فول اچ دی والپیپر

آموزش کار با دیسک کوتا

آشنایی با دیسک کوتا DISK QUOTA

لغات کاربردی کتاب 504

Book 504

Karateka

کاراته کا

Microsoft PowerToys 0.95.0

ابزارهای کاربردی برای ویندوز 10

Worms World Party Remastered

کرم‌ها مهمانی جهانی | نسخه‌ی بازسازی‌شده

Pro Basketball Manager 2019 + Updates

مدیریت بسکتبال برای کامپیوتر

سخنرانی علیرضا پناهیان با موضوع نماز خوب - 4 جلسه

سخنرانی نماز خوب با علیرضا پناهیان

مبارزه و هنر رزم

آشنایی با دفاع شخصی برای آقایان و بانوان

Luftrausers v1.0.0.1

هواپیمای جنگنده

pdfFactory Pro 9.17

تبدیل اسناد به پی دی اف

گلچین سخنرانی های حجت الاسلام مجتهدی تهرانی

آیت الله مجتهدی تهرانی سال 98

سخنرانی حجت الاسلام پناهیان درمورد نقش عبادت در سبک زندگی

سخنرانی حجت الاسلام پناهیان با موضوع نقش عبادت در سبک زندگی

Luminar Neo 1.24.7 Win/Mac

SoftGozar.com
1387-1404 | کلیه حقوق سایت متعلق به سافت گذر می باشد