سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

هوش مصنوعی

تغییرات صوتی OpenAI: معرفی نسل جدید مدل‌های هوش مصنوعی صدا

در ماه‌های اخیر، OpenAI چندین ابزار جدید از جمله Operator، Deep Research، Computer-Using Agents و Responses API را منتشر کرده که بر روی عامل‌های متنی متمرکز بوده‌اند. امروز، OpenAI مدل‌های جدید تبدیل گفتار به متن و متن به گفتار را در API خود اعلام کرد که به توسعه‌دهندگان امکان می‌دهد عامل‌های صوتی قدرتمندتر، قابل شخصی‌سازی‌تر و بیانگرتر از همیشه بسازند.

 

تغییرات صوتی OpenAI: معرفی نسل جدید مدل‌های هوش مصنوعی صدا

 

مدل‌های جدید تبدیل گفتار به متن OpenAI، gpt-4o-transcribe و gpt-4o-mini-transcribe، بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدل‌های Whisper موجود OpenAI ارائه می‌دهند. این پیشرفت‌ها از طریق یادگیری تقویتی و آموزش میانی گسترده با استفاده از مجموعه داده‌های صوتی متنوع و با کیفیت بالا به دست آمده است.

OpenAI ادعا می‌کند که این مدل‌های صوتی جدید می‌توانند ظرافت‌های گفتار را بهتر درک کنند، تشخیص‌های نادرست را کاهش دهند و قابلیت اطمینان رونویسی را حتی زمانی که صدای ورودی شامل لهجه‌ها، محیط‌های پر سر و صدا و سرعت‌های مختلف گفتار است، بهبود بخشند.

gpt-4o-mini-tts جدیدترین مدل تبدیل متن به گفتار است که قابلیت هدایت بهبود یافته‌ای را ارائه می‌دهد. توسعه‌دهندگان اکنون می‌توانند به مدل دستور دهند که چگونه محتوای متن را تلفظ کند. با این حال، فعلاً مدل تبدیل متن به گفتار به صداهای مصنوعی از پیش تعیین شده محدود است.

هزینه‌های مدل‌ها به شرح زیر است: مدل gpt-4o-transcribe: ۶ دلار برای هر میلیون توکن صوتی ورودی، ۲.۵۰ دلار برای هر میلیون توکن متنی ورودی و ۱۰ دلار برای هر میلیون توکن متنی خروجی مدل gpt-4o-mini-transcribe: ۳ دلار برای هر میلیون توکن صوتی ورودی، ۱.۲۵ دلار برای هر میلیون توکن متنی ورودی و ۵ دلار برای هر میلیون توکن متنی خروجی مدل gpt-4o-mini-tts: ۰.۶۰ دلار برای هر میلیون توکن متنی ورودی و ۱۲ دلار برای هر میلیون توکن صوتی خروجی

 

این هزینه‌ها به صورت دقیقه‌ای به شرح زیر محاسبه می‌شود:

  • gpt-4o-transcribe: حدود ۰.۶ سنت در دقیقه
  • gpt-4o-mini-transcribe: حدود ۰.۳ سنت در دقیقه
  • gpt-4o-mini-tts: حدود ۱.۵ سنت در دقیقه

تیم OpenAI درباره این مدل‌های صوتی جدید نوشت: “در آینده، ما قصد داریم به سرمایه‌گذاری در بهبود هوشمندی و دقت مدل‌های صوتی خود ادامه دهیم و راه‌هایی را برای اجازه دادن به توسعه‌دهندگان برای آوردن صداهای سفارشی خود جهت ساخت تجربیات شخصی‌سازی شده‌تر، به روش‌هایی که با استانداردهای ایمنی ما مطابقت دارند، بررسی کنیم.”

این مدل‌های صوتی جدید اکنون از طریق APIها برای همه توسعه‌دهندگان در دسترس هستند. OpenAI همچنین یک ادغام با Agents SDK را اعلام کرد که به توسعه‌دهندگان امکان می‌دهد به راحتی عامل‌های صوتی بسازند. برای تجربیات گفتار به گفتار با تأخیر کم، OpenAI استفاده از Realtime API را توصیه می‌کند.

نظرتان را ثبت کنید کد خبر: 52463 گروه خبری: هوش مصنوعی منبع خبر: سافت گذر تاریخ خبر: 1404/01/03 تعداد مشاهده: 2414
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
انتخاب بهترین هاست

انتخاب بهترین هاست

هاست و فضای میزبانی

Adobe Dreamweaver 2021 21.3 / 2020 / macOS

Adobe Dreamweaver 2021 21.3 / 2020 / macOS

ادوبی دریم ویور

Apple Safari 5.34.57.2 Final

Apple Safari 5.34.57.2 Final

مرورگر پرسرعت، زیبا و قدرتمند شرکت Apple

FotoSketcher 3.96 (x64)

FotoSketcher 3.96 (x64)

تبدیل عکس به نقاشی

سخنرانی حجت الاسلام والمسلمین ماندگاری

سخنرانی حجت الاسلام والمسلمین ماندگاری

دهه کرامت

InfiniteSkills - Advanced Microsoft Access 2013 Training Video

InfiniteSkills - Advanced Microsoft Access 2013 Training Video

فیلم آموزش سطح پیشرفته‌ی مایکروسافت اکسس 2013

A Tale of Momentum & Inertia

A Tale of Momentum & Inertia

انیمیشن کوتاه سه بعدی

آموزش برنامه نویسی برای سیستم عامل سیمبین

آموزش برنامه نویسی برای سیستم عامل سیمبین

آشنایی با برنامه نویسی Symbian OS

Autodesk AutoCAD 2013 SP2 / LT SP1.1 x86/x64 + Portable

Autodesk AutoCAD 2013 SP2 / LT SP1.1 x86/x64 + Portable

نسخه 2013 قدرتمندترین برنامه نقشه‌کشی ویرایش 32 و 64 بیتی

Jump Desktop 7.1.1 for Android

Jump Desktop 7.1.1 for Android

کنترل کامپیوتر با گوشی از طریق اینترنت

O3DX

O3DX

ماشین مسابقه ای

Spotify Music 9.0.24.601 For Android +5.0

Spotify Music 9.0.24.601 For Android +5.0

اسپاتیفای

Dustforce DX

Dustforce DX

داست‌فورس

Not Dying Today

Not Dying Today

امروز نمی میرد

اهمیت تهجد و شب زنده داری از حجت الاسلام والمسلمین حیدری کاشانی

اهمیت تهجد و شب زنده داری از حجت الاسلام والمسلمین حیدری کاشانی

حیدری کاشانی با موضوع اهمیت تهجد و شب زنده داری

PicFrame 3.7.5 for Android +4.1

PicFrame 3.7.5 for Android +4.1

قاب تصویر

اطلاعات نظامی

اطلاعات نظامی

اطلاع نگاشت‌ نظامی

Adobe Reader LE 2.5.131

Adobe Reader LE 2.5.131

نرم افزار باز کردن فایلهای PDF بر روی موبایل

MotoGP™23

MotoGP™23

موتورسواری برای کامپیوتر

Adamo - Tombe La Neige

Adamo - Tombe La Neige

آهنگ فرانسوی برف می بارد

Yokus Island Express

Yokus Island Express

ماجراجویانه

کتاب آموزش آدوبی دایرکتور

کتاب آموزش آدوبی دایرکتور

آدوبی دایرکتور

FileMenu Tools 8.4.3

FileMenu Tools 8.4.3

سفارشی سازی منوی راست کلیک ویندوز اکسپلورر

سلسله مباحث استاد شجاعی قسمت چهارم

سلسله مباحث استاد شجاعی قسمت چهارم

مباحث شجاعی

Forestry 2017 - The Simulation

Forestry 2017 - The Simulation

شبیه‌ساز چوب‌بُری در جنگل 2017

سخنرانی های حجت الاسلام دهنوی راجع دوران بارداری و زایمان

سخنرانی های حجت الاسلام دهنوی راجع دوران بارداری و زایمان

دوران زایمان و شیردهی

PDF Slideshow 1.0

PDF Slideshow 1.0

پی‌دی‌اف اسلایدشو

QUE$TOR 2023 Q3

QUE$TOR 2023 Q3

پیش‌بینی هزینه‌های نفت و گاز

EagleGet 2.1.6.70

EagleGet 2.1.6.70

مدیریت دانلود ایگل گت

سخنرانی حجت الاسلام انصاریان درباره زندگی آگاهانه

سخنرانی حجت الاسلام انصاریان درباره زندگی آگاهانه

سخنرانی حجت الاسلام انصاریان درباره زندگی آگاهانه

Puffle Launch 1.3 for Android

Puffle Launch 1.3 for Android

هدایت گلوله

Harry Potter 7 Part 1

Harry Potter 7 Part 1

هری پاتر برای کامپیوتر

Pluralsight - iOS7 Fundamentals

Pluralsight - iOS7 Fundamentals

فیلم آموزش مهارت‌های بنیادی iOS7

مداحی عربی عمار الکنانی

مداحی عربی عمار الکنانی

لیالی عاشوراء

Shu

Shu

شو

Pluralsight - CSS3 In-Depth

Pluralsight - CSS3 In-Depth

فیلم آموزش کامل سی‌اس‌اس3

GO Backup Pro Premium 3.51 for Android

GO Backup Pro Premium 3.51 for Android

پشتیبان گیری قدرتمند از اطلاعات

Between Me and The Night

Between Me and The Night

میان من و شب

Adobe Photoshop CS5.1 Extended 12.1 + Portable

Adobe Photoshop CS5.1 Extended 12.1 + Portable

آخرین نسخه نرم افزار فتوشاپ جهت ویرایش حرفه ای تصاویر

Udemy - JSP, Servlets and JDBC for Beginners: Build a Database App

Udemy - JSP, Servlets and JDBC for Beginners: Build a Database App

آموزش JSP و Servlets

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!