آمازون امروز Nova Sonic را معرفی کرد، یک مدل پیشرفته گفتار به گفتار که به توسعهدهندگان امکان میدهد برنامههایی با قابلیت مکالمه صوتی شبیه انسان و در زمان واقعی بسازند. آمازون ادعا میکند این مدل صوتی جدید، بهترین عملکرد صنعت را از نظر قیمت و تأخیر کم ارائه میدهد.
معمولاً، برای توسعه یک برنامه صوتی، توسعهدهندگان باید با چندین مدل مختلف کار کنند - مانند مدل تشخیص گفتار برای تبدیل گفتار به متن، مدلهای زبانی بزرگ برای درک و تولید پاسخها، و مدل تبدیل متن به گفتار برای تبدیل مجدد متن به صدا. این رویکرد نه تنها پیچیده است، بلکه اغلب در ثبت بافتهای مهم صوتی و ظرافتهایی مانند لحن، آهنگ کلام و سبک صحبت کردن ناموفق است.

Nova Sonic این چالش را با یکپارچهسازی قابلیتهای درک و تولید صدا در یک مدل واحد برطرف میکند. این رویکرد یکپارچه به مدل اجازه میدهد لحن، سبک و ورودی گفتاری را درک کند که منجر به مکالمهای طبیعیتر میشود. همچنین میتواند زمان مناسب برای پاسخ را تشخیص دهد و وقفهها (قطع کلام) را بهتر مدیریت کند.
Nova Sonic از صداهای مردانه و زنانه در لهجههای مختلف انگلیسی، از جمله آمریکایی و بریتانیایی پشتیبانی میکند. توسعهدهندگان میتوانند از طریق Amazon Bedrock و با استفاده از API جریان دوطرفه، با پشتیبانی از فراخوانی توابع به این مدل دسترسی داشته باشند. همچنین شامل محافظتهای داخلی مانند نظارت بر محتوا و واترمارک است.
جزئیات مدل در زیر آمده است:
Amazon Nova Sonic
شناسه مدل: amazon.nova-sonic-v1:0
ورودیها: گفتار
خروجیها: گفتار همراه با رونویسی و پاسخهای متنی
پنجره متن: ۳۰۰ هزار بافت
حداکثر مدت اتصال: ۸ دقیقه مهلت اتصال، با حداکثر ۲۰ اتصال همزمان برای هر مشتری
زبانهای پشتیبانی شده: انگلیسی
مناطق: شرق ایالات متحده (ویرجینیای شمالی)
پشتیبانی API جریان دوطرفه: بله
پایگاههای دانش Bedrock: از طریق استفاده از ابزار (فراخوانی توابع) پشتیبانی میشود
نکته مرتبط اینکه، ماه گذشته OpenAI مدلهای نسل بعدی گفتار به متن، gpt-4o-transcribe و gpt-4o-mini-transcribe را معرفی کرد که بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدلهای Whisper موجود خود ارائه میدهند.