چند روز پس از راهاندازی Deep Research که توسط Gemini 2.5 Pro Experimental پشتیبانی میشد، گوگل دوباره با یک مدل جدید به نام DolphinGemma بازگشته است. این مدل زبانی بزرگ برای کمک به دانشمندان در “مطالعه نحوه ارتباط دلفینها” و “امیدواریم بفهمیم آنها چه میگویند” طراحی شده است.
این شرکت با محققان دانشگاه جورجیا تک و پروژه دلفینهای وحشی (WDP) به رهبری بنیانگذار آن، دکتر دنیس هرزینگ همکاری میکند. همانطور که احتمالاً میتوانید حدس بزنید، ماموریت اصلی WDP مشاهده، مستندسازی و گزارش رفتارهای طبیعی، ساختارهای اجتماعی، الگوهای ارتباطی و زیستگاههای دلفینهای وحشی، بهویژه دلفین خالدار اطلس (Stenella frontalis)، از طریق “تحقیقات میدانی طولانیمدت غیرتهاجمی” است.

در طول سالها، WDP دادههایی جمعآوری کرده که به آنها اجازه میدهد صداهای خاص دلفینها را با رفتارهایشان مرتبط کنند. برای مثال:
• سوتهای مشخصه (نامهای منحصر به فرد) که توسط مادران و نوزادان برای پیوستن مجدد به هم استفاده میشود
• صداهای “جیغمانند” پالسی که اغلب در طول درگیریها دیده میشود
• صدای “وزوز” کلیک مانند که اغلب در زمان جفتگیری یا تعقیب کوسهها استفاده میشود
به گفته گوگل، “تحلیل ارتباطات طبیعی و پیچیده دلفینها کاری عظیم است، و مجموعه دادههای برچسبگذاری شده گسترده WDP فرصتی منحصر به فرد برای هوش مصنوعی پیشرفته فراهم میکند.”
اینجاست که DolphinGemma وارد میشود. به زبان ساده، این یک مدل هوش مصنوعی است که توسط گوگل بر روی مجموعه دادههای WDP توسعه یافته و از توکنایزر SoundStream گوگل برای تجزیه آواهای دلفین به واحدهای صوتی قابل مدیریتتر استفاده میکند.
این دادهها سپس از طریق یک معماری مدل تخصصی که برای درک توالیهای پیچیده طراحی شده، پردازش میشوند. کل سیستم حدود 400 میلیون پارامتر دارد که آن را به اندازه کافی سبک میکند تا بتواند به طور مستقیم روی گوشیهای پیکسل اجرا شود، که محققان WDP آنها را در میدان با خود حمل میکنند.
برخلاف مدلهای یادگیری ماشینی سنتی، DolphinGemma با کلمات یا تصاویر سروکار ندارد؛ فقط ورودی و خروجی صوتی دارد. این مدل توالیهای طبیعی آواهای دلفین را دریافت میکند، آنها را با استفاده از رویکردی که از نحوه درک مدلهای زبانی بزرگ از گفتار انسان الهام گرفته شده پردازش میکند، و محتملترین صدای بعدی را در یک توالی پیشبینی میکند.
دکتر دنیس هرزینگ آن را با تکمیل خودکار مقایسه میکند، اما برای سوتها، پالسهای انفجاری و قطارهای کلیک دلفینها. این مدل برای شناسایی الگوها، ساختار و پیشرفت در این صداها آموزش دیده است، درست مانند نحوه پیشبینی کلمه بعدی در یک جمله توسط یک مدل متنی بر اساس متن.
قبل از اینکه گوگل با DolphinGemma وارد شود، تیم محققان WDP از CHAT (Cetacean Hearing Augmentation Telemetry) برای بررسی امکان ارتباط دوطرفه با دلفینها استفاده میکردند. هدف CHAT شکستن پیچیدگی کامل زبان دلفین نبود، بلکه ساخت یک واژگان سادهتر و مشترک برای تعامل بود.
این سیستم با مرتبط کردن سوتهای مصنوعی جدید، که توسط CHAT ایجاد شده، با اشیاء خاصی که دلفینها به نظر میرسد از آنها لذت میبرند، کار میکند. چیزهایی مثل جلبک سارگاسوم، علف دریایی، یا حتی روسریهایی که محققان استفاده میکنند.
امید این بود که با مرتبط کردن مکرر این سوتهای مصنوعی با اشیاء، دلفینها شروع به تقلید صداها برای “درخواست” آن اقلام کنند.
CHAT روی گوشی Google Pixel 6 اجرا میشد که تحلیل صوتی با کیفیت بالا را در زمان واقعی انجام میداد. استفاده از گوشیهای آماده به این معنی بود که تیم به تجهیزات سفارشی نیاز نداشت. این کار همه چیز را کوچکتر، ارزانتر، کارآمدتر و نگهداری آن را در اقیانوس باز آسانتر میکرد.
برای فصل آینده، آنها به پیکسل 9 ارتقا میدهند که قابلیتهای بلندگو و میکروفون بهتری اضافه میکند و قدرت کافی برای اجرای همزمان مدلهای یادگیری عمیق و تطبیق الگو را دارد.
درست مانند سایر مدلهای Gemma، گوگل میگوید که DolphinGemma را در تابستان به عنوان یک مدل باز عرضه میکند با این امید که “به محققان سراسر جهان ابزارهایی برای کاوش در مجموعه دادههای صوتی خود بدهد، جستجو برای الگوها را تسریع کند و به طور جمعی درک ما را از این پستانداران دریایی هوشمند عمیقتر کند.”
Gemma یک خانواده از مدلهای زبانی بزرگ سبک وزن است که توسط گوگل توسعه یافته است. آخرین افزوده به این خانواده Gemma 3 است که در چهار اندازه موجود است:
1 میلیارد،
4 میلیارد،
12 میلیارد
و 27 میلیارد پارامتر.