اخیراً، شرکت متا «لاما ۴» (Llama 4) را منتشر کرد؛ خانوادهی جدیدی از مدلهای زبان بزرگ که شامل «اسکوت» (Scout)، «ماوریک» (Maverick) و «بهیموث» (Behemoth) میشود. بر اساس نتایج بنچمارکها (ارزیابیها)، مدل «لاما ۴ ماوریک» (Llama-4-Maverick-03-26-Experimental) در جایگاه دوم قرار گرفت و مدلهایی مانند GPT-4o متعلق به OpenAI و Gemini 2.0 Flash متعلق به گوگل را شکست داد و تنها پس از Gemini 2.5 Pro قرار گرفت.

اما خیلی زود، مشخص شد، زیرا کاربران متوجه تفاوتهایی در رفتار بین مدل ماوریکی که در بنچمارکها استفاده شده بود و نسخهای که در دسترس عموم قرار گرفته بود، شدند. این موضوع منجر به اتهاماتی مبنی بر تقلب متا شد و واکنش یک مدیر اجرایی متا در شبکه اجتماعی ایکس (X) را به دنبال داشت:
«خوشحالیم که شروع به در دسترس قرار دادن لاما ۴ برای همه شما کردهایم. ما در حال حاضر نتایج عالی زیادی را میشنویم که افراد با این مدلها به دست میآورند.با این حال، گزارشهایی مبنی بر کیفیت متغیر در سرویسهای مختلف نیز به گوش ما میرسد. از آنجایی که ما مدلها را به محض آماده شدن منتشر کردیم…»
پلتفرم الامآرنا (LMArena) تأیید کرد که متا از سیاستهای آن پیروی نکرده است، از عموم عذرخواهی کرد و یک بهروزرسانی برای سیاستهای خود صادر نمود.«ما سؤالاتی از جامعه در مورد آخرین انتشار لاما-۴ در آرنا مشاهده کردهایم. برای اطمینان از شفافیت کامل، بیش از ۲۰۰۰ نتیجه رقابت رودررو را برای بررسی عمومی منتشر میکنیم. این شامل دستورات کاربر، پاسخهای مدل و ترجیحات کاربر است.
اکنون، نسخه منتشر شده بدون تغییر این مدل (Llama-4-Maverick-17B-128E-Instruct) به الامآرنا اضافه شده است و در رتبه ۳۲ قرار دارد. جهت اطلاع، مدلهای قدیمیتر مانند «کلود ۳.۵ سونِت» (Claude 3.5 Sonnet) که ژوئن گذشته منتشر شد و «جمینی-۱.۵-پرو-۰۰۲» (Gemini-1.5-Pro-002) که سپتامبر گذشته منتشر شد، رتبه بالاتری دارند.
در بیانیهای به تک کرانچ (TechCrunch)، یک سخنگوی متا اشاره کرد که مدل Llama-4-Maverick-03-26-Experimental به طور خاص برای گفتگو (چت) تنظیم شده بود و در بنچمارکهای الامآرنا عملکرد بسیار خوبی داشت. وی افزود که این شرکت «هیجانزده» است تا ببیند توسعهدهندگان اکنون که نسخه متنباز لاما ۴ منتشر شده است، چه چیزهایی خواهند ساخت.