یکی از شرکتهای پیشرو در زمینه هوش مصنوعی در اروپا، Mistral AI، مدل جدیدی به نام Mistral Small 3 را معرفی کرده است. این مدل دارای ۲۴ میلیارد پارامتر است، اما از نظر عملکرد با مدلهای بزرگتری مانند Llama 3.3 70B و Qwen 32B (حداقل در معیار MMLU-Pro) برابری میکند. این مدل نه تنها از نظر عملکرد با Llama 3.3 70B همسطح است، بلکه سریعتر نیز میباشد.
مدل پرکاربردترین که در ChatGPT استفاده میشود، مدل GPT-4o mini است که در صورت تمام شدن درخواستهای GPT-4o، به عنوان مدل پشتیبان عمل میکند. Mistral Small 3 عملکرد بهتری نسبت به این مدل OpenAI دارد و گفته میشود که تأخیر کمتری نیز دارد.
معیارهای Mistral Small 3
Mistral AI در مورد مجوز مدل گفت: “ما هم یک نقطه چکیده پیشآموزشدیده و هم یک نقطه چکیده تنظیمشده بر اساس دستورالعمل را تحت مجوز Apache 2.0 منتشر میکنیم. این نقاط چکیده میتوانند به عنوان یک پایه قدرتمند برای تسریع پیشرفت عمل کنند. توجه داشته باشید که Mistral Small 3 نه با یادگیری تقویتی (RL) و نه با دادههای مصنوعی آموزش دیده است، بنابراین در مراحل اولیه تولید مدل نسبت به مدلهایی مانند Deepseek R1 (که یک تکنولوژی متنباز عالی و مکمل است!) قرار دارد. این مدل میتواند به عنوان یک مدل پایه عالی برای ساخت ظرفیتهای استدلالی تجمعی عمل کند. ما منتظر هستیم ببینیم که جامعه متنباز چگونه آن را به کار میگیرد و سفارشی میکند.”
به عنوان یک مدل کوچکتر، این امکان وجود دارد که آن را به صورت محلی بر روی کامپیوتر خود اجرا کنید، اگر مشخصات سختافزاری بالایی داشته باشید. Mistral AI گفت که این مدل میتواند بر روی یک کارت گرافیک Nvidia RTX 4090 یا یک MacBook با ۳۲ گیگابایت RAM اجرا شود.
در حالی که این مدل در مقایسه با مدلهای دیگر در معیار MMLU-Pro عملکرد بهتری داشت، همیشه انتخاب محبوبی برای ارزیابان انسانی نبود. Mistral مدل خود را با دیگر مدلها در مجموعهای از بیش از ۱۰۰۰ پرسش کدنویسی و عمومی مقایسه کرد. آنها دریافتند که Mistral Small 3 گزینه ترجیحیتری نسبت به Gemma-2 27B و Qwen-32B بوده، اما نسبت به Llama 3.3 70B و GPT-4o mini کمتر مورد پسند قرار گرفته است.
معیارهای Mistral Small 3 اکنون Mistral Small 3 در la Plateforme با نام mistral-small-latest یا mistral-small-2501 در دسترس است.