مایکروسافت در دسامبر 2024، مدل زبانی کوچک Phi-4 را با عملکردی پیشرفته در کلاس خود معرفی کرد. امروز، مایکروسافت خانواده Phi-4 را با دو مدل جدید گسترش میدهد: Phi-4-multimodal و Phi-4-mini.
مدل جدید Phi-4-multimodal از گفتار، تصویر و متن به طور همزمان پشتیبانی میکند، در حالی که Phi-4-mini بر وظایف متنی متمرکز است.

Phi-4-multimodal یک مدل با 5.6 میلیارد پارامتر است و اولین مدل زبانی چندوجهی مایکروسافت است که پردازش گفتار، تصویر و متن را در یک معماری واحد ادغام میکند. در مقایسه با سایر مدلهای پیشرفته موجود، از جمله Gemini 2.0 Flash و Gemini 2.0 Flash Lite گوگل، Phi-4-multimodal عملکرد بهتری در چندین معیار دارد.
در وظایف مرتبط با گفتار، Phi-4-multimodal از مدلهای تخصصی گفتار مانند WhisperV3 و SeamlessM4T-v2-Large در تشخیص خودکار گفتار (ASR) و ترجمه گفتار (ST) پیشی میگیرد. مایکروسافت اعلام کرده که این مدل با نرخ خطای کلمه 6.14% به رتبه اول در جدول Hugging Face OpenASR دست یافته است.
در وظایف مرتبط با تصویر، Phi-4-multimodal عملکرد قوی در استدلال ریاضی و علمی داشته است. در قابلیتهای چندوجهی معمول، مانند درک اسناد و نمودار، OCR و استدلال علمی بصری، این مدل جدید با مدلهای محبوبی مانند Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet برابری میکند یا از آنها پیشی میگیرد.
Phi-4-mini یک مدل با 3.8 میلیارد پارامتر است و در وظایف متنی از چندین LLM بزرگتر محبوب، از جمله در استدلال، ریاضیات، کدنویسی، پیروی از دستورالعمل و فراخوانی تابع، پیشی میگیرد.
برای اطمینان از امنیت و ایمنی این مدلهای جدید، مایکروسافت با کارشناسان امنیتی داخلی و خارجی آزمایشهایی را انجام داده و از استراتژیهای تدوین شده توسط تیم قرمز هوش مصنوعی مایکروسافت (AIRT) استفاده کرده است. هر دو مدل Phi-4-mini و Phi-4-multimodal میتوانند با بهینهسازی بیشتر با ONNX Runtime برای دسترسی چند پلتفرمی، روی دستگاه مستقر شوند و برای سناریوهای کم هزینه و با تأخیر کم مناسب هستند.
هر دو مدل Phi-4-multimodal و Phi-4-mini اکنون برای توسعهدهندگان در Azure AI Foundry، Hugging Face و NVIDIA API Catalog در دسترس هستند. توسعهدهندگان میتوانند با مطالعه مقاله فنی، خلاصهای از موارد استفاده توصیه شده مدلها و محدودیتهای آنها را مشاهده کنند.
این مدلهای جدید Phi-4 نشاندهنده پیشرفتهای قابل توجهی در هوش مصنوعی کارآمد هستند که قابلیتهای قدرتمند چندوجهی و متنی را برای انواع کاربردهای هوش مصنوعی به ارمغان میآورند.