شرکت هوش مصنوعی چینی DeepSeek اخیراً مدل زبانی بزرگ جدید خود، DeepSeek-V3-0324 را منتشر کرد. این مدل 641 گیگابایتی با حداقل اطلاعرسانی قبلی در پلتفرم هوش مصنوعی Hugging Face منتشر شد که این مطابق با رویه معمول شرکت در عرضه محصولات بدون هیاهو است.
این مدل به خاطر مجوز MIT خود منحصر به فرد است که استفاده تجاری رایگان را مجاز میکند. بررسیهای اولیه نشان میدهد که DeepSeek-V3-0324 قادر به اجرا روی سختافزارهای مصرفی معمولی است، مانند Mac Studio اپل با تراشه M3 Ultra. دانشمند هوش مصنوعی Awni Hannun گزارش داد که با این پیکربندی میتوان به سرعت پردازش بیش از 20 توکن در ثانیه دست یافت. این قابلیت اجرای یک مدل زبانی بزرگ روی سختافزار معمولی، دقیقاً برخلاف روش متداول استفاده از زیرساختهای عظیم مرکز داده برای پشتیبانی از مدلهای هوش مصنوعی پیشرفته است.

🔹 افزایش چشمگیر در عملکرد استدلال 🔹 مهارتهای قویتر در توسعه فرانتاند 🔹 قابلیتهای هوشمندتر در استفاده از ابزارها
✅ برای وظایف استدلالی غیرپیچیده، ما استفاده از V3 را توصیه میکنیم - فقط “DeepThink” را خاموش کنید 🔌 استفاده از API بدون تغییر باقی میماند 📜 مدلها…
طبق گفته DeepSeek، آزمایشهای اولیه بهبود قابل توجهی را نسبت به نسخههای قبلی نشان داده است. این مدل به طور دقیق توسط ذینفعان داخلی آزمایش شده و عملکرد عالی داشته است، به طوری که احتمالاً از تمام مدلهای رقیب پیشی گرفته و حتی در وظایف غیراستدلالی از Claude Sonnet 3.5 شرکت Anthropic بهتر عمل کرده است. با این حال، برخلاف مدلهای اشتراکی سبک Sonnet، DeepSeek-V3-0324 برای دانلود و استفاده رایگان است.
از نظر فنی، این مدل دارای معماری mixture-of-experts (MoE) است. به طور انتخابی حدود 37 میلیارد از 685 میلیارد پارامتر خود را برای هر وظیفه استفاده میکند که باعث افزایش کارایی از طریق کاهش نیازهای محاسباتی در عین حفظ عملکرد میشود. این مدل همچنین از فناوریهای Multi-Head Latent Attention (MLA) و Multi-Token Prediction (MTP) استفاده میکند که به بهبود حفظ متن و سرعتهای خروجی سریعتر کمک میکنند.
این مدل از طریق Hugging Face، API و رابط چت OpenRouter، و در صورت تمایل از طریق پلتفرم چت DeepSeek قابل دسترسی است. ارائهدهنده استنتاج Hyperbolic Labs نیز دسترسی به این مدل را فراهم میکند.