DeepSeek AI، یک آزمایشگاه تحقیقاتی هوش مصنوعی چینی، در حال ایجاد تحولاتی در جامعه هوش مصنوعی متن باز است. اخیراً، DeepSeek مدل جدیدی به نام DeepSeek-V3 را معرفی کرده است که یک مدل زبان بزرگ از نوع Mixture-of-Experts (MoE) با ۶۷۱ میلیارد پارامتر کلی است و برای هر توکن، ۳۷ میلیارد پارامتر فعال میشود. طبق نتایج بنچمارکهای محبوب هوش مصنوعی، این مدل جدید DeepSeek-V3 قدرتمند ترین مدل متن باز موجود است و حتی بهتر از مدلهای محبوب غیرمتن باز مانند GPT-4 و Anthropic's Claude 3.5 عمل میکند.
DeepSeek-V3 در نه بنچمارک مختلف بهترین نتایج را به ثبت رسانده است که بیشترین تعداد برای هر مدل قابل مقایسهای از این اندازه است. علیرغم عملکرد عالی آن در بنچمارکهای کلیدی، DeepSeek-V3 تنها به ۲.۷۸۸ میلیون ساعت GPU H800 برای آموزش کامل خود نیاز دارد و هزینه آموزش آن حدود ۵.۶ میلیون دلار است. بطور مقایسهای، مدل متن باز معادل Llama 3 405B برای آموزش به ۳۰.۸ میلیون ساعت GPU نیاز دارد. DeepSeek-V3 به دلیل پشتیبانی از آموزش FP8 و بهینه سازیهای مهندسی عمیق، از نظر هزینه بسیار مقرون به صرفه است.
کارایی DeepSeek-V3 در استنتاج DeepSeek-V3 همچنین از نظر استنتاج بسیار کارآمد است. از ۸ فوریه، هزینه ورودی مدل DeepSeek-V3 برابر با ۰.۲۷ دلار به ازای هر میلیون توکن است (۰.۰۷ دلار برای هر میلیون توکن با کشینگ)، و هزینه خروجی آن ۱.۱۰ دلار برای هر میلیون توکن خواهد بود. این قیمت گذاری تقریباً یک دهم هزینهای است که شرکتهای پیشرو در زمینه هوش مصنوعی مانند OpenAI برای مدلهای پیشرفته خود دریافت میکنند.
تیم DeepSeek در مورد انتشار DeepSeek-V3 در X چنین نوشته است:
"ماموریت DeepSeek ثابت است. ما هیجان زده هستیم که پیشرفتهای خود را با جامعه به اشتراک بگذاریم و ببینیم که فاصله بین مدلهای متن باز و غیرمتن باز در حال کاهش است. این تنها آغاز کار است! منتظر پشتیبانی چند رسانهای و ویژگیهای پیشرفته دیگر در اکوسیستم DeepSeek باشید."
شما میتوانید مدل DeepSeek-V3 را از GitHub و HuggingFace دانلود کنید. با عملکرد چشمگیر و هزینه مقرون به صرفه، DeepSeek-V3 میتواند دسترسی به مدلهای پیشرفته هوش مصنوعی را دموکراتیک کند. این انتشار گامی مهم در راستای کاهش شکاف بین مدلهای هوش مصنوعی متن باز و غیرمتن باز است.