شرکت فناوری چینی علیبابا، یک ربات هوش مصنوعی جدید به نام QVQ-Max معرفی کرده است که یک مدل استدلال تصویری است. نکته جالب در مورد این مدل این است که میتواند محتوای عکسها و ویدیوها را درک کند و سپس با استفاده از آن اطلاعات، تحلیل و استدلال کرده و راهحلهایی ارائه دهد.

علیبابا میگوید با این مدل، شکاف بین مدلهای هوش مصنوعی متنی و اطلاعات دنیای واقعی را پر میکند. با استدلال تصویری، این شرکت ادعا میکند که مدل میتواند چیزها را در دنیا ببیند، درک کند و درباره آنها فکر کند. این شرکت چینی گفته است که این مدل در تجزیه و تحلیل تصاویر و شناسایی عناصر کلیدی عملکرد عالی دارد و در موارد مختلفی از جمله طراحی تصویرسازی، تولید فیلمنامه ویدیویی و ایفای نقش قابل استفاده است.
مانند سایر رباتهای چت هوش مصنوعی، QVQ-Max میتواند در کارهای محل کار، آموزش یا زندگی شخصی به شما کمک کند. با این حال، با قابلیتهای تصویری خود، میتواند در وظایف بیشتری در این زمینهها نیز کمک کند، مانند حل مسائل ریاضی و فیزیک همراه با نمودارها یا راهنمایی شما در پخت غذا بر اساس تصاویر دستور پخت.
علیبابا، QVQ-Max را تنها نسخه اول این مدل نامیده و برنامههای خود را برای بهبود آن در نسخههای آینده مشخص کرده است. اول، میخواهد دقت تشخیص تصویر را از طریق تکنیکهای زمینهسازی که مشاهدات را تأیید میکنند، بهبود بخشد. دوم، میخواهد مدل را در مدیریت وظایف چند مرحلهای و مسائل پیچیده بهتر کند تا بتواند تلفنها و کامپیوترها را کنترل کند و بازی کند. در نهایت، قصد دارد مدل را از تعاملات صرفاً متنی به شامل تأیید ابزار و تولید تصویری گسترش دهد.
برای شروع کار با QVQ-Max، کافی است به chat.qwen.ai بروید، سپس به منوی کشویی مدل در بالا سمت چپ بروید، ‘Expand more models’ را فشار دهید و QVQ-Max را انتخاب کنید. پس از این، به جعبه چت بروید و شروع کنید، فراموش نکنید که چیزی تصویری ضمیمه کنید تا ببینید چه کاری میتواند انجام دهد.