استفاده از هوش مصنوعی مولد و مدل های زبان بزرگ برای خودکارسازی و ساده سازی وظایف افرادی که با کامپیوترهای شخصی کار میکنند، همچنان در حال رشد است. با این حال، نیاز به بررسی عملکرد AI برای انجام وظایف نیز وجود دارد. این هفته، Microsoft Research اعلام کرد که یک معیار مخصوص برای آزمایش عامل های AI روی کامپیوترهای شخصی Windows توسعه داده است.
معیار، همانطور که در صفحه GitHub Microsoft نشان داده شده است، Windows Agent Arena نام دارد. این چارچوب برای آزمایش اینکه عامل های AI چقدر خوب و سریع میتوانند با برنامه های Windows که معمولاً توسط انسان ها استفاده میشود تعامل کنند، طراحی شده است. لیست برنامه هایی که با عامل های AI در Windows Agent Arena آزمایش شدند شامل مرورگرهای وب مانند Microsoft Edge و Google Chrome، توابع سیستم عامل مانند تنظیمات File Explorer، برنامه های کد نویسی مانند Visual Studio Code، برنامه های ساده از پیش نصب شده Windows مانند Notepad، Clock و Paint و حتی تماشای ویدیو با VLC Player بود.
Microsoft اظهار داشت: "ما چارچوب OSWorld را برای ایجاد بیش از 150 وظیفه متنوع Windows در حوزه های نماینده که نیاز به توانایی های عامل در برنامه ریزی، درک صفحه نمایش و استفاده از ابزار دارد، تطبیق میدهیم. معیار ما همچنین مقیاس پذیر است و میتواند به راحتی در Azure برای یک ارزیابی کامل معیار در مدت زمان کوتاه 20 دقیقه موازی شود."
Microsoft Research همچنین یک عامل چند حالته به نام Navi را برای آزمایش آن در معیار Windows Agent Arena ایجاد کرد. از آن خواسته شد تا وظایف را با برخی از پیام های متنی انجام دهد، مانند "آیا میتوانید وب سایتی که در حال مشاهده آن هستم را به یک فایل PDF تبدیل کنید و آن را روی صفحه اصلی من، یعنی دسکتاپ، قرار دهید؟" مشخص شد که Navi دارای نرخ موفقیت عملکرد متوسط 19.5 درصد است که هنوز بسیار پایین تر از نرخ عملکرد انسانی 74.5 درصد است.
داشتن یک معیار مانند Windows Agent Arena میتواند یک توسعه عظیم برای ایجاد عامل های AI باشد، بنابراین میتوان آنها را بهبود بخشید و عملکردی نزدیک به سطح عملکرد انسان داشته باشند.
تیم Microsoft همچنین با محققان دانشگاه کارنگی ملون و دانشگاه کلمبیا روی این پروژه همکاری کرد.