معرفی مدل هوش مصنوعی Gemini 2.5 Computer Use – گام نوین گوگل در تعامل با صفحات وب

نمایش خبر

تاریخ : 1404/7/18        نویسنده: مریم رشنو
برچسب‌ها : هوش مصنوعی Artificial Intelligence ، گوگل Google
واحد خبر mobile.ir : کمپانی گوگل در روز سه‌شنبه 7 اکتبر 2025 (15 مهر 1404) طی پستی رسمی در وبلاگ خود از ارائه مدل هوش مصنوعی جدیدی با عنوان Gemini 2.5 Computer Use خبر داده است که به عامل‌های هوش مصنوعی اجازه می‌دهد تا مانند یک کاربر واقعی با صفحات وب تعامل داشته باشند. ابرشرکت آمریکایی با معرفی این مدل، قابلیت‌های هوش مصنوعی را یک گام جلوتر برده است چراکه Gemini 2.5 Computer Use می‌تواند به‌طور مستقیم در مرورگر وب کار کند و کارهایی مانند پر کردن فرم‌ها، کلیک کردن روی گزینه‌ها و حتی بازی را درست مانند یک کاربر واقعی انجام دهد. پیش‌نمایش عمومی این مدل در حال حاضر از طریق Gemini API در Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان قرار گرفته است.

این خبر گوگل درست یک روز پس از معرفی اپلیکیشن‌های جدید ChatGPT از سوی OpenAI به‌عنوان بخشی از برنامه سالانه این شرکت موسوم به Dev Day منتشر شده است و نشان می‌دهد OpenAI همچنان بر قابلیت ChatGPT Agent تمرکز دارد که می‌تواند وظایف پیچیده را از طرف کاربر انجام دهد. شرکت Anthropic نیز اواخر سال گذشته میلادی مدل هوش مصنوعی Claude را با قابلیت کار کردن در کامپیوتر ارائه کرده بود.

Gemini 2.5 Computer Use بر اساس «قابلیت‌های استدلال و درک بصری» Gemini 2.5 Pro ساخته شده است و می‌تواند طیف گسترده‌ای از کارهای مبتنی بر مرورگر مانند تایپ کردن، اسکرول، باز کردن منوهای کشویی، جست‌وجو در وب و پیمایش در URLها را انجام دهد. گوگل مدعی است که این مدل در چند بنچ‌مارک‌ از جمله Online Mind2Web ،WebVoyager و AndroidWorld در مقایسه با ابزارهای رقیب نه تنها عملکرد بهتری دارد، بلکه تأخیر آن نیز کمتر است.

البته مدل AI جدید گوگل بر خلاف ابزارهای مشابه ChatGPT Agent و Anthropic تنها به مرورگر دسترسی دارد و به گفته شرکت آمریکایی «هنوز برای کنترل در سطح سیستم‌عامل دسک‌تاپ بهینه نشده است.» در نتیجه همان طور که اشاره شد، در حال حاضر تنها از ۱۳ اقدام (action) مانند باز کردن مرورگر وب، نوشتن متن و کشیدن و رها کردن المان‌ها پشتیبانی می‌کند.

گوگل پیش از این هم از نسخه‌های دیگر این مدل برای قابلیت‌های عاملی در AI Mode و Project Mariner استفاده کرده بود. Project Mariner یک پیش‌نمونه تحقیقاتی محسوب می‌شود که عامل‌های هوش مصنوعی را برای انجام خودکار وظایف (tasks) در یک مرورگر مانند اضافه کردن اقلام به سبد خرید بر اساس یک فهرست به کار می‌گیرد.

در Gemini 2.5 Computer Use بر خلاف مدل‌های سنتی هوش مصنوعی که بر APIها اتکا دارند، چند مرحله در قالب یک چرخه انجام می‌شود تا وظیفه کامل شود. گام نخست این فرایند ارسال درخواست به مدل است که ورودی‌های آن «درخواست کاربر، تصویر لحظه‌ای یا اسکرین‌شات از محیط کاربری و تاریخچه‌ای از اقدامات اخیر» است. در مرحله بعدی، «مدل [هوش مصنوعی] این ورودی‌ها را تحلیل و به آن‌ها پاسخ می‌دهد. این پاسخ یک فراخوانی تابع و نمایانگر یکی از اقدامات رابط کاربری مانند کلیک روی یک دکمه یا تایپ در فیلد است.»

در گام بعدی پاسخ مدل دریافت می‌شود، به این معنا که « کد سمت کلاینت اقدام مورد نظر را اجرا می‌کند.» در نهایت «پس از اجرای اقدام، یک اسکرین‌شات جدید از رابط کاربری گرافیکی و URL فعلی به مدل Computer Use ارسال و این چرخه از نو آغاز می‌شود.»

گوگل عملکرد این مدل را با چند ویدئو به نمایش گذاشته که نشان می‌دهد عامل، یادداشت‌ها (sticky notes) را روی یک تخته (whiteboard) دیجیتال مرتب می‌کند و جزئیات مربوط به یک حیوان خانگی را از یک وب‌سایت به سامانه CRM منتقل می‌‌‌کند.البته ویدئوهای دموی این عملیات برای نمایش فرآیند در زمان واقعی سه‌برابر سریع‌تر شده‌اند.

غول آمریکایی برای این مدل اقدامات ایمنی را به منظور جلوگیری از سوء استفاده در نظر گرفته است به این ترتیب که هر اقدام پیشنهادی توسط این مدل پیش از اجرا از طریق یک سرویس ایمنی بررسی می‌شود. همچنین توسعه‌دهندگان می‌توانند اقدامات خاصی را محدود کنند یا برای کارهای پرریسک مانند تراکنش‌های مالی، تأیید صحیح کاربران را الزامی سازند.

در حال حاضر چند تیم داخلی در گوگل Gemini 2.5 Computer Use را در مرحله تولید استفاده می‌کنند. این مدل از تست رابط کاربری و وظایف اتوماسیون در پلتفرم‌هایی مانند Search و Firebase پشتیبانی می‌کند. توسعه‌دهندگان خارجی نیز از این مدل در برنامه دسترسی اولیه برای ساخت اتوماسیون گردش کار و ابزارهای دستیار استفاده کرده‌اند.

Gemini 2.5 Computer Use در حال حاضر از طریق پلتفرم‌های Google AI Studio و Vertex AI در اختیار توسعه‌دهندگان قرار گرفته است. گوگل نسخه دموی این مدل را نیز در سایت Browserbase برای تست و بررسی ارائه کرده است؛ جایی که می‌توان دید مدل هوش مصنوعی جدید چگونه 2048 بازی می‌کند یا اخبار هکرها را برای بحث‌های پرطرفدار دنبال می‌کند.

منبع : Google


خرید گوشی موبایل سامسونگ گلکسی آ 55 از دیجی کالا