معرفی مدل هوش مصنوعی Gemini 2.5 Computer Use – گام نوین گوگل در تعامل با صفحات وب
نمایش خبر
تاریخ : 1404/7/18 نویسنده: مریم رشنو | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، گوگل Google |


این خبر گوگل درست یک روز پس از معرفی اپلیکیشنهای جدید ChatGPT از سوی OpenAI بهعنوان بخشی از برنامه سالانه این شرکت موسوم به Dev Day منتشر شده است و نشان میدهد OpenAI همچنان بر قابلیت ChatGPT Agent تمرکز دارد که میتواند وظایف پیچیده را از طرف کاربر انجام دهد. شرکت Anthropic نیز اواخر سال گذشته میلادی مدل هوش مصنوعی Claude را با قابلیت کار کردن در کامپیوتر ارائه کرده بود.
Gemini 2.5 Computer Use بر اساس «قابلیتهای استدلال و درک بصری» Gemini 2.5 Pro ساخته شده است و میتواند طیف گستردهای از کارهای مبتنی بر مرورگر مانند تایپ کردن، اسکرول، باز کردن منوهای کشویی، جستوجو در وب و پیمایش در URLها را انجام دهد. گوگل مدعی است که این مدل در چند بنچمارک از جمله Online Mind2Web ،WebVoyager و AndroidWorld در مقایسه با ابزارهای رقیب نه تنها عملکرد بهتری دارد، بلکه تأخیر آن نیز کمتر است.

البته مدل AI جدید گوگل بر خلاف ابزارهای مشابه ChatGPT Agent و Anthropic تنها به مرورگر دسترسی دارد و به گفته شرکت آمریکایی «هنوز برای کنترل در سطح سیستمعامل دسکتاپ بهینه نشده است.» در نتیجه همان طور که اشاره شد، در حال حاضر تنها از ۱۳ اقدام (action) مانند باز کردن مرورگر وب، نوشتن متن و کشیدن و رها کردن المانها پشتیبانی میکند.
گوگل پیش از این هم از نسخههای دیگر این مدل برای قابلیتهای عاملی در AI Mode و Project Mariner استفاده کرده بود. Project Mariner یک پیشنمونه تحقیقاتی محسوب میشود که عاملهای هوش مصنوعی را برای انجام خودکار وظایف (tasks) در یک مرورگر مانند اضافه کردن اقلام به سبد خرید بر اساس یک فهرست به کار میگیرد.
در Gemini 2.5 Computer Use بر خلاف مدلهای سنتی هوش مصنوعی که بر APIها اتکا دارند، چند مرحله در قالب یک چرخه انجام میشود تا وظیفه کامل شود. گام نخست این فرایند ارسال درخواست به مدل است که ورودیهای آن «درخواست کاربر، تصویر لحظهای یا اسکرینشات از محیط کاربری و تاریخچهای از اقدامات اخیر» است. در مرحله بعدی، «مدل [هوش مصنوعی] این ورودیها را تحلیل و به آنها پاسخ میدهد. این پاسخ یک فراخوانی تابع و نمایانگر یکی از اقدامات رابط کاربری مانند کلیک روی یک دکمه یا تایپ در فیلد است.»

در گام بعدی پاسخ مدل دریافت میشود، به این معنا که « کد سمت کلاینت اقدام مورد نظر را اجرا میکند.» در نهایت «پس از اجرای اقدام، یک اسکرینشات جدید از رابط کاربری گرافیکی و URL فعلی به مدل Computer Use ارسال و این چرخه از نو آغاز میشود.»
گوگل عملکرد این مدل را با چند ویدئو به نمایش گذاشته که نشان میدهد عامل، یادداشتها (sticky notes) را روی یک تخته (whiteboard) دیجیتال مرتب میکند و جزئیات مربوط به یک حیوان خانگی را از یک وبسایت به سامانه CRM منتقل میکند.البته ویدئوهای دموی این عملیات برای نمایش فرآیند در زمان واقعی سهبرابر سریعتر شدهاند.
غول آمریکایی برای این مدل اقدامات ایمنی را به منظور جلوگیری از سوء استفاده در نظر گرفته است به این ترتیب که هر اقدام پیشنهادی توسط این مدل پیش از اجرا از طریق یک سرویس ایمنی بررسی میشود. همچنین توسعهدهندگان میتوانند اقدامات خاصی را محدود کنند یا برای کارهای پرریسک مانند تراکنشهای مالی، تأیید صحیح کاربران را الزامی سازند.

در حال حاضر چند تیم داخلی در گوگل Gemini 2.5 Computer Use را در مرحله تولید استفاده میکنند. این مدل از تست رابط کاربری و وظایف اتوماسیون در پلتفرمهایی مانند Search و Firebase پشتیبانی میکند. توسعهدهندگان خارجی نیز از این مدل در برنامه دسترسی اولیه برای ساخت اتوماسیون گردش کار و ابزارهای دستیار استفاده کردهاند.
Gemini 2.5 Computer Use در حال حاضر از طریق پلتفرمهای Google AI Studio و Vertex AI در اختیار توسعهدهندگان قرار گرفته است. گوگل نسخه دموی این مدل را نیز در سایت Browserbase برای تست و بررسی ارائه کرده است؛ جایی که میتوان دید مدل هوش مصنوعی جدید چگونه 2048 بازی میکند یا اخبار هکرها را برای بحثهای پرطرفدار دنبال میکند.
-
سامسونگ Galaxy S25 FE در نگاه رسانهها - نقاط ضعف و قوت از دید حرفهایها
-
معرفی مدل هوش مصنوعی Gemini 2.5 Computer Use – گام نوین گوگل در تعامل با صفحات وب
-
معرفی ISOCELL HP5 حسگر دوربین 200 مگاپیکسلی جدید سامسونگ با پیکسلهای کوچک نیم میکرونی
-
معرفی vivo V60e – ورژن بهصرفهترِ vivo V60 با دوربین 200 مگاپیکسلی و Dimensity 7360-Turbo
-
معرفی UFS 5.0؛ نسل جدید حافظههای پر سرعت با سرعتی فراتر از 10GB/s
-
چالشهای پیش روی OpenAI و جانی آیو در تولید یک گجت هوش مصنوعی جدید
-
معرفی HMD Touch 4G با صفحهنمایش 3.2 اینچی و اپهای ابری - تولد دوباره Nokia Asha با فقط 45 دلار!