معرفی مدل Gemini 2.5 Computer Use؛ دستیار هوش مصنوعی گوگل حالا می‌تواند مثل انسان با وب‌سایت‌ها کار کند

توضیحات: وحید علی‌محمدی; دسته: اخبار فناوری; 17 مهر 1404 17:00

گوگل با معرفی مدل جدید Gemini 2.5 Computer Use مرز تازه‌ای در تعامل هوش مصنوعی با دنیای دیجیتال گشود. این مدل به عامل‌های هوشمند (AI Agents) اجازه می‌دهد تا همانند انسان‌ها با صفحات وب و رابط‌های کاربری نرم‌افزارها تعامل برقرار کنند؛ از کلیک و تایپ گرفته تا اسکرول، پر کردن فرم‌ها و انجام کارهای پیچیده در محیط‌های گرافیکی.

هوش مصنوعی‌ای که می‌تواند «مثل انسان» با نرم‌افزار کار کند

بنابر گزارشی که در وبلاگ رسمی گوگل برای معرفی مدل Gemini 2.5 Computer Use منتشر شده، مدل جدید بر پایه توانایی‌های درک تصویری و استدلال منطقی نسخه Gemini 2.5 Pro ساخته شده است. هدف گوگل از طراحی آن، ایجاد نسل تازه‌ای از عامل‌های هوش مصنوعی است که به‌جای وابستگی صرف به APIها، مستقیماً با محیط‌های گرافیکی تعامل کنند.

برای درک ساده‌تر، تصور کنید یک دستیار هوشمند دارید که می‌تواند خودش وارد سایت سازمان سنجش شود، فرم مشخصات فردی را پر کند و در نهایت نسخه PDF رسید ثبت نام را برای شما دانلود کند. نکته هیجان‌انگیز ماجرا اینجاست که این دستیار بدون اینکه نیاز به کدنویسی یا کنترل دستی داشته باشید این کار را برای شما انجام خواهد داد!

همین منطق می‌تواند در بسیاری از کاربردهای روزمره برای کاربر به کار گرفته شود؛ از ورود خودکار اطلاعات در پنل فروشگاه‌های آنلاین گرفته تا مدیریت حساب‌های کاربری در سامانه‌های بانکی یا رزرو خدمات شهری.

نحوه عملکرد Gemini 2.5 Computer Use

هسته اصلی این فناوری ابزار جدیدی به نام computer_use در Gemini API است. برای استفاده از این ابزار، توسعه‌دهنده وظیفه موردنظر کاربر را به مدل می‌دهد و در کنار آن تصویری از محیط (Screenshot) و سابقه چند اقدام قبلی را ارسال می‌کند. مدل پس از تحلیل این داده‌ها، تصمیم می‌گیرد چه کاری باید انجام دهد. مثلاً مدل درک و بررسی خود را که انجام داد نتیجه این می‌شود که برای هر مرحله عملیات کلیک روی دکمه، وارد کردن متن یا باز کردن منوی کشویی را انجام دهد.

این فرآیند به‌صورت چرخه‌ای (Loop) ادامه میابد: مدل اقدام را انجام می‌دهد، نتیجه را می‌بیند، دوباره تصمیم می‌گیرد و همین‌طور تا پایان کار. در عمل، مدل مانند یک انسان پشت کامپیوتر می‌نشیند و کار را قدم‌به‌قدم پیش می‌برد.

سرعت بالا، خطای پایین و کنترل هوشمند مدل Computer Use

براساس اعلام DeepMind، این مدل در آزمایش‌های مختلف از جمله Online-Mind2Web و WebVoyager عملکردی بهتر از ابزارهای مشابه داشته و در عین حال تأخیر کمتری دارد. گوگل می‌گوید نسخه‌های اولیه آن هم‌اکنون در پروژه‌هایی مانند Project Mariner، Firebase Testing Agent و حتی قابلیت‌های هوشمند در Search به کار گرفته شده‌اند.

به گفته تیم پلتفرم پرداخت گوگل، استفاده از این مدل باعث شده بیش از ۶۰ درصد از آزمایش‌های شکست‌خورده رابط کاربری که پیش‌تر روزها زمان برای رفعشان نیاز بود، اکنون به‌صورت خودکار ترمیم شوند.

گوگل همچنین بخشی را در وبلاگ خود برای ارائه بازخورد کاربران و مجموعه‌هایی که موفق به تست این ابزار شده‌اند گذاشته که در آن یکی از شرکت‌های فعال در حوزه دستیارهای پیام‌رسان می‌گوید:

در بسیاری از گردش‌کارهایی که سرعت اهمیت دارد، Gemini 2.5 Computer Use تا ۵۰ درصد سریع‌تر و دقیق‌تر از رقبا عمل می‌کند.

کاربردهای احتمالی مدل دستیار انسانی گوگل برای توسعه‌دهندگان

با توجه به اینکه مدل در مرورگرهای وب بیشترین کارایی را دارد، توسعه‌دهندگان نیز می‌توانند از آن برای خودکارسازی فرایندهایی استفاده کنند که معمولاً نیازمند تعامل انسانی هستند. به‌عنوان نمونه می‌توان از این ابزار برای امور زیر استفاده کرد:

انجام خودکار تست رابط کاربری وب‌اپلیکیشن‌ها
ورود داده‌ها در پنل‌های سازمانی بدون نیاز به API رسمی
مدیریت خودکار حساب‌های کاربری یا بارگذاری اسناد در سامانه‌های اداری
ساخت دستیارهای هوشمند برای مرورگر که کارهایی مانند خرید اینترنتی، رزرو نوبت یا پر کردن فرم را انجام دهند.

نباید نگران وجوه امنیتی ربات‌های بر پایه این مدل باشیم؟

شاید با خواندن قابلیت‌ها و نحوه عملکرد این مدل، شما نیز مانند بسیاری از کاربران به این فکر افتاده باشید که چنین پتانسیل خطرناکی می‌تواند به راحتی امنیت وبسایت‌های ساده را تحت تاثیر قرار داده و حتی با آموزش گذر از کپچا و مراحل احراز هویت ساده، انبوه ربات‌های ساخته شده بر پایه این مدل بتوانند ایمنی کاربران را در هر سطحی به خطر بیندازند.

در پاسخ به این نگرانی‌ها گوگل اعلام کرده که افزون بر انبوه قابلیت‌ها، لایه‌ای از نظارت ایمنی را نیز برای بررسی صحت و امنیت عملکرد این ابزار نظر گرفته است. پیش از اجرای هر عمل، سامانه ایمنی اختصاصی، آن را بررسی می‌کند تا از سوء‌استفاده‌های احتمالی جلوگیری شود. توسعه‌دهندگان همچنین می‌توانند برخی دستورات را مسدود کنند یا برای عملیات حساس مانند پرداخت، تأیید کاربر را الزامی سازند.

چگونه از دستیار انسانی Computer Use استفاده کنیم؟

بنابر اعلام رسمی گوگل، دسترسی به این ابزار جذاب از امروز برای همه توسعه‌دهندگان و کاربران فراهم است. فقط کافیست از طریق Google AI Studio یا Vertex AI وارد شده و مراحل مشخص و ساده اضافه کردن این قابلیت را به پروژه‌های خود به کار گیرید. گوگل همچنین برای آزمایش عملی این مدل، محیط نمایشی Browserbase نیز در دسترس کاربران قرار داده است.

به‌گفته گوگل، این مدل فعلاً برای مرورگرهای وب بهینه شده اما در کنترل رابط کاربری موبایل نیز نتایج امیدوارکننده‌ای داشته است. نسخه‌های آینده احتمالاً کنترل سطح سیستم‌عامل دسکتاپ را هم پوشش خواهند داد.

در همین رابطه بخوانید:

- خرید سرور هوش مصنوعی

تگ ها