گوگل با معرفی مدل جدید Gemini 2.5 Computer Use مرز تازهای در تعامل هوش مصنوعی با دنیای دیجیتال گشود. این مدل به عاملهای هوشمند (AI Agents) اجازه میدهد تا همانند انسانها با صفحات وب و رابطهای کاربری نرمافزارها تعامل برقرار کنند؛ از کلیک و تایپ گرفته تا اسکرول، پر کردن فرمها و انجام کارهای پیچیده در محیطهای گرافیکی.
هوش مصنوعیای که میتواند «مثل انسان» با نرمافزار کار کند
بنابر گزارشی که در وبلاگ رسمی گوگل برای معرفی مدل Gemini 2.5 Computer Use منتشر شده، مدل جدید بر پایه تواناییهای درک تصویری و استدلال منطقی نسخه Gemini 2.5 Pro ساخته شده است. هدف گوگل از طراحی آن، ایجاد نسل تازهای از عاملهای هوش مصنوعی است که بهجای وابستگی صرف به APIها، مستقیماً با محیطهای گرافیکی تعامل کنند.
برای درک سادهتر، تصور کنید یک دستیار هوشمند دارید که میتواند خودش وارد سایت سازمان سنجش شود، فرم مشخصات فردی را پر کند و در نهایت نسخه PDF رسید ثبت نام را برای شما دانلود کند. نکته هیجانانگیز ماجرا اینجاست که این دستیار بدون اینکه نیاز به کدنویسی یا کنترل دستی داشته باشید این کار را برای شما انجام خواهد داد!
همین منطق میتواند در بسیاری از کاربردهای روزمره برای کاربر به کار گرفته شود؛ از ورود خودکار اطلاعات در پنل فروشگاههای آنلاین گرفته تا مدیریت حسابهای کاربری در سامانههای بانکی یا رزرو خدمات شهری.
نحوه عملکرد Gemini 2.5 Computer Use
هسته اصلی این فناوری ابزار جدیدی به نام computer_use در Gemini API است. برای استفاده از این ابزار، توسعهدهنده وظیفه موردنظر کاربر را به مدل میدهد و در کنار آن تصویری از محیط (Screenshot) و سابقه چند اقدام قبلی را ارسال میکند. مدل پس از تحلیل این دادهها، تصمیم میگیرد چه کاری باید انجام دهد. مثلاً مدل درک و بررسی خود را که انجام داد نتیجه این میشود که برای هر مرحله عملیات کلیک روی دکمه، وارد کردن متن یا باز کردن منوی کشویی را انجام دهد.
این فرآیند بهصورت چرخهای (Loop) ادامه میابد: مدل اقدام را انجام میدهد، نتیجه را میبیند، دوباره تصمیم میگیرد و همینطور تا پایان کار. در عمل، مدل مانند یک انسان پشت کامپیوتر مینشیند و کار را قدمبهقدم پیش میبرد.
سرعت بالا، خطای پایین و کنترل هوشمند مدل Computer Use
براساس اعلام DeepMind، این مدل در آزمایشهای مختلف از جمله Online-Mind2Web و WebVoyager عملکردی بهتر از ابزارهای مشابه داشته و در عین حال تأخیر کمتری دارد. گوگل میگوید نسخههای اولیه آن هماکنون در پروژههایی مانند Project Mariner، Firebase Testing Agent و حتی قابلیتهای هوشمند در Search به کار گرفته شدهاند.
به گفته تیم پلتفرم پرداخت گوگل، استفاده از این مدل باعث شده بیش از ۶۰ درصد از آزمایشهای شکستخورده رابط کاربری که پیشتر روزها زمان برای رفعشان نیاز بود، اکنون بهصورت خودکار ترمیم شوند.
گوگل همچنین بخشی را در وبلاگ خود برای ارائه بازخورد کاربران و مجموعههایی که موفق به تست این ابزار شدهاند گذاشته که در آن یکی از شرکتهای فعال در حوزه دستیارهای پیامرسان میگوید:
در بسیاری از گردشکارهایی که سرعت اهمیت دارد، Gemini 2.5 Computer Use تا ۵۰ درصد سریعتر و دقیقتر از رقبا عمل میکند.
کاربردهای احتمالی مدل دستیار انسانی گوگل برای توسعهدهندگان
با توجه به اینکه مدل در مرورگرهای وب بیشترین کارایی را دارد، توسعهدهندگان نیز میتوانند از آن برای خودکارسازی فرایندهایی استفاده کنند که معمولاً نیازمند تعامل انسانی هستند. بهعنوان نمونه میتوان از این ابزار برای امور زیر استفاده کرد:
- انجام خودکار تست رابط کاربری وباپلیکیشنها
- ورود دادهها در پنلهای سازمانی بدون نیاز به API رسمی
- مدیریت خودکار حسابهای کاربری یا بارگذاری اسناد در سامانههای اداری
- ساخت دستیارهای هوشمند برای مرورگر که کارهایی مانند خرید اینترنتی، رزرو نوبت یا پر کردن فرم را انجام دهند.
نباید نگران وجوه امنیتی رباتهای بر پایه این مدل باشیم؟
شاید با خواندن قابلیتها و نحوه عملکرد این مدل، شما نیز مانند بسیاری از کاربران به این فکر افتاده باشید که چنین پتانسیل خطرناکی میتواند به راحتی امنیت وبسایتهای ساده را تحت تاثیر قرار داده و حتی با آموزش گذر از کپچا و مراحل احراز هویت ساده، انبوه رباتهای ساخته شده بر پایه این مدل بتوانند ایمنی کاربران را در هر سطحی به خطر بیندازند.
در پاسخ به این نگرانیها گوگل اعلام کرده که افزون بر انبوه قابلیتها، لایهای از نظارت ایمنی را نیز برای بررسی صحت و امنیت عملکرد این ابزار نظر گرفته است. پیش از اجرای هر عمل، سامانه ایمنی اختصاصی، آن را بررسی میکند تا از سوءاستفادههای احتمالی جلوگیری شود. توسعهدهندگان همچنین میتوانند برخی دستورات را مسدود کنند یا برای عملیات حساس مانند پرداخت، تأیید کاربر را الزامی سازند.
چگونه از دستیار انسانی Computer Use استفاده کنیم؟
بنابر اعلام رسمی گوگل، دسترسی به این ابزار جذاب از امروز برای همه توسعهدهندگان و کاربران فراهم است. فقط کافیست از طریق Google AI Studio یا Vertex AI وارد شده و مراحل مشخص و ساده اضافه کردن این قابلیت را به پروژههای خود به کار گیرید. گوگل همچنین برای آزمایش عملی این مدل، محیط نمایشی Browserbase نیز در دسترس کاربران قرار داده است.
بهگفته گوگل، این مدل فعلاً برای مرورگرهای وب بهینه شده اما در کنترل رابط کاربری موبایل نیز نتایج امیدوارکنندهای داشته است. نسخههای آینده احتمالاً کنترل سطح سیستمعامل دسکتاپ را هم پوشش خواهند داد.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت