گوگل مدل Gemini 2.5 Computer Use را معرفی کرده که با کلیک، اسکرول و تایپ، مانند انسان با GUI تعامل میکند. برخلاف مدلهای API-محور، این هوش از اسکرینشاتها برای تحلیل و اقدام استفاده میکند و ۱۳ عملیات اصلی را پشتیبانی مینماید. این فناوری پشت Project Mariner است و وظایف پیچیده را خودکار میسازد.
دموها و برتری در بنچمارکها در دموها، مدل اطلاعات حیوانات را از وب استخراج و در CRM وارد میکند یا یادداشتها را مرتب مینماید. یک روز پس از OpenAI، این مدل به ChatGPT Agent و Claude’s Computer Use پاسخ میدهد و در کنترل وب برتر است، هرچند محدود به مرورگرها. این پیشرفت، خودکارسازی را به سطح جدیدی میبرد.
دسترسی برای توسعهدهندگان و رقابت مدل از امروز در Google AI Studio و Vertex AI پیشنمایش است. در رقابت شدید، گوگل بر بصریبودن تمرکز کرده و آیندهای از ایجنتهای وبمحور را نوید میدهد.