En su evento I/O 2026, Google anunció que Gemini 3.5 Flash ahora incluye una herramienta de uso de computadora nativa, reemplazando el modelo Gemini 2.5 anterior. La integración permite a los agentes de inteligencia artificial ver pantallas, razonar sobre el contenido visual y tomar acciones como hacer clic en botones, escribir texto y desplazarse a través de navegadores, aplicaciones móviles y interfaces de escritorio, todo a través de la API de Gemini y la plataforma de agente empresarial de Gemini, anteriormente conocida como Vertex AI.

Los desarrolladores ya no necesitan invocar un modelo separado para manejar interfaces gráficas. El gerente de producto Mateo Quiros describió el cambio como dar a Flash la capacidad de "ver, razonar y tomar acción en pantallas" junto con sus herramientas existentes para ejecución de código, búsqueda y llamadas a funciones. El flujo de trabajo anterior requería un bucle de captura de pantalla-acción: los desarrolladores enviaban una captura de pantalla, el modelo devolvía un comando estructurado, el sistema ejecutaba el comando y la vista actualizada se devolvía. Integrar la capacidad en Flash consolidó ese proceso de dos modelos en un flujo único y simplificado.

Google presenta la función como más que una actualización de chatbot. Los usuarios empresariales pueden automatizar pruebas de software continuas, permitiendo que los agentes naveguen por aplicaciones y verifiquen la funcionalidad sin que los testers humanos deban pasar por cada pantalla. Los trabajadores del conocimiento también podrían emplear agentes para completar tareas de navegador de varios pasos, llenar formularios, extraer datos de paneles de control o moverse a través de herramientas internas.

La seguridad es un enfoque central. Google dice que aplicó un entrenamiento adversarial dirigido para protegerse contra ataques de inyección de instrucciones, donde las instrucciones maliciosas incrustadas en una página web o documento engañan a un agente de inteligencia artificial para que realice acciones no deseadas. La empresa ofrece dos salvaguardas de seguridad opcionales en addition a al modelo base. La primera solicita a los usuarios una confirmación explícita antes de que el agente realice cualquier acción considerada sensible o irreversible, como enviar un formulario, realizar una compra o eliminar datos. La segunda detiene automáticamente al agente si detecta un intento de inyección de instrucciones indirecto, deteniendo la ejecución en lugar de arriesgar una acción comprometida. Ambas medidas son opt-in, y Google recomienda una estrategia de "defensa en profundidad" que capa múltiples protecciones.

El panorama competitivo ha cambiado desde que Anthropic introdujo Claude Computer Use, que funciona en varios sistemas operativos y puede interactuar con sistemas de archivos, no solo navegadores. Chrome Enterprise de Google ya agregó características de navegación autónoma anteriormente este año, y la nueva integración de Flash extiende esa filosofía más allá de Chrome a cualquier pantalla que un agente pueda ver. OpenAI también ha entrado en el espacio, convirtiendo el mercado en una competencia de tres vías centrada en la seguridad tanto como en la capacidad.

Google no ha publicado puntuaciones de benchmark actualizadas para la herramienta integrada, ni ha revelado cuántas empresas han adoptado la tecnología. La publicación del blog de la empresa menciona el entrenamiento adversarial dirigido pero no proporciona investigación publicada o resultados de equipo rojo. El precio sigue un modelo de pago por uso en la plataforma de agente empresarial de Gemini, con Flash posicionado como uno de los modelos más baratos en la línea de Google, lo que potencialmente reduce la barrera para la automatización a gran escala.

Mientras que la integración señala la confianza en la madurez de la inteligencia artificial de uso de computadora, las salvaguardas opt-in reconocen que la tecnología todavía lucha con emergentes inesperados, CAPTCHAs, contenido cargado dinámicamente y diseños desconocidos. La decisión de Google de hacer que la capacidad esté disponible de forma general sugiere que está lista para muchas tareas del mundo real, sin embargo, las barreras de seguridad recuerdan a los usuarios que la operación no supervisada sigue siendo riesgosa.

Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.