Google anunció hoy que su modelo Gemini 3.5 Live Translate ya está disponible para el público, lo que marca un paso importante hacia la conversación multilingüe en tiempo real y sin interrupciones. El sistema de voz a voz detecta automáticamente el idioma hablado, lo traduce a más de 70 idiomas objetivo y reproduce la entonación, el ritmo y el tono del hablante. En la práctica, el modelo sigue el ritmo de un diálogo normal, con solo unos segundos de retraso con respecto a la expresión original.
La implementación sigue una serie de demos escalonados que Google ha presentado en su evento anual I/O y otros lanzamientos de productos. Si bien los prototipos anteriores requerían hardware específico, como teléfonos Pixel o Pixel Buds, Google afirma que la nueva oferta funciona en una gama más amplia de dispositivos e integra directamente la aplicación de Traductor, Google Meet y otros servicios. La empresa presenta el lanzamiento como la culminación de años de "experimentos pioneros de aprendizaje automático" destinados a romper las barreras del lenguaje.
Gemini 3.5 Live Translate pertenece a la familia de versión 3.5 que debutó anteriormente este año. Hasta ahora, solo la variante "Flash" del modelo ha llegado a los usuarios, con Google insinuando que una versión más potente "Pro" puede llegar en las próximas semanas. El modelo actual procesa la voz de forma continua, maneja entradas multilingües sin requerir que los desarrolladores configuren los ajustes de idioma manualmente. También incluye una supresión de ruido integrada, lo que permite una traducción clara incluso en entornos bulliciosos.
Los desarrolladores pueden comenzar a crear aplicaciones con el modelo a través de una versión de previsualización pública de la API Gemini Live y el AI Studio. La API ofrece un flujo de trabajo simplificado: los desarrolladores envían un flujo de audio continuo y el servicio devuelve la voz traducida en tiempo real. Google enfatiza que la baja latencia del sistema y la salida de voz de sonido natural reducen la sensación robótica que ha plagado las herramientas de traducción anteriores.
Los observadores de la industria señalan que el lanzamiento podría acelerar la adopción de la traducción en tiempo real en los negocios, la educación y los viajes. Al integrar la tecnología en todo su ecosistema, Google se posiciona para convertirse en la plataforma predeterminada para la comunicación multilingüe instantánea. La empresa no ha revelado detalles de precios para el nivel Pro upcoming, pero la previsualización sugiere un nivel gratuito para los desarrolladores que experimentan con la tecnología.
Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.