OpenAI lanzó tres nuevos modelos de audio el martes, dando a los desarrolladores una caja de herramientas que mueve la IA de voz de respuestas preestablecidas a interacciones en tiempo real y fluidas. El modelo principal, GPT-Realtime-2, trae el poder de razonamiento de GPT-5 a diálogos hablados en vivo. Puede manejar múltiples herramientas en una sola solicitud, narrar sus acciones y mantener la coherencia durante intercambios más largos gracias a una ventana de contexto de 128K tokens. Los desarrolladores también pueden ajustar el esfuerzo de razonamiento del modelo hacia arriba o hacia abajo, coincidiendo con el cómputo con la complejidad de la consulta del usuario.
Igualmente llamativo es GPT-Realtime-Traducir, que OpenAI promociona como la aproximación más cercana al Traductor Universal de Star Trek. El modelo admite la traducción de habla en vivo desde más de 70 idiomas de origen a 13 idiomas de destino. En footage de demostración, un nuevo participante que habla un idioma diferente se unió a una conversación en curso y el sistema renderizó instantáneamente a ambos hablantes al inglés sin perder el ritmo.
La tercera oferta, GPT-Realtime-Susurro, aborda una limitación de larga data de los servicios de habla a texto: la latencia. A diferencia de los modelos de transcripción por lotes que esperan a que el hablante pause, Susurro transmite texto mientras se hablan las palabras. La capacidad es ideal para subtítulos en vivo, notas de reuniones y cualquier flujo de trabajo donde esperar una transcripción completa sería un cuello de botella.
OpenAI ha abierto los modelos a los desarrolladores hoy, y varias empresas ya los están probando. La plataforma de bienes raíces Zillow está creando un prototipo de asistente de voz que puede buscar listados y programar visitas con un solo comando hablado. El agregador de viajes Priceline está experimentando con la gestión de vuelos y hoteles impulsada por voz, incluyendo cancelaciones y reprogramaciones. El servicio de alojamiento de videos Vimeo planea incrustar Susurro para subtítulos en tiempo real de transmisiones en vivo.
Los precios varían según el modelo. Susurro cuesta $0,017 por minuto de audio, Traducir es $0,034 por minuto, y GPT-Realtime-2 se factura a $32 por cada millón de tokens de audio de entrada. La estructura por niveles refleja las diferentes demandas de cómputo de la transcripción, la traducción y el razonamiento a gran escala.
Los observadores de la industria ven el lanzamiento como un momento crucial para las aplicaciones de voz en primer lugar. Al combinar el razonamiento profundo, la traducción multilingüe y la transcripción instantánea, OpenAI da a los desarrolladores los bloques de construcción para crear asistentes que pueden reservar citas, solucionar problemas y facilitar la colaboración entre idiomas, todo sin que el usuario tenga que escribir una sola palabra.
This article was written with the assistance of AI.
News Factory SEO helps you automate news content for your site.