News Factory: Thinking Machines Lab presenta modelo de voz de inteligencia artificial de doble sentido con respuestas en menos de un segundo

Thinking Machines Lab, la empresa lanzada el año pasado por la ex directora de tecnología de OpenAI Mira Murati, presentó su primer modelo de interacción de doble sentido el martes. Denominado TML-Interaction-Small, el sistema puede procesar el habla entrante mientras elabora una respuesta, reduciendo el tiempo de respuesta a aproximadamente 0,40 segundos. Esa latencia sitúa al modelo cerca de la velocidad de la conversación humana ordinaria, según afirma la empresa.

La capacidad de doble sentido marca un cambio en el estilo de push-to-talk de la mayoría de los asistentes de inteligencia artificial, que esperan a que el hablante termine antes de generar una respuesta. Al superponer la escucha y el habla, el nuevo modelo busca reducir las pausas que hacen que los asistentes de voz se sientan artificiales. En una demostración, el sistema respondió a preguntas de seguimiento sin la habitual demora de medio segundo, dando la impresión de un diálogo más natural.

El equipo de Murati afirma que la ventaja de velocidad también supera las ofertas comparables de importantes laboratorios de inteligencia artificial como OpenAI y Google, aunque la afirmación se basa en benchmarks internos. La empresa no ha publicado precios, soporte de plataformas ni datos de rendimiento fuera de pruebas controladas. Esos detalles siguen pendientes mientras la tecnología se mueve de la previsualización de investigación a una disponibilidad más amplia.

El acceso a TML-Interaction-Small será limitado al principio. La empresa planea una previsualización de investigación en los próximos meses, seguida de un lanzamiento más amplio más tarde este año. Los desarrolladores y empresas interesados pueden solicitar acceso anticipado, pero la empresa no ha divulgado los criterios de selección. La previsualización permitirá a los participantes evaluar si las respuestas en menos de un segundo se traducen en experiencias de usuario más fluidas en aplicaciones del mundo real.

Los observadores de la industria señalan que una toma de turnos más rápida por sí sola no garantiza una mejor conversación. Un asistente que habla demasiado pronto puede interrumpir al usuario o malinterpretar la entrada parcial, creando nuevos puntos de fricción. El desafío, reconoce Murati, es equilibrar la velocidad con la precisión del tiempo, asegurando que la inteligencia artificial intervenga solo cuando tenga suficiente contexto para responder con precisión.

Si el modelo cumple con su promesa, el impacto podría sentirse en todo el mundo, desde teléfonos inteligentes hasta altavoces inteligentes y sistemas de infoentretenimiento para automóviles. Los usuarios que dependen de asistentes de voz para aclaraciones rápidas o tareas sin manos experimentarían menos silencios incómodos. Para los desarrolladores, la tecnología abre la puerta a aplicaciones de voz más dinámicas que se sienten conversacionales en lugar de ser guionizadas.

Mientras que el anuncio generó entusiasmo, la prueba práctica llegará cuando los participantes de la previsualización sometan el modelo a escenarios cotidianos. La comunidad de inteligencia artificial observará de cerca para ver si el benchmark de 0,40 segundos se mantiene bajo acentos diversos, ruido de fondo y consultas complejas. Hasta entonces, el avance de doble sentido de Thinking Machines Lab sigue siendo una visión prometedora del futuro en el que hablar con máquinas se siente tan natural como hablar con otra persona.

Este artículo fue escrito con la asistencia de IA.
News Factory SEO te ayuda a automatizar contenido de noticias para tu sitio.

Thinking Machines Lab presenta modelo de voz de inteligencia artificial de doble sentido con respuestas en menos de un segundo

Key Points

También disponible en: