Ante la creciente brecha con los rivales estadounidenses, SenseTime lanzó SenseNova U1 el martes, ofreciéndolo al público de forma gratuita en Hugging Face y GitHub. El modelo de código abierto, según la empresa, puede generar e interpretar imágenes sin necesidad de convertirlas a texto, un atajo que reduce el tiempo de procesamiento y la carga de hardware.

"El proceso de razonamiento del modelo ya no se limita al texto. Puede razonar con imágenes también", dijo Dahua Lin, cofundador y científico jefe de SenseTime, en una entrevista. Lin, quien también enseña ingeniería de la información en la Universidad China de Hong Kong, destacó la ventaja para los robots que deben tomar decisiones rápidas en entornos complejos.

SenseNova U1 se ejecuta en chips fabricados en China, una elección estratégica después de que los controles de exportación de EE. UU. impidieron que la empresa accediera a los procesadores de inteligencia artificial más avanzados, en particular aquellos de Nvidia. Diez diseñadores de chips nacionales, entre ellos Cambricon y Biren Technology, anunciaron compatibilidad con el modelo el día de su lanzamiento. Lin señaló que, aunque la empresa seguirá explorando la capacitación en una variedad de chips, el mejor rendimiento puede requerir aún hardware de nivel superior.

La velocidad del modelo se debe a una nueva arquitectura llamada NEO-Unify, que SenseTime presentó previamente este año. Según el informe técnico de la empresa, NEO-Unify permite que el sistema maneje datos visuales de forma nativa, evitando el paso de traducción de texto que ralentiza a muchos competidores. El resultado es una generación de imágenes más rápida y un consumo de energía más bajo, lo que permite que el modelo se ejecute en PCs y smartphones.

Los observadores de la industria ven el movimiento como un intento por ponerse al día con startups nacionales como DeepSeek y MiniMax, y con líderes occidentales como GPT-Image-2.0 de OpenAI. Aunque SenseNova U1 reportedly iguala la calidad de imagen de los modelos chinos de código cerrado líderes, como Qwen de Alibaba y Seedream de ByteDance, su principal punto de venta es la velocidad.

La publicación del modelo de código abierto también abre la puerta a una colaboración más amplia. Los investigadores de Hugging Face elogiaron el lanzamiento, señalando que las pruebas de la comunidad pueden revelar desafíos prácticos temprano. Lin enfatizó que los comentarios de la comunidad de código abierto aceleran la iteración, un factor que cree que ahora supera el debate sobre código cerrado versus código abierto.

Más allá de las tareas de imagen, SenseTime imagina aplicaciones de robótica. Al procesar entradas visuales directamente, un robot podría identificar objetos más rápidamente, evaluar maquinaria compleja y decidir acciones sin la latencia introducida por el razonamiento basado en texto. Lin insinuó que se está trabajando con ACE Robotics, una startup cofundada por otro ejecutivo de SenseTime, para integrar el modelo en futuras plataformas humanoides.

El lanzamiento se produce en medio de repetidas sanciones de EE. UU. que acusan a SenseTime de habilitar la vigilancia en Xinjiang, alegaciones que la empresa niega. Esas restricciones han limitado la inversión extranjera y las transferencias de tecnología, lo que ha llevado a la empresa a apostar por recursos nacionales y desarrollo de código abierto como una forma de sortear obstáculos geopolíticos.

Con SenseNova U1 ahora disponible públicamente, la comunidad de inteligencia artificial puede probar sus afirmaciones, y SenseTime espera que el modelo ayude a la empresa a recuperar una posición líder en el panorama de inteligencia artificial en movimiento en China.

Cet article a été rédigé avec l'assistance de l'IA.
News Factory SEO vous aide à automatiser le contenu d'actualités pour votre site.