Sentindo uma lacuna cada vez maior em relação aos rivais dos EUA, a SenseTime lançou o SenseNova U1 na terça-feira, oferecendo-o ao público de forma gratuita no Hugging Face e no GitHub. O modelo de código aberto, segundo a empresa, pode gerar e interpretar imagens sem primeiro convertê-las em texto, um atalho que reduz o tempo de processamento e diminui a carga de hardware.

"O processo de raciocínio do modelo não está mais limitado ao texto. Ele pode raciocinar com imagens também", disse Dahua Lin, co-fundador e cientista-chefe da SenseTime, em uma entrevista. Lin, que também leciona engenharia de informação na Universidade Chinesa de Hong Kong, destacou a vantagem para robôs que precisam tomar decisões rápidas em ambientes desordenados.

O SenseNova U1 funciona em chips feitos na China, uma escolha estratégica após as restrições de exportação dos EUA terem impedido a empresa de acessar os processadores de IA mais avançados, principalmente os da Nvidia. Dez projetistas de chips domésticos, entre eles Cambricon e Biren Technology, anunciaram compatibilidade com o modelo no dia do lançamento. Lin observou que, embora a empresa continue a explorar o treinamento em uma variedade de chips, o melhor desempenho ainda pode exigir hardware de ponta.

A velocidade do modelo decorre de uma nova arquitetura chamada NEO-Unify, que a SenseTime previewou no início do ano. De acordo com o relatório técnico da empresa, o NEO-Unify permite que o sistema lide com dados visuais de forma nativa, contornando a etapa de tradução de texto que atrasa muitos concorrentes. O resultado é uma geração de imagens mais rápida e um consumo de energia mais baixo, permitindo que o modelo funcione em PCs e smartphones.

Observadores da indústria veem a medida como uma tentativa de se igualar a startups domésticas como DeepSeek e MiniMax e líderes ocidentais como o GPT-Image-2.0 da OpenAI. Embora o SenseNova U1 supostamente iguale a qualidade de imagem dos principais modelos de código fechado chineses, como o Qwen da Alibaba e o Seedream da ByteDance, seu principal ponto de venda é a velocidade.

A abertura do modelo também abre a porta para uma colaboração mais ampla. Pesquisadores do Hugging Face elogiaram o lançamento, observando que testes da comunidade podem revelar desafios práticos cedo. Lin enfatizou que os feedbacks da comunidade de código aberto aceleram a iteração, um fator que ele acredita agora supera a discussão sobre código fechado versus código aberto.

Além das tarefas de imagem, a SenseTime vislumbra aplicações em robótica. Ao processar entradas visuais diretamente, um robô pode identificar objetos mais rapidamente, avaliar máquinas complexas e decidir sobre ações sem a latência introduzida pelo raciocínio baseado em texto. Lin insinuou que está trabalhando com a ACE Robotics, uma startup co-fundada por outro executivo da SenseTime, para incorporar o modelo em plataformas humanoides futuras.

O lançamento ocorre em meio a sanções repetidas dos EUA que acusam a SenseTime de permitir a vigilância em Xinjiang, alegações que a empresa nega. Essas restrições limitaram o investimento estrangeiro e as transferências de tecnologia, levando a empresa a apostar em recursos domésticos e desenvolvimento de código aberto como uma forma de contornar obstáculos geopolíticos.

Agora que o SenseNova U1 está disponível publicamente, a comunidade de IA pode testar suas alegações, e a SenseTime espera que o modelo ajude a empresa a reaver uma posição de liderança no cenário de IA em movimento rápido da China.

This article was written with the assistance of AI.
News Factory SEO helps you automate news content for your site.