Thinking Machines, a venture de IA lançada pela ex-diretora de tecnologia da OpenAI Mira Murati, revelou na segunda-feira que está construindo o que chama de 'modelos de interação'. A empresa descreve esses modelos como capazes de ingerir fluxos de áudio, vídeo e texto ao mesmo tempo, e então pensar, responder e agir sem as pausas que caracterizam os sistemas gerativos atuais.
Os modelos atuais, de acordo com a empresa, esperam que o usuário termine de falar ou digitar antes de gerar uma resposta. Durante essa pausa, a percepção do modelo congela, perdendo qualquer novo sinal. 'Isso cria um canal estreito para a colaboração humano-IA', escreveu a empresa, comparando-a a tentar resolver um debate acalorado por e-mail em vez de face a face.
Os modelos de interação visam eliminar esse gargalo. Ao permanecer ciente de uma conversa em tempo real, eles podem se adaptar a mudanças de tom, gesto ou contexto à medida que ocorrem. A abordagem, disse Murati, permite que a IA encontre as pessoas onde elas estão, em vez de forçar os usuários a se contorcer para se adaptar à interface limitada da IA.
Demos ao vivo ilustram a promessa
Thinking Machines compartilhou vários vídeos de prova de conceito. Em um, o modelo ouve um contador de histórias e destaca cada menção a um animal, demonstrando processamento auditivo contínuo. Outro clipe mostra o sistema traduzindo linguagem falada em tempo real, enquanto um terceiro alerta um participante quando ele começa a se curvar, usando sinais visuais para fornecer feedback instantâneo. Os demos destacam a afirmação da empresa de que a interação multimodal em tempo real pode tornar a IA mais parecida com um parceiro de colaboração.
Murati, que fundou Thinking Machines em fevereiro de 2025 após deixar a OpenAI, reconheceu que a startup já enfrentou uma rotatividade significativa de funcionários, com alguns engenheiros-chave migrando para a Meta e até retornando à OpenAI. 'Aprendemos muito sobre construir equipes resilientes enquanto impulsionamos a fronteira da IA', disse ela.
A empresa não está oferecendo a tecnologia ao público ainda. Ela planeja uma 'visualização de pesquisa limitada' nos próximos meses, visando parceiros selecionados que possam ajudar a refinar os modelos. Uma liberação mais ampla está programada para mais tarde este ano, embora nenhum cronograma específico tenha sido fornecido.
Observadores da indústria notam que a IA em tempo real e multimodal pode abrir novas aplicações em educação, trabalho remoto e acessibilidade. Se bem-sucedida, os modelos de interação podem pressionar os principais players a acelerar capacidades semelhantes, potencialmente redesenhando como os desenvolvedores integram a IA em ferramentas cotidianas.
Por enquanto, Thinking Machines convida pesquisadores interessados a se inscreverem para atualizações em seu site. A empresa promete documentação técnica mais detalhada nas próximas semanas, oferecendo um vislumbre de um futuro em que a IA responde com a mesma fluidez que um colaborador humano.
Dieser Artikel wurde mit Unterstützung von KI verfasst.
News Factory SEO hilft Ihnen, Nachrichteninhalte für Ihre Website zu automatisieren.